Descubre cómo el nuevo LFM2.5-230M de Liquid AI redefine la eficiencia en modelos de lenguaje pequeños, permitiendo tareas agénticas en dispositivos edge con una velocidad asombrosa.

El panorama de la inteligencia artificial está experimentando un cambio de paradigma. Mientras el mundo se obsesiona con modelos de billones de parámetros que requieren granjas de GPUs masivas, Liquid AI ha decidido mirar hacia donde reside la verdadera acción: el borde (edge). El lanzamiento del LFM2.5-230M el 25 de junio de 2026 marca un hito en la computación local.
Este modelo no es simplemente 'otro modelo pequeño'. Es una herramienta diseñada específicamente para la era de la IA agéntica, donde la latencia y la privacidad son críticas. Ya sea en un smartphone, un robot de servicio o un sistema de automatización doméstica, el LFM2.5-230M está diseñado para ejecutar tareas complejas sin enviar un solo bit a la nube.
El LFM2.5-230M es el modelo más compacto de la familia Liquid AI hasta la fecha, pero su arquitectura es anything but small. Construido sobre la avanzada arquitectura LFM2, este modelo de 230 millones de parámetros ha sido entrenado con una escala de datos sin precedentes para su tamaño: 19 billones (19T) de tokens.
Para maximizar su capacidad de razonamiento y comprensión de contextos largos, Liquid AI ha implementado una extensión de contexto de 32K. Además, el modelo ha pasado por un proceso de post-entrenamiento mediante destilación de conocimiento desde el modelo LFM2.5-350M, lo que le permite retener capacidades cognitivas que normalmente requerirían un modelo mucho más pesado.
Lo que realmente separa al LFM2.5-230M de sus competidores es su rendimiento bruto en hardware de consumo. En un Samsung Galaxy S25 Ultra (utilizando la CPU), el modelo alcanza una velocidad de decodificación de 213 tokens por segundo. Incluso en hardware mucho más limitado como una Raspberry Pi 5, logra 42 tokens por segundo, una cifra impresionante para un dispositivo de este tipo.
En términos de eficiencia de recursos, el modelo ofrece el mayor throughput de prefill y decodificación en su clase, manteniendo la huella de memoria más pequeña del mercado. Sorprendentemente, en tareas de seguimiento de instrucciones (instruction following), extracción de datos y uso de herramientas (tool use), el LFM2.5-230M compite y supera con frecuencia a modelos que tienen más del doble de su tamaño.
El potencial de despliegue es masivo. En entornos empresariales, es perfecto para pipelines de extracción de datos a gran escala donde la latencia debe ser mínima. Sin embargo, el caso de uso más emocionante es la robótica. En una demostración reciente, el modelo fue desplegado en un robot Unitree G1, corriendo localmente en un Jetson Orin.
En este escenario, el LFM2.5-230M actuó como una capa de selección de habilidades, descomponiendo instrucciones en lenguaje natural en planes estructurados de llamadas a herramientas (tool-calls) de múltiples pasos. Esto permite que los robots entiendan órdenes complejas como 'limpia la mesa y luego recoge los juguetes' sin depender de una conexión constante a internet.
Liquid AI ha garantizado que el LFM2.5-230M sea accesible para todos los desarrolladores mediante un soporte multiplataforma exhaustivo. No importa si trabajas en entornos de servidor o en el borde, hay un formato listo para ti.
Para despliegues en el borde, puedes usar llama.cpp (formato GGUF). Si eres usuario de Apple Silicon, el soporte para MLX está disponible. Para entornos de servidor de alto rendimiento, el modelo es compatible con vLLM y SGLang. Finalmente, para despliegues multiplataforma estandarizados, se ofrece soporte vía ONNX.
El LFM2.5-230M no es solo un logro de ingeniería; es una declaración de intenciones. Al demostrar que un modelo de apenas 230M de parámetros puede realizar tareas agénticas complejas con una velocidad de vértigo, Liquid AI está abriendo la puerta a una nueva generación de dispositivos inteligentes y autónomos.
Para los ingenieros de IA, este modelo representa la oportunidad de construir aplicaciones que antes eran imposibles debido a la latencia y los costes de inferencia en la nube. La era de la IA verdaderamente ubicua ha comenzado.