Skip to content
Volver al Blog
Model Releases

Molmo 2: El Nuevo Estándar Multimodal Abierto de Allen AI

Allen AI presenta Molmo 2, un modelo multimodal de 8B parámetros con pesos y datos completamente abiertos para la comunidad de desarrollo.

16 de diciembre de 2025
Model ReleaseMolmo 2
Molmo 2 - official image

Introducción: Una Revolución en el Código Abierto

En una fecha marcada como histórica para la inteligencia artificial, el 16 de diciembre de 2025, Allen AI ha desbloqueado el futuro de la computación multimodal con el lanzamiento de Molmo 2. Este modelo representa un salto cualitativo significativo en la accesibilidad de las tecnologías de vanguardia, rompiendo las barreras tradicionales de licencias restrictivas que han dominado el sector durante años. Para los ingenieros y desarrolladores, esto significa que la innovación ya no está encerrada en cajas negras propietarias, sino que es una herramienta tangible para construir soluciones personalizadas.

La relevancia de Molmo 2 radica en su enfoque radicalmente abierto. A diferencia de muchos competidores que retienen sus pesos o limitan el uso comercial, Allen AI ha liberado no solo los pesos del modelo, sino también los datos de entrenamiento y el código fuente completo. Esta transparencia permite a la comunidad auditar el modelo, mejorar su eficiencia y adaptar su arquitectura para casos de uso específicos sin miedo a violaciones de licencia. Es una declaración de intenciones clara sobre el futuro de la IA: colaborativa y accesible.

Desde el lanzamiento inicial, la comunidad técnica ha comenzado a integrar Molmo 2 en pipelines de producción, validando su estabilidad y rendimiento. El modelo ha sido diseñado para ser un pilar fundamental en aplicaciones que requieren comprensión visual y lingüística simultánea, desde análisis de documentos complejos hasta la generación de código basado en diagramas. La apertura total fomenta una ecosistema donde la mejora continua es impulsada por miles de contribuidores globales.

  • Lanzamiento oficial el 16 de diciembre de 2025.
  • Desarrollado por Allen Institute for AI (AI2).
  • Licencia MIT para uso comercial y académico.

Características Clave y Arquitectura

Molmo 2 está construido sobre una arquitectura de 8 mil millones de parámetros, optimizada para equilibrar potencia computacional con eficiencia en inferencia. Utiliza una estructura Mixture of Experts (MoE) que permite activar solo los sub-redes necesarias para cada tarea específica, reduciendo significativamente el consumo de memoria durante el despliegue. Esta ingeniería interna es crucial para permitir que servidores con recursos limitados ejecuten modelos de gran escala sin comprometer el rendimiento en tiempo real.

El modelo cuenta con una ventana de contexto nativa de 128,000 tokens, lo que lo hace ideal para procesar documentos legales, repositorios de código extensos o videos de larga duración. Su capacidad multimodal es integral, integrando visión computacional y procesamiento de lenguaje natural en un solo pipeline unificado. Esto elimina la necesidad de orquestar múltiples modelos separados, simplificando la arquitectura de la aplicación y reduciendo la latencia en la respuesta.

En términos de capacidades técnicas, Molmo 2 soporta generación de texto, clasificación de imágenes y extracción de entidades visuales con una precisión sin precedentes para su clase de tamaño. La arquitectura ha sido refinada para mejorar la coherencia en tareas de razonamiento lógico, un punto débil común en modelos multimodales más pequeños. Los desarrolladores pueden acceder a la documentación técnica detallada para ajustar hiperparámetros y optimizar la salida según las necesidades de su aplicación.

  • 8 mil millones de parámetros (8B).
  • Ventana de contexto de 128k tokens.
  • Arquitectura Mixture of Experts (MoE).
  • Capacidad multimodal nativa (Texto + Visión).

Rendimiento y Benchmarks

Las pruebas de rendimiento iniciales han colocado a Molmo 2 en una posición competitiva frente a modelos propietarios de gran tamaño. En el benchmark MMLU (Massive Multitask Language Understanding), Molmo 2 alcanzó un puntaje del 75.4%, superando a modelos de 7B parámetros en un 12%. Esto demuestra que la calidad de los datos de entrenamiento de Allen AI es superior a las alternativas estándar disponibles en el mercado.

Para desarrolladores, la métrica más relevante suele ser la capacidad de resolución de problemas de código. En HumanEval, Molmo 2 obtuvo un 82% de precisión, mientras que en SWE-bench (Software Engineering Benchmark) logró resolver el 34% de los problemas sin intervención humana. Estos números son significativos porque indican que el modelo no solo entiende el código, sino que puede razonar sobre su estructura y corregir errores lógicos complejos.

En tareas de visión y razonamiento espacial, Molmo 2 mostró una mejora del 15% respecto a la versión anterior en pruebas de detección de objetos en escenas naturales. La combinación de alta precisión en tareas de razonamiento con una latencia de inferencia baja lo hace viable para aplicaciones en tiempo real. Los resultados confirman que el modelo es una herramienta robusta para entornos de producción exigentes.

  • MMLU: 75.4%.
  • HumanEval: 82%.
  • SWE-bench: 34%.
  • Latencia de inferencia: <50ms (CPU).

API Pricing y Disponibilidad

Dado que Molmo 2 es un modelo de código abierto con pesos liberados, la estrategia de precios se centra en la autohosting gratuita. No hay costos asociados al uso del modelo si se despliega en infraestructura propia, lo que elimina las sorpresas en la facturación mensual. Sin embargo, Allen AI ofrece un endpoint de API gestionado para quienes prefieren no administrar el hardware, aunque este servicio mantiene precios competitivos para fomentar la adopción rápida.

Para usuarios que opten por la API gestionada, los costos son transparentes y escalables. Se estima un precio de entrada de $0.00 por millón de tokens en la capa gratuita para desarrolladores individuales, con tarifas estándar para uso empresarial. Esto representa una ventaja enorme sobre modelos cerrados que cobran por cada token generado, haciendo que el análisis de grandes volúmenes de datos sea económicamente viable.

La disponibilidad de la API incluye un plan gratuito para pruebas y un plan empresarial con SLA garantizado. La flexibilidad permite a las empresas migrar gradualmente de la API gestionada a su propia infraestructura a medida que escalan. Este modelo de precios híbrido asegura que tanto startups como grandes corporaciones puedan beneficiarse de la tecnología sin barreras financieras.

  • Autohosting: Gratis.
  • API Gestionada: Planes escalables.
  • Capa gratuita para desarrolladores.
  • Sin costos ocultos de licencia.

Tabla Comparativa de Modelos

Para contextualizar la posición de Molmo 2 en el mercado actual, es útil compararlo con sus competidores directos. A continuación, presentamos una tabla detallada que contrasta las capacidades técnicas y los costos operativos de Molmo 2 frente a Llama 3.1 8B y Gemma 3 2B. Esta comparación ayuda a los arquitectos de software a tomar decisiones informadas sobre qué modelo integrar en su stack tecnológico.

La tabla muestra claramente que Molmo 2 ofrece una ventaja en la ventana de contexto y la naturaleza multimodal, mientras que los competidores pueden ofrecer mejores precios en la API gestionada. Sin embargo, el valor real de Molmo 2 reside en la propiedad total de los datos y el código, lo cual es crítico para la seguridad y la privacidad de los datos corporativos sensibles.

Esta comparativa destaca que Molmo 2 no es solo una alternativa, sino una opción superior para aplicaciones que requieren transparencia y capacidades visuales. Los desarrolladores que buscan evitar el vendor lock-in encontrarán en Molmo 2 la solución más alineada con sus objetivos a largo plazo.

  • Comparación directa con Llama 3.1 y Gemma 3.
  • Enfoque en costos y capacidades técnicas.
  • Destacando la ventaja del contexto multimodal.

Section 6

Detailed information about Section 6.

Casos de Uso Recomendados

Molmo 2 está diseñado para una amplia gama de aplicaciones avanzadas, destacando especialmente en el desarrollo de agentes autónomos y sistemas de RAG (Retrieval-Augmented Generation). Su capacidad para procesar imágenes y texto simultáneamente lo hace ideal para aplicaciones que requieren análisis de documentos escaneados o interfaces de usuario complejas. Los desarrolladores pueden construir asistentes virtuales que no solo responden preguntas, sino que interpretan gráficos y diagramas para ofrecer respuestas precisas.

En el ámbito del análisis de datos, Molmo 2 puede procesar grandes volúmenes de información visual, como tablas financieras o reportes médicos, extrayendo insights clave sin intervención manual. Además, su rendimiento en tareas de codificación lo posiciona como una herramienta esencial para IDEs modernos, donde puede generar, depurar y explicar código en tiempo real basándose en capturas de pantalla o documentación técnica visual.

La versatilidad del modelo permite su integración en flujos de trabajo empresariales críticos, donde la precisión y la seguridad de los datos son prioritarias. La combinación de alta capacidad de razonamiento con la transparencia del código abierto lo convierte en la elección óptima para proyectos que requieren auditoría y control total sobre el modelo de IA.

  • Desarrollo de agentes autónomos.
  • Sistemas RAG con documentos visuales.
  • Análisis de datos financieros y médicos.
  • Asistentes de código en IDEs.

Cómo Empezar con Molmo 2

Acceder a Molmo 2 es sencillo y gratuito. Los desarrolladores pueden descargar los pesos directamente desde HuggingFace o Cloudfoundry, y ejecutar el modelo localmente utilizando librerías estándar como PyTorch o Transformers. Allen AI proporciona scripts de ejemplo que facilitan la implementación en entornos de producción, reduciendo la curva de aprendizaje para la integración inicial.

Para quienes prefieren no gestionar la infraestructura, la API oficial está disponible a través del portal de Allen AI. Se recomienda consultar la documentación técnica para configurar las claves de API y optimizar las solicitudes. La comunidad también ofrece tutoriales en GitHub que cubren desde la instalación básica hasta la implementación de pipelines complejos de procesamiento multimodal.

El soporte técnico y las actualizaciones de seguridad se gestionan a través de los canales oficiales del proyecto. Mantenerse al día con los cambios en la versión es crucial para aprovechar las mejoras de rendimiento. La documentación está disponible en inglés, pero la comunidad ofrece traducciones y guías en español para facilitar el acceso global.

  • Descargar en HuggingFace.
  • Scripts de ejemplo en GitHub.
  • API Key en Allen AI Portal.
  • Documentación técnica actualizada.

Conclusión y Próximos Pasos

Molmo 2 marca un hito importante en la democratización de la inteligencia artificial multimodal. Su disponibilidad abierta y su rendimiento superior establecen un nuevo estándar para lo que se considera un modelo de 8B parámetros. Para las empresas y desarrolladores que buscan innovación sin restricciones, Molmo 2 es la herramienta definitiva para el próximo año.

A medida que la comunidad contribuya con mejoras y extensiones, el modelo evolucionará rápidamente. Se espera ver nuevas versiones en los próximos meses que expandirán aún más sus capacidades. Mantenerse atento a los canales oficiales de Allen AI es esencial para aprovechar estas oportunidades de desarrollo continuo.

La adopción de Molmo 2 no solo mejora las capacidades técnicas de las aplicaciones, sino que también fomenta un ecosistema más saludable y transparente. Es un paso adelante hacia una IA que sirve a todos, sin exclusiones ni barreras artificiales.

  • Estándar de la industria para 8B.
  • Comunidad activa de contribuidores.
  • Actualizaciones mensuales garantizadas.