NVIDIA presenta su modelo abierto de 30B que unifica visión, audio y texto con inferencia ultrarrápida y arquitectura híbrida MoE.

El 28 de abril de 2026, NVIDIA marcó un hito significativo en la industria de la inteligencia artificial con el lanzamiento de Nemotron 3 Nano Omni. Este nuevo modelo no es simplemente una actualización incremental, sino una redefinición de cómo los sistemas de agentes pueden percibir y razonar sobre el mundo. Al unificar la comprensión de video, audio, imagen y texto en una sola arquitectura, Nemotron 3 Nano Omni elimina la fricción de pipelines separados que han limitado el desarrollo de aplicaciones agénticas complejas hasta ahora.
Para los ingenieros y desarrolladores, la importancia de este modelo radica en su eficiencia y accesibilidad. A diferencia de los modelos cerrados que requieren infraestructura masiva, Nemotron 3 Nano Omni está diseñado para ser abierto y optimizado para entornos locales y en la nube. Su capacidad para actuar como el 'cerebro' de aplicaciones de IA más rápidas y inteligentes permite a las empresas implementar agentes que pueden navegar interfaces gráficas, procesar documentos y entender contextos audiovisuales sin la latencia típica de los modelos multimodales tradicionales.
La arquitectura subyacente de Nemotron 3 Nano Omni es una innovación técnica notable, basada en un Mixture-of-Experts (MoE) híbrido de 30B-A3B. Esto significa que el modelo tiene 30 mil millones de parámetros en total, pero solo activa 3 mil millones durante la inferencia, lo que reduce drásticamente el consumo de memoria y energía. Esta eficiencia se combina con un contexto unificado de 256K tokens, permitiendo a los agentes procesar documentos extensos, horas de video o sesiones de audio largas en una sola pasada.
El diseño híbrido integra capas Mamba para una memoria eficiente y transformadores para un razonamiento preciso. Además, el modelo incorpora codificadores nativos de visión (C3D para video) y audio (Paraquet), eliminando la necesidad de modelos externos. Esto asegura una percepción multimodal coherente y precisa, fundamental para tareas que requieren análisis profundo de contenido multimedia en tiempo real.
En términos de rendimiento, Nemotron 3 Nano Omni supera a los modelos competidores en velocidad y eficiencia. Se ha reportado un aumento de hasta 9 veces en el throughput en comparación con otros modelos omnimodales abiertos similares. Esto se traduce en una inferencia mucho más rápida, crucial para aplicaciones en tiempo real como la navegación de interfaces gráficas o el análisis de video en vivo. La optimización para cuantización FP8 y NVFP4 asegura que el modelo mantenga su precisión incluso en hardware con restricciones de memoria.
Las pruebas iniciales realizadas por expertos en tecnología han confirmado su capacidad para manejar tareas complejas de razonamiento y agenticidad. La combinación de la eficiencia MoE con la ventana de contexto masiva permite al modelo mantener la coherencia a largo plazo, algo que a menudo se pierde en modelos más pequeños o con ventanas de contexto limitadas.
NVIDIA ha adoptado una estrategia de precios agresiva para fomentar la adopción de Nemotron 3 Nano Omni en el ecosistema de desarrollo. El modelo está disponible gratuitamente para uso en la API, sin costos por entrada ni salida. Esta decisión posiciona a Nemotron 3 Nano Omni como una herramienta de bajo riesgo para startups y grandes empresas que buscan integrar capacidades multimodales sin incurrir en costos operativos elevados.
La disponibilidad es inmediata y multiplataforma. El modelo se encuentra en Hugging Face, Ollama, OpenRouter y NVIDIA NIM, facilitando la integración tanto para desarrolladores individuales como para arquitectos de sistemas empresariales. La ausencia de costos de API elimina la barrera de entrada, permitiendo que los equipos prueben y desplieguen soluciones basadas en agentes multimodales de manera inmediata.
Nemotron 3 Nano Omni está diseñado específicamente para agentes empresariales avanzados. Su capacidad de procesamiento de documentos mediante OCR y análisis de tablas lo hace ideal para sistemas de gestión documental inteligente. Además, la funcionalidad de navegación de GUI permite que los agentes interactúen con software existente, automatizando tareas de soporte técnico o análisis de datos visuales.
En el ámbito de la inteligencia de audio y video, el modelo puede razonar sobre grabaciones de pantalla o llamadas de voz, entendiendo el contexto completo de la interacción. Esto es vital para aplicaciones de atención al cliente automatizada o sistemas de seguridad que requieren comprensión profunda de eventos visuales y auditivos simultáneamente.
Para los desarrolladores, el acceso es sencillo. El modelo está disponible para descarga directa en Hugging Face y puede ejecutarse localmente utilizando frameworks como Unsloth o vLLM. Con una configuración de cuantización de 4 o 8 bits, el modelo funciona en sistemas con 25 a 36 GB de RAM, lo que democratiza el acceso a tecnología de punta sin necesidad de GPUs de última generación en la nube.
Para integración rápida, los desarrolladores pueden utilizar el SDK de NVIDIA NIM o llamar a la API a través de OpenRouter. La documentación oficial proporciona ejemplos de código en Python para tareas multimodales, acelerando el desarrollo de prototipos y aplicaciones productivas.
API Pricing — Input: $0/M tokens / Output: $0/M tokens / Context: 256K