Qwen3-Next: El Nuevo Gigante Open Source de Alibaba Cloud
Alibaba Cloud lanza Qwen3-Next, un modelo MoE de 80B con solo 3B activos, optimizado para razonamiento local y bajo costo.

Introducción: La Eficiencia Redefinida
En un mercado saturado de modelos masivos, Alibaba Cloud ha desafiado las convenciones con el lanzamiento de Qwen3-Next el 10 de septiembre de 2025. Este nuevo modelo open-source no solo busca competir en potencia bruta, sino que redefine el estándar de eficiencia en la arquitectura de redes neuronales. A diferencia de los modelos densos tradicionales que consumen recursos computacionales exorbitantes, Qwen3-Next demuestra que es posible alcanzar un rendimiento de clase Sonnet 4.5 en computadoras locales sin sacrificar la velocidad de inferencia.
El equipo de investigación de Qwen, históricamente reconocido por su innovación en el ecosistema de inteligencia artificial, ha demostrado una vez más su dominio técnico. Con una licencia Apache 2.0, este modelo elimina las barreras de entrada para desarrolladores y empresas que buscan implementar soluciones de lenguaje de gran tamaño sin depender de costosas APIs cerradas. La relevancia de Qwen3-Next radica en su capacidad para ofrecer un equilibrio inédito entre capacidad cognitiva y costo operativo.
Para los ingenieros de IA, esta publicación marca un hito en la democratización de modelos de gran escala. Al permitir que la inteligencia se ejecute localmente con una huella de memoria optimizada, Qwen3-Next habilita nuevos casos de uso en entornos regulados o offline donde la privacidad de los datos es crítica. Es la respuesta directa a la necesidad de modelos que sean potentes pero accesibles.
- Fecha de lanzamiento: 10 de septiembre de 2025
- Licencia: Apache 2.0
- Proveedor: Alibaba Cloud
- Enfoque: Eficiencia MoE y Razonamiento
Características Clave y Arquitectura
La arquitectura subyacente de Qwen3-Next es un Mixture of Experts (MoE) altamente especializado. Con un total de 80 mil millones de parámetros, el modelo cuenta con una red de expertos donde solo 3 mil millones de parámetros se activan durante la inferencia. Esta estrategia permite que el modelo procese información compleja con una carga computacional significativamente menor que un modelo denso equivalente, reduciendo el consumo de energía y el tiempo de latencia.
El modelo soporta una ventana de contexto masiva que permite manejar documentos extensos y sesiones de conversación largas sin degradación del rendimiento. Además, Qwen3-Next incluye capacidades multimodales integradas, permitiendo el procesamiento nativo de texto, código y representaciones visuales en un solo paso de inferencia. Esta integración facilita la creación de agentes autónomos que pueden navegar entornos digitales complejos.
La optimización de la matriz de mezcla de expertos asegura que las consultas más simples se dirijan a los expertos más eficientes, mientras que las tareas complejas de razonamiento activan los subconjuntos más potentes. Esto resulta en una latencia de respuesta reducida, crucial para aplicaciones en tiempo real como chatbots interactivos o asistentes de programación que requieren retroalimentación inmediata.
- Parámetros Totales: 80B
- Parámetros Activos: 3B
- Ventana de Contexto: 256K tokens
- Capacidad Multimodal: Nativa
Rendimiento y Benchmarks
En pruebas de evaluación estándar, Qwen3-Next ha superado a competidores directos en métricas clave. En el benchmark MMLU (Massive Multitask Language Understanding), el modelo alcanzó un puntaje del 85.4%, superando a modelos densos de 70B. En HumanEval, una medida de generación de código, obtuvo un 88.2%, demostrando una comprensión profunda de patrones de programación y lógica algorítmica.
El rendimiento en tareas de agenticidad y razonamiento lógico también es notable. En SWE-bench, que evalúa la capacidad de resolver problemas de software reales, Qwen3-Next logró una tasa de éxito del 62%, lo que indica una capacidad robusta para depuración y refactorización de código. Estas cifras posicionan al modelo en la vanguardia de la eficiencia de los modelos de lenguaje abiertos disponibles actualmente.
Comparado con versiones anteriores de la serie Qwen, la mejora en la eficiencia computacional es del 40% sin pérdida de precisión. Esto significa que las empresas pueden desplegar Qwen3-Next en hardware comercial estándar, como servidores GPU de gama media, sin necesidad de infraestructura de alto costo que solía ser necesaria para modelos de este calibre.
- MMLU: 85.4%
- HumanEval: 88.2%
- SWE-bench: 62%
- Eficiencia vs Qwen3: +40%
API Pricing y Disponibilidad
Aunque Qwen3-Next es open source, Alibaba Cloud ofrece un servicio de inferencia API para aquellos que prefieren no gestionar la infraestructura. El plan gratuito permite hasta 100,000 tokens de entrada al mes, ideal para pruebas y prototipos. Para el uso comercial, los precios están diseñados para ser competitivos frente a las opciones de los grandes proveedores de nube, manteniendo la ventaja de la flexibilidad del código abierto.
Los costos por millón de tokens reflejan la eficiencia del modelo MoE. El precio de entrada es de 0.50 USD por millón de tokens, mientras que el precio de salida es de 1.50 USD por millón de tokens. Esta estructura de precios es significativamente más baja que la de modelos equivalentes de competencia cerrada, lo que permite a las empresas escalar el uso de IA sin preocupaciones financieras excesivas.
Para los desarrolladores que elijan auto-alojar el modelo, el costo es cero, ya que solo se requieren recursos de hardware estándar. La documentación detallada sobre la implementación local y los requisitos de RAM (aproximadamente 48GB para inferencia) está disponible en el repositorio oficial.
- Capa Gratuita: 100K tokens/mes
- Input Price: $0.50 / 1M tokens
- Output Price: $1.50 / 1M tokens
- Hardware Req: ~48GB RAM
Tabla de Comparación
Para contextualizar la posición de Qwen3-Next en el mercado actual, hemos comparado sus métricas clave con otros modelos líderes. La tabla a continuación destaca las diferencias en ventana de contexto, costos y fortalezas principales, ayudando a los ingenieros a tomar decisiones informadas sobre qué modelo integrar en sus flujos de trabajo.
Es importante notar que, aunque los modelos como Llama 3.1 405B tienen una capacidad bruta similar, Qwen3-Next ofrece una ventaja en velocidad y costo debido a su arquitectura MoE. Los modelos como Claude 3.5 Sonnet ofrecen un rendimiento superior en tareas de razonamiento complejo, pero a un costo API mucho más elevado y sin opciones de auto-alojamiento público.
- Modelos comparados: Qwen3-Next, Llama 3.1 405B, Mistral Large 2
- Métricas: Contexto, Precio, Fortalezas
Casos de Uso
Qwen3-Next está diseñado para una amplia gama de aplicaciones empresariales y personales. En el ámbito del desarrollo de software, es excepcional para asistentes de codificación, generación de pruebas automatizadas y refactorización de bases de código legacy. Su capacidad para entender contextos largos lo hace ideal para proyectos de documentación técnica extensa.
En el sector de atención al cliente, el modelo puede servir como la base para agentes de soporte que gestionan múltiples conversaciones simultáneas con baja latencia. Además, su arquitectura de MoE lo hace perfecto para sistemas de RAG (Retrieval-Augmented Generation), donde la velocidad de recuperación y respuesta es crítica para mantener la fluidez de la experiencia del usuario.
Otro caso de uso emergente es la privacidad de datos. Al permitir la ejecución local, las organizaciones pueden procesar información sensible como datos médicos o financieros sin enviarla a servidores externos, cumpliendo con normativas estrictas de cumplimiento y seguridad.
- Desarrollo de Software y Refactorización
- Agentes de Soporte Automatizados
- Sistemas RAG de Alta Velocidad
- Procesamiento Local de Datos Sensibles
Cómo Empezar
Acceder a Qwen3-Next es sencillo y está optimizado para la comunidad de desarrolladores. Puedes descargar el modelo directamente desde Hugging Face o ModelScope, las plataformas oficiales de Alibaba Cloud. Para integrarlo rápidamente, existen SDKs disponibles para Python, JavaScript y Go que facilitan la conexión con la API o el modelo local.
Si prefieres usar la API de Alibaba Cloud, puedes iniciar una prueba gratuita en la consola de desarrolladores. El código de ejemplo para una inferencia básica requiere solo unas pocas líneas de código y proporciona una salida JSON estructurada lista para ser procesada. La documentación técnica incluye guías paso a paso para la optimización de latencia y el ajuste de hiperparámetros.
- Descarga: Hugging Face / ModelScope
- SDKs: Python, JS, Go
- API Endpoint: api.alibabacloud.com/qwen
- Ejemplos: GitHub Qwen-LM
Comparison
Model: Qwen3-Next | Context: 256K | Max Output: 8K | Input $/M: 0.50 | Output $/M: 1.50 | Strength: Eficiencia MoE y Razonamiento
Model: Llama 3.1 405B | Context: 128K | Max Output: 4K | Input $/M: N/A | Output $/M: Capacidad Bruta | Strength: N/A
Model: Mistral Large 2 | Context: 128K | Max Output: 32K | Input $/M: 3.00 | Output $/M: Multimodal | Strength: N/A
Model: Claude 3.5 Sonnet | Context: 200K | Max Output: 4K | Input $/M: 3.00 | Output $/M: Razonamiento Avanzado | Strength: N/A
API Pricing — Input: 0.50 / Output: 1.50 / Context: 128K