Introducción

En septiembre de 2023, Alibaba Cloud presentó Qwen 72B, un modelo de lenguaje de código abierto con 72 mil millones de parámetros que representa un hito importante en la evolución de la serie Qwen. Este modelo no solo amplía la línea de productos de IA de código abierto de Alibaba, sino que también establece nuevos estándares para el rendimiento multilingüe y las capacidades de razonamiento en entornos empresariales y académicos.

La importancia de Qwen 72B radica en su combinación única de tamaño manejable, rendimiento superior y disponibilidad de pesos abiertos, lo que permite a los desarrolladores y organizaciones implementar soluciones de IA avanzadas sin depender completamente de proveedores cerrados.

Este modelo pertenece a la exitosa serie multilingüe de Alibaba, demostrando una sólida capacidad tanto en tareas en chino como en inglés, lo que lo convierte en una opción atractiva para aplicaciones globales.

La disponibilidad de pesos abiertos significa que los equipos técnicos pueden personalizar, optimizar y adaptar el modelo a sus necesidades específicas sin restricciones de licencia.

Características clave y arquitectura

Qwen 72B presenta una arquitectura basada en transformers con 72 mil millones de parámetros, lo que proporciona un equilibrio entre potencia computacional y eficiencia operativa. La implementación incluye técnicas avanzadas de atención y normalización que mejoran la calidad de generación y comprensión del lenguaje.

El modelo admite contextos extensos con ventanas de contexto de hasta 8192 tokens, permitiendo procesar documentos largos y mantener conversaciones prolongadas sin pérdida significativa de coherencia. Esta característica es especialmente valiosa para aplicaciones de resumen automático y análisis de documentos.

Aunque Qwen 72B se centra principalmente en capacidades de texto, su arquitectura es extensible a aplicaciones multimodales, preparando el terreno para futuras versiones que integren visión y audición.

La arquitectura también incorpora optimizaciones para inferencia eficiente, reduciendo la latencia y los requisitos de memoria durante la ejecución.

72 mil millones de parámetros
Ventana de contexto de 8192 tokens
Arquitectura transformer optimizada
Soporte para inferencia eficiente

Rendimiento y benchmarks

En términos de rendimiento, Qwen 72B logra puntuaciones impresionantes en múltiples benchmarks estándar. En MMLU (Massive Multitask Language Understanding), el modelo obtiene 78.5 puntos, superando a muchos modelos de tamaño similar en la industria. Esta puntuación refleja su capacidad para comprender y razonar sobre una amplia gama de temas académicos.

Qwen 72B: El modelo de código abierto de Alibaba con 72 mil millones de parámetros que desafía a los líderes del mercado

Introducción

Características clave y arquitectura

Rendimiento y benchmarks

Precios de API

Tabla comparativa

Casos de uso

Cómo comenzar

Comparison

Sources