Introducción

El 6 de febrero de 2024, Stability AI presentó StableLM 2, una nueva generación de modelos de lenguaje de código abierto que promete revolucionar el panorama de la IA accesible. Este lanzamiento incluye dos variantes clave: StableLM 2 1.6B y StableLM 2 12B, ambos diseñados para ofrecer un equilibrio excepcional entre eficiencia computacional y rendimiento de vanguardia.

Lo que hace especialmente notable a StableLM 2 es su capacidad para competir directamente con modelos mucho más grandes, como Mistral-7B, a pesar de tener una huella significativamente menor en algunos casos. Esta característica lo convierte en una opción atractiva para desarrolladores que buscan modelos potentes pero eficientes en recursos.

La importancia de este lanzamiento radica no solo en sus capacidades técnicas, sino también en el compromiso de Stability AI con el software de código abierto, permitiendo a la comunidad de desarrolladores construir, modificar y desplegar soluciones basadas en estos modelos sin restricciones comerciales significativas.

Además, el entrenamiento realizado en 2 billones de tokens de datos de alta calidad posiciona a StableLM 2 como una herramienta seria para aplicaciones de producción en entornos empresariales y académicos.

Características Clave y Arquitectura

StableLM 2 se presenta en dos configuraciones principales: 1.6 mil millones de parámetros y 12 mil millones de parámetros. Ambas variantes han sido cuidadosamente diseñadas para optimizar el rendimiento mientras mantienen una huella de memoria manejable.

La arquitectura subyacente se basa en transformadores modernos con optimizaciones específicas para eficiencia y escalabilidad. Aunque no utiliza técnicas de Mixture of Experts (MoE) como algunos de sus competidores, logra mantener un rendimiento competitivo gracias a su entrenamiento refinado y técnicas avanzadas de post-entrenamiento.

En cuanto al contexto, StableLM 2 soporta ventanas de contexto extensas que permiten manejar entradas de texto sustanciales, ideal para tareas complejas de comprensión y generación. La arquitectura también ha sido optimizada para inferencia eficiente tanto en CPU como en GPU.

Actualmente, StableLM 2 se centra principalmente en capacidades de procesamiento de lenguaje natural, sin capacidades multimodales integradas, lo que permite enfocar todos los recursos en maximizar el rendimiento textual.

Disponible en 1.6B y 12B de parámetros
Arquitectura de transformadores modernos
Optimizado para eficiencia computacional

StableLM 2: El modelo de lenguaje abierto de Stability AI que desafía a los gigantes con 1.6B y 12B de parámetros

Introducción

Características Clave y Arquitectura

Rendimiento y Benchmarks

Precios del API

Tabla Comparativa

Casos de Uso

Cómo Empezar

Comparison

Sources