Introducción

En mayo de 2022, Meta AI sorprendió al mundo de la inteligencia artificial con el lanzamiento de OPT (Open Pre-trained Transformer), un modelo de lenguaje de 175 mil millones de parámetros que representaba la respuesta de código abierto de la empresa a modelos como GPT-3. A diferencia de OpenAI que mantenía su modelo cerrado, Meta decidió liberar completamente los pesos del modelo para que la comunidad de investigación pudiera estudiarlo, modificarlo y construir sobre él.

Este movimiento estratégico no solo demostró el compromiso de Meta con la investigación abierta en IA, sino que también permitió a desarrolladores, investigadores y empresas acceder a una tecnología de vanguardia sin las limitaciones de API comerciales. OPT se convirtió rápidamente en un referente para la evaluación de modelos grandes de lenguaje y un punto de partida crucial para muchas iniciativas de investigación académica y corporativa.

La disponibilidad completa de los pesos del modelo fue un hito importante en la democratización de la IA de gran escala, permitiendo que instituciones más pequeñas pudieran experimentar con modelos de clase mundial sin depender de proveedores externos o pagar costosas tarifas de API.

Además, OPT estableció un precedente para futuros modelos de Meta, incluyendo la serie Llama, que continuaría esta filosofía de apertura y colaboración con la comunidad de investigación global.

Características Clave y Arquitectura

OPT está construido sobre una arquitectura Transformer decodificadora pura, similar a GPT-3, pero con modificaciones específicas introducidas por el equipo de Meta AI. El modelo contiene exactamente 175 mil millones de parámetros, lo que lo coloca en la misma categoría que GPT-3 y algunos de los modelos más grandes disponibles en ese momento.

El modelo utiliza técnicas estándar de pre-entrenamiento autoregresivo, entrenado en grandes cantidades de texto web para aprender representaciones lingüísticas profundas. La arquitectura incluye optimizaciones específicas para eficiencia computacional y escalabilidad durante el entrenamiento, aunque mantiene la simplicidad conceptual del diseño Transformer original.

Las características clave del modelo incluyen un contexto de entrada de hasta 2048 tokens, lo que permite manejar secuencias de texto razonablemente largas para la mayoría de las tareas de generación y comprensión. El modelo no es multimodal, enfocándose exclusivamente en texto plano.

En términos de parámetros, OPT 175B representa la versión más grande de la serie, aunque Meta también lanzó versiones más pequeñas que van desde 125M hasta 66B de parámetros para facilitar experimentos y pruebas en hardware menos potente.

OPT 175B: El Modelo de Código Abierto de Meta que Retó a GPT-3

Introducción

Características Clave y Arquitectura

Rendimiento y Benchmarks

Precios de la API

Tabla Comparativa

Casos de Uso

Cómo Comenzar

Comparison

Sources