Descubre North Mini Code, el nuevo modelo de razonamiento y generación de código de Cohere que redefine la eficiencia en entornos de desarrollo locales y empresariales.

El ecosistema de la inteligencia artificial aplicada al desarrollo de software ha dado un salto cualitativo este 9 de junio de 2026. Cohere ha lanzado oficialmente North Mini Code, un modelo diseñado específicamente para cerrar la brecha entre la potencia de los modelos masivos en la nube y la agilidad necesaria para el desarrollo local y privado.
A diferencia de otros modelos que intentan ser generalistas, North Mini Code se enfoca en la precisión del razonamiento lógico y la generación de código de alta calidad. Para los ingenieros de software y arquitectos de sistemas, este lanzamiento representa una alternativa robusta y, lo más importante, abierta, para construir pipelines de codificación agéntica sin depender exclusivamente de APIs cerradas y costosas.
North Mini Code destaca por su arquitectura optimizada. Se trata de un modelo de tipo Mixture-of-Experts (MoE) con un total de 30B de parámetros, pero con una eficiencia sorprendente: solo utiliza 3B de parámetros activos durante la inferencia. Esta característica permite que el modelo mantenga un rendimiento de nivel enterprise mientras reduce drásticamente la latencia y los requisitos de cómputo.
Uno de sus mayores activos es su ventana de contexto. Con un soporte de hasta 256K tokens, los desarrolladores pueden cargar repositorios enteros, documentación técnica extensa o logs complejos para obtener análisis profundos. Además, el modelo permite una salida de hasta 64K tokens, lo que facilita la generación de archivos completos o refactorizaciones extensas en una sola pasada.
Es importante notar que el modelo es estrictamente de texto (text-in, text-out), lo que garantiza un enfoque especializado en la semántica del código y la lógica textual, evitando la sobrecarga de capacidades multimodales que no son críticas para la tarea de programación pura.
Los números respaldan la promesa de Cohere. North Mini Code ha demostrado una capacidad de razonamiento excepcional, alcanzando un 75.7% en el benchmark GPQA Diamond, lo que lo posiciona junto a los modelos generalistas de razonamiento más avanzados del mercado actual.
En pruebas específicas de ingeniería y resolución de problemas técnicos, el modelo muestra una consistencia notable. Su desempeño en entornos de terminal y resolución de problemas de código en vivo lo convierte en una herramienta de primer nivel para la automatización de tareas complejas de DevOps y desarrollo backend.
Originalmente, Cohere presentó el modelo con un esquema de $0 por millón de tokens para fomentar la adopción temprana. Sin embargo, siguiendo la evolución natural de sus productos, Cohere ha movido North Mini Code a un modelo de precios de pago para su uso vía API.
Para los desarrolladores que buscan privacidad total o costos controlados, la licencia Apache 2.0 permite el self-hosting. Esto significa que puedes ejecutar el modelo en tu propia infraestructura o localmente, eliminando costos de tokens por uso de API y garantizando que el código propietario nunca salga de tus servidores.
Gracias a su capacidad de razonamiento y su gran ventana de contexto, North Mini Code es ideal para implementaciones de agentes de codificación. Puede actuar como un revisor de Pull Requests (PR) automatizado, analizando no solo el cambio de código, sino cómo este afecta a otras partes del monorepo.
Otros casos de uso incluyen la generación de tests unitarios a partir de documentación, la auditoría de seguridad de código existente y la creación de asistentes locales para desarrolladores que trabajan en entornos desconectados o altamente regulados.
Si eres un desarrollador que busca integrar este modelo de inmediato, tienes dos caminos principales. Para una integración rápida en aplicaciones en la nube, puedes utilizar el SDK oficial de Cohere y sus endpoints de API.
Si prefieres el control total y la ejecución local, te recomendamos utilizar herramientas como Ollama o llama.cpp. Al ser un modelo de pesos abiertos (open-weights), la comunidad ya está trabajando en optimizaciones para que pueda correr eficientemente incluso en hardware de consumo de gama alta o en una única GPU H100 para pipelines de agentes.
API Pricing — Context: 256K tokens