Introducción: El Salto Cuántico de StepFun

El panorama de los modelos de lenguaje de gran escala (LLM) ha dado un giro radical con el lanzamiento de Step-3.7-Flash por parte de StepFun el pasado 29 de mayo de 2026. No estamos ante una simple actualización incremental; estamos ante un modelo diseñado específicamente para la era de los agentes autónomos y la interacción multimodal nativa.

Para los ingenieros de IA y desarrolladores, la promesa de un modelo que combine una latencia extremadamente baja con una capacidad de razonamiento visual y de código de nivel superior es el 'santo grial'. Step-3.7-Flash llega para llenar ese vacío, ofreciendo un rendimiento que compite con modelos mucho más pesados, pero con una eficiencia operativa sin precedentes.

Lanzamiento oficial: 29 de mayo de 2026
Arquitectura: Sparse Mixture of Experts (MoE)
Enfoque: Multimodalidad nativa y capacidades agénticas

Arquitectura y Especificaciones Técnicas

El núcleo de Step-3.7-Flash reside en su sofisticada arquitectura de Mixture of Experts (MoE). Con un total de 198 mil millones de parámetros, el modelo no activa toda su capacidad para cada token, sino que utiliza aproximadamente 11 mil millones de parámetros activos. Esta 'densidad de inteligencia' permite mantener un rendimiento de vanguardia mientras se optimiza el costo computacional.

Una de las características más impresionantes es su ventana de contexto de 256K tokens, que permite procesar documentos extensos, bases de código completas o largas secuencias de interacción. Además, el modelo integra tres niveles de razonamiento ajustables, permitiendo a los desarrolladores equilibrar la velocidad y la profundidad del pensamiento según la tarea requerida.

Parámetros totales: 198B
Parámetros activos: ~11B (Sparse MoE)
Ventana de contexto: 256K tokens
Throughput: 400 tokens por segundo
Niveles de razonamiento: 3 niveles configurables

Rendimiento Excepcional: Benchmarks que Hablan por Sí Solos

Los resultados en los benchmarks posicionan a Step-3.7-Flash en la cima de su categoría. Destaca su dominio en tareas de razonamiento visual y búsqueda, alcanzando el puesto #1 en ClawEval-1.1 con una puntuación de 67.1 y el #1 en SimpleVQA Search con 79.2. Estos números demuestran una comprensión profunda de la relación entre texto e imagen.

En el ámbito del desarrollo de software y la ejecución de código, el modelo brilla con un 95.3 en el benchmark V* Python y un sólido 56.3 en SWE-PRO (puesto #2). Además, su fiabilidad en el uso de herramientas es excepcional, superando el 98% en τ²-bench en todos los niveles de dificultad, lo que lo convierte en un candidato ideal para despliegues de agentes autónomos.

Step-3.7-Flash: La Nueva Frontera de la IA Multimodal de Alta Eficiencia

Introducción: El Salto Cuántico de StepFun

Arquitectura y Especificaciones Técnicas

Rendimiento Excepcional: Benchmarks que Hablan por Sí Solos

Multimodalidad Nativa y Capacidades de Agente

Casos de Uso Ideales

Precios de la API y Acceso

Cómo Empezar

Sources