Descubre Step-3.7-Flash de StepFun, un modelo MoE de 198B parámetros que redefine la velocidad y la capacidad multimodal para agentes de IA.

El panorama de los modelos de lenguaje de gran escala (LLM) ha dado un giro radical con el lanzamiento de Step-3.7-Flash por parte de StepFun el pasado 29 de mayo de 2026. No estamos ante una simple actualización incremental; estamos ante un modelo diseñado específicamente para la era de los agentes autónomos y la interacción multimodal nativa.
Para los ingenieros de IA y desarrolladores, la promesa de un modelo que combine una latencia extremadamente baja con una capacidad de razonamiento visual y de código de nivel superior es el 'santo grial'. Step-3.7-Flash llega para llenar ese vacío, ofreciendo un rendimiento que compite con modelos mucho más pesados, pero con una eficiencia operativa sin precedentes.
El núcleo de Step-3.7-Flash reside en su sofisticada arquitectura de Mixture of Experts (MoE). Con un total de 198 mil millones de parámetros, el modelo no activa toda su capacidad para cada token, sino que utiliza aproximadamente 11 mil millones de parámetros activos. Esta 'densidad de inteligencia' permite mantener un rendimiento de vanguardia mientras se optimiza el costo computacional.
Una de las características más impresionantes es su ventana de contexto de 256K tokens, que permite procesar documentos extensos, bases de código completas o largas secuencias de interacción. Además, el modelo integra tres niveles de razonamiento ajustables, permitiendo a los desarrolladores equilibrar la velocidad y la profundidad del pensamiento según la tarea requerida.
Los resultados en los benchmarks posicionan a Step-3.7-Flash en la cima de su categoría. Destaca su dominio en tareas de razonamiento visual y búsqueda, alcanzando el puesto #1 en ClawEval-1.1 con una puntuación de 67.1 y el #1 en SimpleVQA Search con 79.2. Estos números demuestran una comprensión profunda de la relación entre texto e imagen.
En el ámbito del desarrollo de software y la ejecución de código, el modelo brilla con un 95.3 en el benchmark V* Python y un sólido 56.3 en SWE-PRO (puesto #2). Además, su fiabilidad en el uso de herramientas es excepcional, superando el 98% en τ²-bench en todos los niveles de dificultad, lo que lo convierte en un candidato ideal para despliegues de agentes autónomos.
A diferencia de los modelos que utilizan adaptadores visuales externos, Step-3.7-Flash es nativamente multimodal. Esto significa que entiende de forma intrínseca interfaces de usuario (UIs), gráficos complejos, documentos estructurados e imágenes, permitiéndole no solo describirlos, sino actuar sobre ellos.
Esta capacidad se extiende a la ejecución de acciones: el modelo puede observar una pantalla, entender un flujo de trabajo y escribir código o llamar a herramientas externas para completar una tarea. Su capacidad de búsqueda web y visual es más profunda que sus predecesores, permitiendo seguimientos lógicos más complejos y el uso de múltiples fuentes de información simultáneamente.
Gracias a su alto throughput de 400 tokens por segundo y su arquitectura eficiente, Step-3.7-Flash es perfecto para aplicaciones de tiempo real. Los desarrolladores pueden implementarlo en asistentes de codificación que necesitan entender capturas de pantalla de errores, o en sistemas de RAG (Retrieval-Augmented Generation) que manejan documentos con tablas y gráficos complejos.
Otro caso de uso crítico es la automatización de procesos empresariales (RPA) de nueva generación, donde el modelo actúa como un agente que navega por interfaces web y aplicaciones de escritorio, tomando decisiones basadas en la percepción visual y la lógica de razonamiento.
StepFun ha adoptado una estrategia de precios altamente competitiva para fomentar la adopción masiva. El modelo ofrece un costo de entrada muy bajo, ideal para aplicaciones de escala masiva, y cuenta con un sistema de caché que reduce drásticamente los costos para consultas repetitivas.
Además, Step-3.7-Flash se distribuye con pesos abiertos bajo la licencia Apache 2.0, lo que permite a los ingenieros desplegarlo localmente o en su propia infraestructura, ofreciendo una flexibilidad total para proyectos que requieren privacidad o control absoluto sobre el hardware.
Para comenzar a integrar Step-3.7-Flash en tus flujos de trabajo, puedes acceder a él a través de la API de StepFun o mediante proveedores de terceros como OpenRouter. Para despliegues locales, los pesos ya están disponibles en Hugging Face en diversos formatos, incluyendo BF16, FP8, NVFP4 y GGUF para optimización en hardware de consumo.
Si buscas una integración rápida en entornos de producción con optimización de NVIDIA, también puedes encontrar el modelo disponible en NVIDIA NIM, lo que facilita el escalado de aplicaciones agénticas con baja latencia.
API Pricing — Input: $0.20 / 1M tokens / Output: $1.15 / 1M tokens / Context: 256K