Découvrez LongCat-2.0, le nouveau modèle MoE de 1,6T de paramètres qui surpasse GPT-5.5 sur les benchmarks de programmation et offre un contexte de 1M de tokens.
Le paysage de l'intelligence artificielle spécialisée dans le code vient de subir un séisme majeur. Le 30 juin 2026, Meituan a officiellement lancé LongCat-2.0, un modèle qui ne se contente pas de suivre la tendance, mais qui redéfinit les standards de l'industrie. Longtemps, les modèles de code étaient limités par des fenêtres de contexte étroites ou une efficacité de calcul médiocre lors de l'analyse de dépôts massifs.
LongCat-2.0 change la donne en étant un modèle 'milestone'. Ce n'est pas seulement une mise à jour incrémentale ; c'est une architecture massive de 1,6 trillion de paramètres qui arrive en open source. Pour les ingénieurs et les développeurs, cela signifie l'accès à une puissance de raisonnement logicielle qui rivalise, et dépasse souvent, les modèles propriétaires les plus coûteux du marché.
Au cœur de LongCat-2.0 se trouve une architecture Mixture-of-Experts (MoE) d'une complexité fascinante. Avec 1,6T de paramètres totaux, le modèle n'active que ~48B paramètres par token, optimisant ainsi radicalement le rapport performance/coût de calcul. L'innovation majeure réside dans les 'Zero-Compute Experts', qui permettent une activation dynamique de 33B à 56B de paramètres par token, garantissant qu'aucun cycle de calcul n'est gaspillé sur des tâches non pertinentes.
Pour gérer l'immensité des données, Meituan a introduit la technologie LongCat Sparse Attention (LSA). Cette méthode permet de scaler efficacement jusqu'à une fenêtre de contexte de 1 million de tokens. Contrairement aux mécanismes d'attention classiques qui saturent rapidement, le LSA maintient une précision constante, permettant d'ingérer des bases de code entières en une seule session d'inférence.
L'architecture MOPD (Multi-Objective Parameter Distribution) structure également le modèle en trois groupes d'experts spécialisés : Agent, Reasoning et Interaction. Un routeur intelligent dirige chaque requête vers le groupe le plus compétent, optimisant la spécialisation du modèle pour chaque type de tâche.
Les chiffres parlent d'eux-mêmes. LongCat-2.0 a été testé sur les benchmarks les plus rigoureux de l'industrie, et les résultats sont sans appel. Sur le SWE-bench Pro, le modèle affiche un score de 59.5, surpassant ainsi GPT-5.5 qui plafonne à 58.6. Cette capacité à résoudre des problèmes de software engineering réels est une prouesse technique majeure.
La polyvalence du modèle est également démontrée par ses performances multilingues et sa capacité de recherche. Sur le SWE-bench Multilingual, il atteint 77.3, prouvant que sa compréhension des structures logiques dépasse les barrières linguistiques. Il excelle également dans les tâches de navigation et de recherche complexe avec des scores impressionnants sur FORTE (73.2), RWSearch (78.8) et BrowseComp (79.9).
Enfin, pour les développeurs travaillant dans des environnements de terminal, le score de 70.8 sur Terminal-Bench 2.1 confirme que LongCat-2.0 est un compagnon de premier ordre pour l'automatisation et la gestion système.
L'un des aspects les plus attractifs de LongCat-2.0 est son modèle économique, particulièrement optimisé pour les workflows de RAG (Retrieval-Augmented Generation) et les analyses de gros volumes de données. Grâce à l'efficacité de son architecture, les coûts restent extrêmement compétitifs.
Le point fort est sans conteste le prix du 'Cache Hit'. Pour les développeurs qui réutilisent fréquemment les mêmes contextes (comme des bibliothèques de code ou des documentations), le coût tombe à seulement 0.015 $ par million de tokens. Cela rend l'utilisation d'une fenêtre de 1M de tokens économiquement viable pour des applications de production à grande échelle.
Grâce à sa fenêtre de contexte massive et son architecture spécialisée, LongCat-2.0 ouvre de nouvelles possibilités. Le cas d'usage le plus évident est le 'Repository-level RAG'. Au lieu de découper votre code en petits morceaux (chunks) qui perdent le contexte, vous pouvez injecter l'intégralité de votre projet pour obtenir des réponses d'une précision chirurgicale.
Le modèle est également conçu pour l'ère des agents. Ses experts spécialisés en 'Reasoning' et 'Interaction' le rendent idéal pour créer des agents autonomes capables de naviguer dans des terminaux, de lire de la documentation en ligne et de résoudre des tickets GitHub de bout en bout sans intervention humaine constante.
Pour les développeurs souhaitant tester la puissance du modèle, la version complète qui alimentait précédemment Owl Alpha est désormais disponible en open source. Vous pouvez également y accéder via OpenRouter pour une intégration rapide via API.
L'implémentation est simple : les endpoints suivent les standards de l'industrie, facilitant la migration depuis d'autres modèles comme GPT ou Claude. Nous recommandons d'utiliser les SDK compatibles OpenAI pour une intégration transparente dans vos pipelines CI/CD existants.
API Pricing — Input: 0.75 / Output: 2.95 / Context: 1000000