Nous Hermes 2 : Le modèle open-source qui révolutionne l'IA locale
Découvrez le nouveau modèle open-source Nous Hermes 2 de NousResearch, disponible en version 34B et optimisé pour les applications locales avec des performances exceptionnelles.

Introduction
Le paysage de l'intelligence artificielle open-source vient de connaître une avancée significative avec la sortie de Nous Hermes 2 par NousResearch le 13 novembre 2023. Ce modèle représente une évolution majeure dans la famille des modèles Hermes, offrant aux développeurs et ingénieurs IA une solution puissante et accessible pour déployer des applications d'IA locales.
Conçu comme un modèle communautaire finetuné sur les architectures Mistral et Yi, Nous Hermes 2 s'impose comme une alternative crédible aux modèles propriétaires, tout en respectant les principes de transparence et d'accessibilité chers à la communauté open-source.
Avec ses variantes allant de 7B à 34B de paramètres, ce modèle s'adresse aussi bien aux développeurs souhaitant exécuter des tâches simples sur des machines modestes qu'aux entreprises nécessitant des capacités de traitement plus importantes.
La popularité croissante de Nous Hermes 2 pour l'IA locale témoigne de sa capacité à offrir des performances comparables à celles des grands modèles tout en fonctionnant sur des infrastructures locales.
Caractéristiques clés et architecture
Nous Hermes 2 se décline en plusieurs variantes architecturales, avec des modèles allant de 7 milliards à 34 milliards de paramètres. La version la plus populaire, Nous Hermes 2 Mistral 7B DPO, est basée sur l'architecture Mistral et a été optimisée via Direct Preference Optimization (DPO).
Les modèles exploitent des contextes allant jusqu'à 8000 tokens dans certaines variantes, permettant des conversations plus longues et des traitements de documents plus volumineux. L'architecture repose sur des fondations solides issues des travaux de Teknium sur OpenHermes-2.5-Mistral-7B.
Parmi les variantes disponibles figurent Nous-Hermes-2-Yi-34B, Nous-Hermes-2-Mixtral-8x7B-SFT (46.7B effectifs), et Nous-Hermes-2-Solar-10.7B, chacune optimisée pour des cas d'utilisation spécifiques.
Le modèle supporte nativement les appels de fonctions et la génération de JSON, ce qui en fait un choix idéal pour les applications nécessitant une interaction programmable avec des systèmes externes.
- Paramètres : 7B, 8B, 10.7B, 34B, 46.7B (Mixtral 8x7B)
- Contexte max : Jusqu'à 8000 tokens
- Architecture : Basée sur Mistral, Yi, Llama-3, Mixtral
- Fonctionnalités : Appel de fonctions, génération JSON
Performances et benchmarks
Les résultats de benchmark montrent que Nous Hermes 2 surpasse ses prédécesseurs et rivalise avec les modèles concurrents. La variante Mistral 7B DPO a obtenu des scores impressionnants sur AGIEval, BigBench Reasoning, GPT4All, et TruthfulQA, démontrant une amélioration globale par rapport à OpenHermes-2.5-Mistral-7B.
Sur les benchmarks de raisonnement, le modèle affiche des performances supérieures à la moyenne, particulièrement dans les tâches de compréhension des instructions et de génération de texte cohérent. Les tests MMLU et HumanEval montrent des scores compétitifs avec des modèles propriétaires de taille similaire.
La variante Llama-3 8B (Hermes-2 Pro) se classe dans le 86ème percentile pour la vitesse d'exécution et dans le 95ème percentile pour le rapport qualité/prix selon Benchable.ai.
Ces performances s'expliquent par l'approche de fine-tuning basée sur les préférences humaines (DPO), qui permet au modèle de mieux suivre les instructions et de produire des réponses plus alignées avec les attentes des utilisateurs.
Pricing API
Les variantes de Nous Hermes 2 sont disponibles via des plateformes telles qu'OpenRouter, avec des tarifs compétitifs adaptés aux budgets des développeurs et des petites entreprises. La variante Llama-3 8B est proposée à partir de 0.14$ par million de tokens en entrée.
Les coûts varient selon la complexité du modèle et la plateforme d'hébergement. Pour les déploiements locaux, les coûts se limitent à l'infrastructure nécessaire au fonctionnement du modèle.
Certains fournisseurs offrent des plafonds gratuits ou des crédits initiaux pour permettre aux développeurs de tester les modèles sans engagement financier initial.
Le rapport qualité/prix exceptionnel du modèle en fait une option attractive pour les projets nécessitant des capacités d'IA performantes sans les contraintes budgétaires des modèles propriétaires.
Tableau comparatif
Le tableau suivant compare Nous Hermes 2 avec deux modèles concurrents de même catégorie open-source.
Nous Hermes 2 se distingue par son équilibre entre performances, coût et flexibilité d'utilisation locale.
Cas d'utilisation
Grâce à sa capacité exceptionnelle à suivre les instructions, Nous Hermes 2 est particulièrement adapté aux applications de dialogue, d'assistance technique et de génération de contenu textuel. Sa compatibilité avec les appels de fonctions en fait un excellent candidat pour les assistants IA et les agents autonomes.
Dans le domaine du développement logiciel, le modèle excelle dans les tâches de complétion de code, de relecture et de documentation. Son intégration dans les pipelines RAG (Retrieval-Augmented Generation) permet des systèmes de recherche documentaire intelligents.
Pour les applications locales, le modèle permet de déployer des solutions d'IA sans dépendance à des services cloud, garantissant confidentialité et contrôle total des données traitées.
Les entreprises peuvent également l'utiliser pour automatiser des processus métier, générer des rapports et analyser des documents internes sans compromettre la sécurité des informations sensibles.
- Applications de dialogue et assistance technique
- Génération de code et outils de développement
- Systèmes RAG et recherche documentaire
- Agents autonomes et assistants IA
Premiers pas
Pour accéder à Nous Hermes 2, rendez-vous sur Hugging Face où les différentes variantes sont disponibles gratuitement. Les modèles sont publiés sous licence Apache 2.0, permettant leur utilisation commerciale.
Pour une intégration simplifiée, OpenRouter propose des endpoints API faciles à intégrer dans vos applications existantes. Des SDK Python sont disponibles via Transformers et d'autres bibliothèques populaires.
Les développeurs peuvent également télécharger les poids du modèle et les exécuter localement à l'aide de frameworks comme vLLM, Text Generation WebUI ou Ollama.
Des exemples de code et des tutoriels sont disponibles dans la documentation officielle de NousResearch, facilitant l'intégration et l'expérimentation avec le modèle.
- Disponible sur Hugging Face (gratuit)
- Endpoints API via OpenRouter
- Support local via vLLM, Ollama, Text Generation WebUI
- Documentation complète et exemples de code
Comparison
Model: Nous Hermes 2 Mistral 7B | Context: 8000 tokens | Max Output: 4096 tokens | Input $/M: 0.05$ | Output $/M: 0.10$ | Strength: Instruction following, local deployment
Model: Nous Hermes 2 Llama-3 8B | Context: 8192 tokens | Max Output: 4096 tokens | Input $/M: 0.14$ | Output $/M: 0.21$ | Strength: Function calling, JSON generation
Model: Nous Hermes 2 Yi 34B | Context: 4096 tokens | Max Output: 2048 tokens | Input $/M: 0.28$ | Output $/M: 0.42$ | Strength: Complex reasoning, accuracy
API Pricing — Input: 0.05$ - 0.28$/million tokens / Output: 0.10$ - 0.42$/million tokens / Context: Available on OpenRouter and Hugging Face