Jusqu’à présent légèrement derrière les modèles d’OpenAI, Gemini s’affirme désormais comme un concurrent sérieux, d’après Chatbot Arena.
En termes de performance, les modèles de langage d’OpenAI sont désormais rivalisés par ceux développés par Google pour son agent conversationnel Gemini. C’est ce que révèle la récente mise à jour de la Chatbot Arena, un classement créé par des chercheurs et étudiants de l’Université de Berkeley, aux États-Unis, avec le soutien d’HuggingFace.
Mise à jour en temps réel, la Chatbot Arena attribue un score de performance à chaque modèle d’IA, visant à classer de manière objective les IA génératrices de texte en se basant sur les contributions des utilisateurs. Ces utilisateurs sont invités à évaluer, en utilisant la même requête, les réponses fournies par deux modèles d’IA dont l’identité est masquée.
Les 10 Modèles de Langage les Plus Performants en Août 2024
En juillet 2024, OpenAI, la société à l’origine de ChatGPT, a dominé le classement en s’emparant de cinq des dix premières positions, aidée par le déploiement de GPT-4o mini. Cette performance a relégué la plupart de ses concurrents en dehors du top 10, à l’exception d’Anthropic et de Google. Ce mois-ci, Google, jusqu’ici légèrement en retrait, a répondu avec le lancement du modèle Gemini 1.5 Flash. Ce modèle, conçu pour offrir des réponses plus efficaces, a été intégré à la version gratuite de son chatbot éponyme.
Grâce à cette technologie avancée, Google s’est hissé sur le podium de la Chatbot Arena, tout en occupant également plusieurs autres positions d’honneur (6e, 8e, et 9e places). OpenAI conserve néanmoins une avance significative, plaçant deux de ses itérations sur le podium et quatre dans le top 10. Ailleurs dans le classement, Meta atteint la septième position avec Meta Llama 3.1, tandis qu’Anthropic perd deux places avec son modèle le plus avancé, Claude 3.5 Sonnet.
Voici le classement des modèles les plus performants :
- ChatGPT 4o Latest : 1314 (score Elo)
- Gemini 1.5 Pro 0801 : 1297
- GPT-4o 0513 : 1286
- GPT-4o mini 0718 : 1274
- Claude 3.5 Sonnet : 1271
- Gemini Advanced : 1266
- Meta Llama 3.1 : 1263
- Gemini 1.5 Pro : 1260
- Gemini 1.5 Pro Preview : 1257
- GPT-4 Turbo 0409 : 1257
Ce classement reflète l’évolution constante et la compétition dynamique dans le domaine des modèles de langage, où chaque acteur cherche à améliorer ses performances et sa position sur le marché.
Lire aussi :
Paiement Sans Contact : PayPal va-t-il Rivaliser avec Apple Pay en Europe ?
Critères de Classement de la Chatbot Arena
Conçue par la Large Model Systems Organization (LMSYS), qui regroupe des étudiants et des chercheurs américains, la Chatbot Arena utilise le système Elo pour classer les modèles génératifs. Mais qu’est-ce que c’est exactement ? Ce système de notation, couramment utilisé dans des disciplines compétitives comme l’esport ou les échecs, est parfaitement adapté au format de duel de la Chatbot Arena, permettant de « prédire l’issue du [prochain] match », selon LMSYS.
Un score Elo peut être considéré comme une cote qui évolue en fonction des performances. Par exemple, si un modèle génératif ayant un score élevé, comme Gemini 1.5 Pro ce mois-ci, perd face à un adversaire plus faible, comme Claude 3.5 Sonnet, il perdra des points. À l’inverse, il en gagnera s’il bat un modèle considéré comme plus fort.
Le système Elo est également utilisé par Artificial Analysis, un organisme proposant un classement similaire pour les IA génératrices d’images, telles que Midjourney ou DALL-E.
Lire aussi :
Les 20 Langages de Programmation les Plus Populaires en Août 2024