2024-04-15 17:49:00
Getty Images/Sofiana Indriani
OpenAI a connu une forte séquence de mises à jour ces derniers temps, mettant le dernier GPT-4 Turbo à la disposition des développeurs et des abonnés ChatGPT payants la semaine dernière. Lors du lancement du modèle, OpenAI a indiqué que le nouveau GPT-4 Turbo présente plusieurs améliorations par rapport à son prédécesseur. Les utilisateurs découvrent maintenant que c’est vrai.
Aussi : Zoom fait l’objet de sa première refonte majeure en 10 ans, alimentée par l’IA générative
Jeudi, la version mise à jour de GPT-4 Turbo, gpt-4-turbo-2024-04-09, a repris sa place de numéro un sur la Chatbot Arena de la Large Model Systems Organization (LMSYS), une plate-forme participative où les utilisateurs peuvent évaluer des langages volumineux. modèles (LLM).
🔥Nouvelles passionnantes : GPT-4-Turbo vient de reprendre la première place du classement Arena ! Waouh !
Nous collectons plus de 8 000 votes d’utilisateurs dans divers domaines et observons sa forte capacité de codage et de raisonnement par rapport aux autres. Chapeau bas à @OpenAI pour ce lancement incroyable !
Offrir… pic.twitter.com/IxbN2Q9ecJ– lmsys.org (@lmsysorg) 11 avril 2024
La Chatbot Arena permet aux utilisateurs de discuter côte à côte avec deux LLM et de comparer leurs réponses sans connaître les noms des modèles.
Après avoir consulté les réponses, les utilisateurs peuvent continuer à discuter jusqu’à ce qu’ils se sentent à l’aise pour déterminer quel modèle a gagné, s’il s’agit d’une égalité ou s’ils ont tous deux de mauvaises performances, comme indiqué ci-dessous.
Capture d’écran de Sabrina Ortiz/ZDNET
Chatbot Arena utilise ensuite les résultats pour classer les 82 LLM dans son classement, qui comprend les LLM les plus populaires disponibles, tels que Gemini Pro, Claude 3 et Mistral-Large-2402.
Depuis la dernière mise à jour de Chatbot Arena du 13 avril, la version mise à jour de GPT-4 Turbo occupe la tête dans les catégories globale, codage et anglais.
Aussi : Les meilleurs chatbots IA : ChatGPT n’est pas le seul qui vaut la peine d’être essayé
Cela signifie que moins d’un mois après avoir dépassé GPT-4 Turbo dans la Chatbot Arena, Claude 3 Opus d’Anthropic a été poussé à la deuxième place de la catégorie générale, suivi de GPT-4-1106-preview, une ancienne version de GPT-4. Turbo, à la troisième place.
Ces résultats pourraient être attribués aux capacités améliorées de codage, de mathématiques, de raisonnement logique et d’écriture de gpt-4-turbo-2024-04-09, démontrées par ses performances plus élevées sur une série de tests utilisés pour tester la compétence des modèles d’IA, comme on le voit. ci-dessous.
Si vous souhaitez comparer les performances de gpt-4-turbo-2024-04-09 avec d’autres LLM, vous pouvez visiter Chatbot Arena et cliquer sur l’option Arena (côte à côte) pour sélectionner les modèles que vous souhaitez comparer.
Aussi : les deux nouveaux outils d’IA d’Adobe Premiere Pro m’ont époustouflé. Regardez-les en action par vous-même
Puisque vous connaissez l’identité des modèles dans l’option côte à côte, vous ne pourrez pas voter. Si vous souhaitez voter et que cela compte pour le classement, utilisez l’option « Arène (bataille) » pour comparer des modèles aléatoires.
Si vous préférez ignorer les tests et utiliser directement gpt-4-turbo-2024-04-09 dans ChatGPT, vous devez vous abonner à ChatGPT Plus, qui coûte 20 $ par mois.
#GPT4 #Turbo #récupère #couronne #meilleur #modèle #dIA #Claude #dAnthropic
