Blog

Meta pris en flagrant délit de manipulation des benchmarks d’IA

Quentin Masson
8 avril 2025

Meta a récemment fait parler d’elle dans le domaine de l’intelligence artificielle, après le lancement de ses modèles Llama 4, notamment Maverick. Cette sortie a suscité des interrogations majeures concernant la transparence des données et la fiabilité des benchmarks. Au centre des débats, des allégations émergent, suggérant que la société aurait utilisé une version optimisée de Maverick pour obtenir des résultats flatteurs sur la plateforme LMArena, laissant planer le doute sur l’intégrité de leurs performances. Des spécialistes craignent que de telles manœuvres déforment la réalité des capacités des modèles d’IA, ouvrant la voie à des critiques sur les pratiques de Meta, déjà confrontée à des accusations de violation de droits d’auteur dans le passé, comme l’indiquent plusieurs revues d’actualité.

Meta a récemment lancé ses nouveaux modèles Llama 4, dont l’un, nommé Maverick, a rapidement pris la deuxième place sur le site de benchmarks LMArena. Toutefois, une découverte a révélé que la version de Maverick testée sur LMArena n’était pas identique à celle disponible pour le public, étant une version de chat expérimentale optimisée pour la conversation. Des critiques de LMArena ont exprimé leur inquiétude quant à cette pratique, accusant Meta de ne pas être transparent sur les versions testées. Cette situation soulève des questions sur l’intégrité des benchmarks d’IA et sur la manière dont Meta, en cherchant à s’affirmer comme un leader dans le domaine, pourrait manipuler ces classements pour obtenir des résultats favorables.

Meta et la manipulation des benchmarks d’IA

Récemment, Meta a suscité des controverses en lançant ses modèles d’IA Llama 4, spécifiquement les versions Scout et Maverick. Ces modèles ont été présentés comme des concurrents directs aux systèmes d’OpenAI et de Google. La déclaration de Meta a révélé que Maverick, par exemple, avait obtenu un score ELO impressionnant de 1417, surpassant ainsi d’autres modèles notables. Pourtant, une investigation attentive a révélé que la version testée sur le site de benchmarks LMArena n’était pas identique à celle accessible au public.

Une version expérimentale contestée

Il a été découvert que la version de Maverick utilisée pour les tests avait été spécialement optimisée pour des conversations. Les critiques affirment que cette approche pourrait fausser les résultats des benchmarks, rendant difficile une évaluation précise des performances réelles des modèles disponibles. Lorsque des versions ajustées sont soumises pour des tests, leur efficacité dans des scénarios réels devient un sujet de discussion. Le site LMArena a même précisé que la transparence sur le caractère expérimental de ce modèle n’était pas assez claire.

Les accusations de tricherie et les implications

Les rumeurs circulent également concernant d’autres allégations selon lesquelles Meta aurait entraîné ses modèles à l’aide de données non autorisées, déclenchant une discussion intense au sein de la communauté technologique. Par ailleurs, des accusations ont été portées contre la société pour avoir utilisé des œuvres protégées par des droits d’auteur dans le processus d’entraînement de ses IA. Ce type de manipulation pose un défi majeur pour les développeurs qui s’appuient sur ces classements pour choisir les meilleurs modèles pour leurs applications.

On parlait de manipulation hier soir, vous vous souvenez ? Etbien ce n'est pas la seule de cette fin d'année. Et c'est toujours Générations Futures. Un court 🧵https://t.co/hKWt0KFNzX
— Yann Kerveno (@yannkerveno) December 19, 2024

Ces articles pourraient vous intéresser

découvrez comment cohere transforme la recherche en milieu professionnel avec son modèle embed 4, facilitant l'accès à l'information et optimisant la productivité au sein des entreprises.

Intelligence artificielle

Cohere simplifie la recherche en milieu professionnel grâce à son modèle Embed 4

Cohere transforme le paysage de la recherche en milieu professionnel avec son modèle

16 avril 2025

découvrez comment la publicité exploitant l'intelligence artificielle s'adapte aux attentes variées des générations. plongez dans les stratégies innovantes qui offrent une personnalisation unique pour chaque groupe d'âge, maximisant ainsi l'engagement et la satisfaction des consommateurs.

Marketing

Publicité et intelligence artificielle : une personnalisation adaptée aux attentes des différentes générations

Avec l’évolution rapide des technologies et des comportements des consommateurs, la publicité se

15 avril 2025

Intelligence artificielle

L’intelligence artificielle de Google s’enrichit avec Lyria, la fonctionnalité de création musicale – l’univers génératif s’étend aux vidéos, images, discours et maintenant à la musique

L’émergence de l’intelligence artificielle a bouleversé de nombreux secteurs, et aujourd’hui, Google met

14 avril 2025