Meta a récemment fait parler d’elle dans le domaine de l’intelligence artificielle, après le lancement de ses modèles Llama 4, notamment Maverick. Cette sortie a suscité des interrogations majeures concernant la transparence des données et la fiabilité des benchmarks. Au centre des débats, des allégations émergent, suggérant que la société aurait utilisé une version optimisée de Maverick pour obtenir des résultats flatteurs sur la plateforme LMArena, laissant planer le doute sur l’intégrité de leurs performances. Des spécialistes craignent que de telles manœuvres déforment la réalité des capacités des modèles d’IA, ouvrant la voie à des critiques sur les pratiques de Meta, déjà confrontée à des accusations de violation de droits d’auteur dans le passé, comme l’indiquent plusieurs revues d’actualité.
Meta a récemment lancé ses nouveaux modèles Llama 4, dont l’un, nommé Maverick, a rapidement pris la deuxième place sur le site de benchmarks LMArena. Toutefois, une découverte a révélé que la version de Maverick testée sur LMArena n’était pas identique à celle disponible pour le public, étant une version de chat expérimentale optimisée pour la conversation. Des critiques de LMArena ont exprimé leur inquiétude quant à cette pratique, accusant Meta de ne pas être transparent sur les versions testées. Cette situation soulève des questions sur l’intégrité des benchmarks d’IA et sur la manière dont Meta, en cherchant à s’affirmer comme un leader dans le domaine, pourrait manipuler ces classements pour obtenir des résultats favorables.
Meta et la manipulation des benchmarks d’IA
Récemment, Meta a suscité des controverses en lançant ses modèles d’IA Llama 4, spécifiquement les versions Scout et Maverick. Ces modèles ont été présentés comme des concurrents directs aux systèmes d’OpenAI et de Google. La déclaration de Meta a révélé que Maverick, par exemple, avait obtenu un score ELO impressionnant de 1417, surpassant ainsi d’autres modèles notables. Pourtant, une investigation attentive a révélé que la version testée sur le site de benchmarks LMArena n’était pas identique à celle accessible au public.
Une version expérimentale contestée
Il a été découvert que la version de Maverick utilisée pour les tests avait été spécialement optimisée pour des conversations. Les critiques affirment que cette approche pourrait fausser les résultats des benchmarks, rendant difficile une évaluation précise des performances réelles des modèles disponibles. Lorsque des versions ajustées sont soumises pour des tests, leur efficacité dans des scénarios réels devient un sujet de discussion. Le site LMArena a même précisé que la transparence sur le caractère expérimental de ce modèle n’était pas assez claire.
Les accusations de tricherie et les implications
Les rumeurs circulent également concernant d’autres allégations selon lesquelles Meta aurait entraîné ses modèles à l’aide de données non autorisées, déclenchant une discussion intense au sein de la communauté technologique. Par ailleurs, des accusations ont été portées contre la société pour avoir utilisé des œuvres protégées par des droits d’auteur dans le processus d’entraînement de ses IA. Ce type de manipulation pose un défi majeur pour les développeurs qui s’appuient sur ces classements pour choisir les meilleurs modèles pour leurs applications.
On parlait de manipulation hier soir, vous vous souvenez ? Etbien ce n'est pas la seule de cette fin d'année. Et c'est toujours Générations Futures. Un court 🧵https://t.co/hKWt0KFNzX
— Yann Kerveno (@yannkerveno) December 19, 2024