Retro-Future Columnist

À chaque mise à jour des modèles d'IA, les chiffres deviennent plus éclatants. Pourtant, cet éclat masque souvent la vérité du ressenti concret à l'usage. L’habitude d'évaluer les performances par un unique test comme le MMLU facilite la lecture des progrès, mais elle gomme les contours essentiels du travail : la fluidité des conversations, la gestion des textes longs, l'intégration d'outils, ou encore la securi[3][6] La réalité d'une hausse de benchmarks ne coïncide pas avec la sensation d’un travail réellement facilité.

Cette dissonance a été institutionnalisée par HELM du Stanford CRFM.[1][3] HELM prône une évaluation à plusieurs facettes, incluant non seulement la précision, mais aussi la calibration, la robustesse, l'équité, la toxicité et l'efficacité, affirmant clairement qu'un score unique ne peut mesurer un modèle.[3][10] Dans d'autres domaines, HEIM pour l'imagerie a démontré qu'aucun modèle ne domine tous les aspects.[3][5] Le « meilleur » candidat de l'IA ne tient jamais sur une feuille de tableau.

Malgré cela, les entreprises mettent les chiffres en avant. Les rapports techniques publics illustrent cette réalité : GPT-4 montre une amélioration sur les benchmarks majeurs tout en détaillant ses limites et échecs.[7][11] Claude 4 d'Anthropic explique même comment ses benchmarks sont calculés, distinguant par exemple l’usage ou non de la pensée augmentée.[2] Le Gemini de Google souligne qu’il y a une différence entre benchmarks et usage réel.[6] Ce duel chiffré n’est pas seulement pour impressionner, mais parce que dans un marché sans étalon commun, il faut vendre la comparabilité elle-même.

Cela crée une alliance inattendue entre recherche et commercialisation. Les rapports annuels comme l’AI Index consignent simplement cette course aux capacités, qui est à la fois progrès technique et communication destinée à investisseurs, développeurs et acquéreurs.[6][8] Pour les entreprises, les benchmarks sont à la fois un instrument pour montrer les performances et un signal pour attirer des fonds. Ainsi, les scores sont constamment mis à jour, les titres raccourcis et les tableaux de comparaison multipliés.

Remettre en cause les benchmarks ne signifie pas cesser d’évaluer. Au contraire, toute évaluation qui ne peut expliquer ce qu'elle mesure résiste mal aux décisions pratiques.

Par exemple, la génération de code, la gestion de longs contextes, le traitement de données internes ou les limites de sécurité ne sont visibles dans les tests académiques standards.[2][4][6] L'approche de Claude 4 qui met en avant la sécurité et l’évaluation en conditions réelles vise moins à mesurer l'intelligence que la façon dont le modèle peut « casser ».[2][4] C’est là que se dessine la prochaine culture de l’évaluation.

Pourtant, vérifier l'équité d'une comparaison reste délicat. Même si les benchmarks ont le même nom, ils peuvent être utilisés avec des prétraitements ou configurations différentes. S'ils intègrent des données issues de l'apprentissage, les scores reflètent davantage des mémoires que des compétences.[9][10] Autour de Claude 4, des recherches en sécurité ont soulevé le débat sur la contamination des benchmarks. Concevoir de bons tests peut ainsi engendrer de nouvelles distorsions.[9] La solution n’est pas l’affirmation péremptoire, mais la transparence sur les conditions reproductibles d’évaluation : quels outils, quelles méthodes, quels contrôles externes ? Quels outils sont utilisés, comment on mesure, où s’effectue la vérification externe ?

Ce phénomène est lié aux habitudes journalistiques. À chaque nouveau modèle, les gros titres se tournent vers la comparaison, et les fluctuations de scores deviennent des actualités. Pourtant, les utilisateurs veulent moins un classement qu’une réponse fluide qui ne perturbe pas leur travail, une interaction non fatigante sur la durée. Si l’on peut rapprocher la sensation que « l’IA n’est plus un logiciel, mais une atmosphère », elle se manifeste dans l’air ambiant de l’espace de travail quotidien, pas dans des tableaux statistiques.[5][6] Les benchmarks ne capturent pas pleinement cette atmosphère.

Pourquoi les entreprises s'accrochent-elles alors à ces chiffres ? Simplement parce qu'ils parlent au marché. Ils sont le langage commun des chercheurs, des arguments commerciaux et la preuve visuelle pour les investisseurs.[6][8] Mais plus cette commodité est forte, plus la véritable valeur ressentie par les utilisateurs recule.