L'IA, un mauvais choix pour corriger les essais

Une étude de Cambridge montre que l'IA échoue à évaluer les essais universitaires, favorisant la moyenne et négligeant le vrai contenu.

Contexte et objectifs de l’étude

Alors que l’intelligence artificielle s’installe progressivement dans les universités, la tentation d’utiliser des systèmes automatiques pour corriger les copies suscite de vifs débats. L’étude récente menée par l’Université de Cambridge s’est donnée pour mission de tester la capacité actuelle de trois modèles de langage avancés à attribuer des notes à des essais de psychologie rédigés par des étudiants britanniques.

Méthodologie et corpus analysé

Les chercheurs ont sélectionné 761 dissertations provenant des établissements de Cambridge, Nottingham et Manchester Metropolitan. Chaque texte avait déjà reçu une évaluation humaine, servant ainsi de référence. Les algorithmes testés — Claude Opus 4.6, GPT‑5.4 et Gemini 3 Flash — ont ensuite été invités à assigner une note à chaque travail, sans aucune information supplémentaire.

Performance des modèles

Les résultats sont loin d’être rassurants. Le taux d’accord avec les correcteurs humains oscille seulement entre 35 % et 63 % selon les universités. Le problème majeur réside dans la tendance marquée des IA à attribuer des scores moyens à la quasi‑majorité des essais, diluant ainsi les distinctions essentielles entre « passable », « excellent » ou « échoué ».

Les biais révélés

Deux mécanismes de biais ressortent clairement. D’une part, les dissertations contenant un vocabulaire recherché, de longues phrases complexes ou un grand nombre de mots rares reçoivent systématiquement des notes supérieures, même lorsque la substance académique est faible. D’autre part, les productions plus simples mais rigoureusement argumentées se voient régulièrement sous‑évaluées. En d’autres termes, les IA semblent privilégier la forme superficielle plutôt que la profondeur argumentative.

Réactions des étudiants et des enseignants

Le sondage mené auprès des étudiants révèle un sentiment d’injustice lorsque leurs travaux sont notés par une machine. Beaucoup expriment que l’absence de « doute humain » affaiblit la légitimité de la notation. Les enseignants, quant à eux, redoutent de confier la décision finale à un algorithme, craignant une perte de contact pédagogique et de reconnaissance du travail individuel.

Perspectives et limites

Les auteurs ne condamnent pas totalement l’usage de l’IA dans l’évaluation, mais ils insistent sur son rôle potentiel d’outil d’aide plutôt que de remplaçant. Un système automatisé pourrait servir de « deuxième paire d’yeux » pour repérer des incohérences majeures, offrant ainsi aux correcteurs humains une alerte précoce. Toutefois, tant que les modèles ne saisissent pas la vraie nature de la qualité académique, il demeure trop risqué de leur confier l’intégralité du processus de notation.

Source: https://scientias.nl/ai-als-docent-deze-studie-laat-zien-waarom-dat-een-heel-slecht-idee-is/