À l’automne 2023, j’ai demandé à mes étudiants et à mes étudiantes du cours Histoire des sciences et des techniques, dans le baccalauréat en histoire, d’utiliser ChatGPT dans le cadre d’une évaluation sommative. Je les ai ainsi amenés à prendre conscience des limites de cet outil d’intelligence artificielle.
À mon avis, en enseignement, la technologie est un élément complémentaire à l’expérience pédagogique. Elle ne peut s’y substituer et doit lui rester subordonnée en toute circonstance, d’autant que les technologies sont en évolution constante: aujourd’hui, c’est de ChatGPT dont tout le monde parle; demain ce sera d’un nouvel outil… Les outils comme ChatGPT peuvent être utiles aux étudiants et aux étudiantes pour réaliser certaines tâches (suggérer des sujets de recherche, traduire des passages de texte), mais ils ne peuvent ni étudier un sujet avec précision et profondeur ni suggérer des sources réellement fiables pour le documenter. Pourtant, cela est au cœur même de la pratique professionnelle des historiens et des historiennes. Il devient donc important d’aiguiser le sens critique de nos élèves pour qu’ils et elles utilisent de manière réfléchie ces outils dans leur future profession.
Dans le cadre d’un exercice en 3 temps, j’ai voulu démystifier l’aura magique entourant l’intelligence artificielle et montrer à mes élèves que, même si leurs travaux comportaient des lacunes, lorsqu’ils et elles connaissaient bien leur sujet, ChatGPT ne leur apprenait finalement pas grand-chose de nouveau.
Une biographie scientifique en 3 temps
Dans mon cours, les élèves devaient produire une biographie scientifique. Dans un 1er temps, ils et elles devaient:
- choisir un ou une scientifique
- effectuer une recherche bibliographique sur la personne choisie, à partir d’au moins 3 sources évaluées par les pairs
- rédiger une biographie de 2000 mots comportant:
- des éléments de biographie personnelle (enfance, univers familial, origines sociales…)
- des éléments de la trajectoire scientifique (formation et études, recherche, contributions scientifiques majeures, etc.)
Dans leur biographie, les élèves devaient également inclure des éléments de contextualisation (comme le contexte historique ou une prise de position politique) permettant de mieux cerner qui était leur scientifique et dans quelle époque il ou elle s’inscrivait.
Dans un 2e temps, les élèves devaient répéter le même exercice, mais cette fois-ci avec ChatGPT. En classe, j’ai pris le temps de montrer à mes étudiants et étudiantes comment bien formuler leur requête pour obtenir un résultat satisfaisant. Ensuite, je les ai laissés tester ChatGPT. Ils et elles devaient demander à l’IA de:
- rédiger une biographie sur la même figure scientifique choisie précédemment (1500 à 2000 mots)
- s’appuyer sur des références savantes dans la rédaction de son texte et leur fournir une bibliographie
Les étudiants et étudiantes devaient également préciser les éléments qu’ils et elles voulaient voir apparaitre dans la biographie rédigée par ChatGPT. Les interactions avec ChatGPT ainsi que la biographie obtenue devaient figurer en annexe de leur travail.
Dans un 3e temps, et en guise de conclusion à leur travail écrit, les élèves devaient réaliser une comparaison critique (500 à 750 mots) des 2 biographies. Ils et elles devaient analyser:
- les écarts factuels entre les 2 versions
- le style adopté par ChatGPT
- la fiabilité et la pertinence de ChatGPT pour un tel exercice
Les constats des étudiants et étudiantes
Faits erronés
Mes élèves ont remarqué avant toute chose que l’algorithme commettait beaucoup d’erreurs factuelles.
À une étudiante qui avait travaillé sur le pionnier de l’informatique (et de l’IA!) Alan Turing, ChatGPT a affirmé que le mathématicien britannique avait conçu, et non pas déchiffré, les codes de la machine Enigma utilisée par les nazis durant la Seconde Guerre mondiale: une erreur grossière. ChatGPT lui a également appris que Turing avait effectué un séjour de recherche à l’Institute of Advanced Studies, à Princeton, entre 1945 et 1946, alors que l’étudiante avait plutôt noté les dates de 1936 et 1938 dans sa propre recherche. Interrogé à propos de cet écart de dates, ChatGPT a confessé s’être emmêlé les pinceaux entre Turing et l’un de ses contemporains, le mathématicien hongrois John von Neumann, dont le nom est plutôt associé à la théorie des jeux. Hélas, vérification faite, von Neumann, bien qu’il se soit trouvé aux États-Unis entre 1945 et 1946, n’avait pas mis les pieds à Princeton.
Un autre étudiant, qui travaillait sur l’inventeur Alexander Graham Bell, a remarqué que ChatGPT lui attribuait la paternité du «visible speech», alors que c’est à son père, Alexander Melville Bell, qu’il aurait dû créditer l’invention de ce système phonétique.
ChatGPT a également appris à un étudiant que Louis Néel, nobelisé français de physique, avait été formé par Marie Curie avant de fonder son propre laboratoire à l’Université de Strasbourg, puis d’occuper un poste de professeur à la Sorbonne… Autant d’affirmations erronées!
Dans les cas de figures scientifiques moins connues, comme l’astronome française du XVIIIe siècle Nicole-Reine Lepaute, ChatGPT s’est montré encore plus confus en générant des pans entiers de biographies fictives.
Hallucinations
Si ces écarts ont pu faire sourire mes élèves, ils et elles ont cependant trouvé moins drôle que les élans d’inventivité non contrôlés de ChatGPT, ou «hallucinations», comme les désigne le jargon de l’IA, s’étendent aux références bibliographiques.
L’étudiant qui travaillait sur le physicien Louis Néel avait peiné à collecter des sources pour documenter son travail. Il a donc été surpris de constater que la biographie produite par ChatGPT renvoyait à plusieurs ouvrages universitaires qu’il avait été incapable de trouver, avant d’être encore plus étonné de découvrir que ces références étaient en fait inventées de toutes pièces.
Une étudiante ayant choisi d’explorer la carrière du médecin Ignace Philippe Semmelweis a non seulement découvert que ChatGPT lui avait suggéré des références inexistantes, bien qu’elles aient paru plausibles a priori, mais que même les vraies références qu’il avait fournies ne mentionnaient Semmelweis que de façon anecdotique. Fait intéressant: un des ouvrages mentionnés par ChatGPT était même considéré comme une référence de qualité médiocre par les historiens sérieux du médecin austro-hongrois.
Deuxième constat, méthodologique cette fois: l’agent conversationnel était non seulement susceptible d’enrichir l’historiographie d’œuvres imaginaires, mais même lorsqu’il proposait des références réelles, la qualité de sa revue de littérature pouvait s’avérer faible et peu pertinente.
D’un point de vue pédagogique, j’aurais pu exploiter ces références bibliographiques inventées pour expliquer à mes élèves la «mécanique» derrière le fonctionnement de ChatGPT. Ses «hallucinations» ne sont pas uniquement dues, comme on l’entend souvent, au fait que les données sur lesquelles il a été entrainé contiennent elles-mêmes des erreurs factuelles ou des informations contradictoires et biaisées, puisque les références erronées qu’il produit n’existent tout simplement pas sur internet.
Ces «hallucinations» sont en réalité indissociables de l’outil lui-même, qui reste un très puissant générateur de textes probabilistes, puisqu’il forme des phrases à partir de la probabilité que des mots apparaissent dans des phrases et des contextes similaires dans sa base d’apprentissage. Autrement dit, ni intelligent ni créatif, ChatGPT est un algorithme qui s’appuie sur des méthodes statistiques de calcul de probabilités et une quantité massive de données d’apprentissage pour générer le texte ayant les chances les plus élevées de répondre «correctement» à une question qui lui est posée.
Même s’il était entrainé sur un corpus de données «parfaites», la probabilité qu’il génère des erreurs ne serait pas nulle. ChatGPT répond donc en termes probabilistes et non en fonction de critères de vérité; son «intelligence» n’est par conséquent qu’apparente, comme l’est celle de tous les algorithmes.
Une approche simpliste
La 3e limite identifiée par certains étudiants et certaines étudiantes dans la prose de ChatGPT renvoie à la nature même de ce que devrait être une bonne biographie scientifique. Plusieurs ont remarqué que les textes générés par le robot conversationnel versaient régulièrement dans l’hagiographie et présentaient les scientifiques comme des génies solitaires de la science, oblitérant du même coup le contexte social et intellectuel qui avait influencé leur trajectoire. Les biographies produites par ChatGPT étaient lissées et gommaient certains pans un peu plus sombres de la vie des scientifiques pour en offrir un portrait sans failles.
Un étudiant qui avait pris Antoine Lavoisier pour sujet a ainsi constaté que, contrairement à son texte, celui de ChatGPT avait omis de situer les découvertes du chimiste français sur l’oxygène par rapport aux expériences de son contemporain britannique Joseph Priestley, qui s’appuyait sur le concept de phlogistique. Cette mise en contexte est pourtant cruciale pour comprendre l’originalité de la démarche scientifique de Lavoisier et la rupture épistémologique qu’elle opère avec l’approche qualitative qui prévalait jusque-là en chimie.
Encore plus flagrant est le cas de Thomas Edison, présenté par ChatGPT comme l’«inventeur» de l’ampoule électrique, une affirmation qui relève du sens commun, mais qui est dénuée de profondeur historique. En effet, le développement de la lampe à incandescence avec filament de carbone découlait plutôt d’un travail d’invention collectif, Edison étant lui-même à la tête d’une équipe d’inventeurs employés dans son laboratoire à la fin des années 1870.
À l’époque, Edison était d’ailleurs loin d’être le seul à travailler sur un concept de lampe à incandescence, comme en témoigne son association avec l’électricien britannique Joseph Swan. Le succès de son modèle était également tributaire du recours à d’autres innovations, avec au 1er chef la pompe à mercure développée par le chimiste germano-britannique Hermann Sprengel en 1865. Présenter Edison sous le seul angle de l’inventeur doté d’un génie naturel, c’est oublier que ce qui a rendu son existence sociale possible est l’émergence de la recherche industrielle, qui commençait à s’organiser en activité collective dans les entreprises à la fin du XIXe siècle.
Même si ChatGPT a généré des biographies d’apparence impeccable, composées de phrases bien structurées et dénuées de fautes de grammaire ou de syntaxe, il a également montré des limites importantes tant du point de vue de la précision des faits présentés et de la pertinence des sources fournies que du point de vue de la problématisation de ses sujets biographiques.
ChatGPT: un outil fiable?
Mes élèves ont beaucoup apprécié l’exercice. Ils et elles ont d’abord été impressionnés et un peu abasourdis par la rapidité avec laquelle l’outil conversationnel a produit une biographie «de qualité» quand ils et elles ont passé près d’un mois à réaliser le même exercice. Mais cette réaction initiale s’est estompée lorsque mes élèves ont analysé plus en profondeur le travail produit par ChatGPT. Ce qui les a le plus fait sourciller est l’assurance avec laquelle l’IA leur présentait comme fiables des faits erronés. Ils et elles ont aussi réalisé à quel point il était important de demeurer vigilant face aux sources fournies par ChatGPT, qui prenait parfois un malin plaisir à inventer des sources, certes inventées mais plausibles (par exemple, l’auteur était réel, mais le titre du livre était fictif).
De plus, mes élèves ont constaté que ChatGPT était encore plus imaginatif lorsqu’il s’agissait d’un sujet qui ne portait pas sur la culture anglo-saxonne. Puisque ChatGPT a été entrainé d’abord avec des données anglo-saxonnes, les biographies portant sur des individus issus d’univers linguistiques et culturels différents étaient beaucoup moins précises.
Certains de mes collègues ont adopté, en classe, une approche plus positive de ChatGPT. Ils et elles ont mis de l’avant le gain de temps que l’outil peut apporter lorsqu’il est question de synthétiser un texte, de traduire certaines informations ou de mettre en ordre des faits chronologiques. Cependant, mon but avec cet exercice était d’amener mes élèves à faire preuve d’esprit critique face aux informations obtenues et de leur faire adopter une posture d’expert ou d’experte sur un sujet donné. En ayant scruté la vie d’un ou d’une scientifique pendant près d’un mois, ils et elles ont pu bien cerner l’écart factuel entre leurs biographies et celle de ChatGPT.
En somme, la petite expérience pédagogique que j’ai réalisée montre qu’avant de mener un échange approfondi avec ChatGPT sur un sujet historique donné, une connaissance raisonnable du sujet en question demeure un préalable essentiel afin de ne pas se laisser berner par les multiples pièges de l’IA.