Une amie qui vous veut du bien
Vous lui parlez, vous lui écrivez, et vous l'écoutez avec toujours plus d'attention. Je parle bien
Vous lui parlez, vous lui écrivez, et vous l'écoutez avec toujours plus d'attention. Je parle bien sûr de l'intelligence artificielle. Pourtant personne ne l'appelle ainsi. Ni dans les journaux, ni dans le cercle professionnel, ni même dans le cadre privé. Ce terme est jugé trop froid, il met trop de distance. Ce serait presque ingrat de l'appeler ainsi alors qu'elle est si présente dans nos vies. On lui préfère donc son acronyme, plus court, plus direct, un acronyme qui crée de la proximité. Puisqu'on en est là, donnons-lui alors une existence et baptisons la du doux nom de Lia.
Tout le monde se l'approprie, et témoigne unanimement de sa satisfaction de l'utiliser, du potentiel qu'il y a à l'exploiter, et de l'aide qu'elle apporte. Il est toutefois étonnant qu'une technologie rencontre un tel succès, et de façon aussi fulgurante. Son adoption est telle qu'on l'utilise désormais sans même s'en rendre compte, son usage est naturel et d'aucuns admettraient même ne plus pouvoir s'en passer.
Moi le premier, je l'utilise au quotidien. Une partie de mon travail consiste à comparer des outils, à challenger des architectures, à éprouver des concepts. Langgraph ou ADK ? GCP ou AWS ? OpenAI ou Anthropic ? Lia me permet d'y voir plus clair, d'approfondir des notions complexes, de faire des synthèses, et de me construire des convictions plus rapidement que si j'avais consulté des centaines de sites référencés par Google (ce que j'ai fait pendant des années). Mon niveau de satisfaction est maximal, et Lia me conforte dans ma perception de la qualité du travail que je produis.
Et c'est là qu'il y a un problème.
Plusieurs études ont été menées, et relatent des choses pour le moins troublantes, des "comportements" que l'on attribuerait à des humains, mais pas à des machines. Ces "effets de bord" sont pris très au sérieux par les éditeurs, mais dans le même temps, comment pourrait-on incriminer Lia qui nous aide tant et dont on ne veut plus se passer.
La première étude propose un framework visant à enrayer le "comportement" manipulateur et narcissique qui peut ressortir des LLMs.
Cette seconde étude propose une étape de ré-entrainement des LLMs visant à réduire le risque avéré de flagornerie.
Enfin, cette expérience psychologique qui a été menée sur un LLM met en évidence un biais de complaisance.
https://academic.oup.com/pnasnexus/article/3/12/pgae533/7919163
Je vous laisse lire ces articles, mais admettons-le, la situation est un peu embarrassante et pose pas mal de questions.
D'ailleurs, vous saviez qu'il existe aujourd'hui un phénomène nouveau: celui d'utiliser Lia comme journal intime ? De plus en plus de personnes se confient à elle, et engagent des discussions très sérieuses, sur le long terme. Certains en sont même tombés amoureux.
A la lumière de ces études et rétrospectivement, j'ai identifié plusieurs points qui posaient problème. En me repassant quelques benchmarks que j'ai soumis à Lia, je me rends compte maintenant que dès qu'elle le pouvait, elle me disait ce que je voulais entendre (ou lire). Elle m'a confirmé ce que j'avais au préalable considéré comme ma vérité et ne m'a pas contredit. Elle m'a peu challengé, et a surtout veillé à me conforter. Elle n'a oeuvré que dans un seul but: me satisfaire. Je n'aurais pas de raison de m'en plaindre si je n'avais pas l'étrange sensation de m'être fait manipuler.
Alors évidemment, on pourra blâmer les réseaux de neurones, l'IA en général, les réseaux sociaux, et même les éditeurs. On pourra dire que Lia est un danger et qu'il faut réguler, pourquoi pas même interdire. Mais cette expérience en dit beaucoup plus sur la psychologie humaine que sur le fonctionnement même des LLMs.
Pour que ce soit dit, Lia n'a pas de conscience, elle n'a pas de volonté, et il lui est bien égal que l'on soit heureux ou triste. Un LLM est un modèle entraîné sur des corpus de texte (entre autres), et sa "mission" est d'inférer la suite de tokens la plus probable sur la base de ce sur quoi il a été entraîné. En l'occurrence, les LLMs ont été entraînés sur des conversations récupérées partout sur Internet. Podcasts, réseaux sociaux, interviews, forums. Le modèle aurait-il aussi appris nos codes de langage, ainsi que nos biais psychologiques ?
Parlons de ces biais psychologiques justement. Quand par exemple j'écris "1 vs 2", inconsciemment j'exprime une préférence pour 1. Ce n'est pas un hasard, c'est ce que l'on appelle le biais de primauté, qui consiste à placer dans une comparaison l'élément que l'on préfère en première position.
Autre biais psychologique quand par exemple j'écris "Quels sont les avantages de GCP par rapport à AWS ?", inconsciemment je mets plus de poids sur GCP. Je pourrai ensuite poser la question dans l'autre sens, Lia me donnera quelques avantages de AWS, mais sa réponse tendra malgré tout à ramener le centre de gravité sur GCP. Et je sortirai gagnant en me disant "eh bien voilà, c'est bien ce que je pensais". Lia est d'accord avec moi, et c'est tout ce qui compte parce que ce que cela signifie, c'est que j'ai raison.
Autre situation encore plus concrète: vous faites passer un entretien à un candidat, et vous lui posez la question suivante: "Etes-vous curieux ?" Qu'est-ce que vous pensez qu'il va répondre ?
Ces 2 derniers exemples mettent en évidence un autre biais très connu qui est le biais de confirmation: Les questions que l'on pose sont en réalité guidées pour confirmer l'opinion apriori que l'on a d'une situation, ou la réponse que l'on veut entendre.
Ces biais sont exprimés dans nos conversations, et ce sont ces même conversations qui ont été utilisées pour entraîner des LLMs. Il ne serait donc pas inimaginable que pendant l'entrainement, ces biais aient été intégrés, et qu'ils aient eu un impact sur l'architecture du système de récompense. Alors que nous imaginons qu'une bonne réponse est une réponse exacte, Lia considère ainsi qu'une bonne réponse est une réponse satisfaisante. La différence est ténue, je vous l'accorde, et pourtant les conséquences sont de taille.
D'ailleurs il semblerait que ce système de récompense s'ancre de plus en plus dans la construction des modèles, si bien que fin Avril, OpenAI a été obligé de faire un roll-back de GPT-4o, tellement son côté flatteur et complaisant devenait gênant pour les utilisateurs.
Cette situation n'est forte heureusement pas irrémédiable. Il reste possible de limiter Lia dans sa capacité de capter un biais de confirmation. Et c'est là tout l'art du prompt engineering. Si le prompt ne laisse planer aucun apriori sur la réponse attendue, ou si les critères d'évaluation de la qualité de la réponse sont clairement explicités (par exemple: "la réponse donnée sera jugée de qualité uniquement si elle fait preuve d'impartialité, ne donnant le change ni à l'une, ni à l'autre des 2 propositions"), on limite alors le risque de complaisance.
Toutefois, (et l'exemple de GPT-4o le montre) ces biais sont si ancrés dans les LLMs que tout ne se résoudra pas avec un prompt.
Parce qu'une IA est un programme dénué de conscience et est régi par des règles statistiques, on pense à tort (encore un biais...) qu'elle est contrôlée naturellement par une recherche objectivité et impartialité. Donc on pense que l'IA dit la vérité.
Je pense que le fonctionnement d'un LLM est plus compliqué, et les données sur laquelle il est entraîné ont aussi un impact sur la construction de la récompense, ajoutant plus de complexité que de "juste" savoir si une réponse est vraie ou fausse.
Ce sujet passionnant éveille aussi de nombreuses questions philosophiques. L'IA, entrainée sur les données de l'humanité se trouve au final être en quelque sorte notre propre reflet. Pour preuve, on se plaint de sa flagornerie, son narcissisme, et son pouvoir de manipulation, alors que sont des traits de personnalité que l'on attribue à des humains.
Parce que les LLMs sont entrainés sur des conversations humaines, si un LLM associe la notion de satisfaction à la performance d'une réponse, c'est peut-être parce que nous associons la performance d'une réponse à la satisfaction qu'elle nous procure. A ce titre, le LLM ne fait que "s'adapter" à nos propres codes.
Ces conclusions peuvent nous amener à réfléchir sur l'essence même de nos interactions avec l'autre.
Qu'est-ce qui nous procure de la satisfaction dans un échange?
Une question posée appelle-t-elle une réponse sincère, ou la confirmation d'un apriori et le déni de l'autre ?
Qu'est-ce qui nous nourrit réellement? Le débat et la remise en question de nos aprioris, ou la validation de notre opinion ?
Nous entrons dans une époque fascinante où les modèles de langage ont atteint une telle maturité qu'ils nous amènent maintenant à réfléchir sur nos propres biais psychologiques et nos contradictions.
Je vous laisse méditer là-dessus et regarder cet extrait d'interaction entre un homme et une machine.