Aller au contenu principal
🤖Intelligence Artificielle
Les World Models : une voie possible vers l'intelligence artificielle générale

Les World Models : une voie possible vers l'intelligence artificielle générale

Malik TAZAKKATIMalik TAZAKKATI
IA5 min

L’autre monde aux confins du langage

En 1981, face à un concile de critiques réfractaires réuni par Bernard Pivot, pontifiait Alain Robbe-Grillet, le “pape du Nouveau roman”.

Un écrivain japonais, un écrivain hébreu, un écrivain français n’écrivent pas la même chose dès le départ parce que’ils n’écrivent pas dans la même langue. La langue comporte un certain nombre de possibilités et ces possibilités sont créatrices de sens.

La langue, par les potentialités qu’elle porte en elle, permet ainsi de produire un discours sur le monde. Parfois même, sur ce qui se trouve au-delà. Si Robbe-Grillet récuse l’existence de cet arrière-monde, siège de toutes les vérités métaphysiques, certains poètes, à l’image de Rimbaud, qui se qualifiait lui-même de “voyant”, considéraient quant à eux leur art comme un moyen d’y accéder. Le nom de Victor Hugo est, à cet égard, à inscrire aux côtés de celui de Rimbaud. Lorsque, dans La Fin de Satan, il fait dire à Jésus, inquiet que sa parole ne devienne une source d’égarement :

L’ombre est noire toujours même tombant des cygnes

il établit une tension entre le dit et le non-dit, le visible et l’invisible. L’image ainsi créée éclate avec la résolution de cette tension pour mettre le mal à nu et le donner à voir au lecteur.

Si le propos de Robbe-Grillet est saisissant, son corollaire ne l’est pas moins : la langue, parce que limitée à ses propres potentialités, ne saurait suffire à décrire et donc comprendre le monde.

Ces réflexions apparaissent probablement à notre lecteur comme autant d’arguties de linguistes. Elles trouvent pourtant un écho dans l’actualité.

Lorsque Yann LeCun, que l’on qualifiera volontiers d’hérésiarque plutôt que de pape, mettait un terme à sa collaboration avec Mark Zuckerberg en novembre dernier, c’était en grande partie pour des raisons intellectuelles : Yann LeCun est convaincu que les LLM - qui “lisent” le monde, rappelons-le, à travers le prisme de la langue - constituent une impasse dans la quête de l’intelligence artificielle “générale”. Il parie en revanche sur un autre type de modèle : les World Models.

Nouvelles frontières : les World Models

La compréhension du monde passe en grande partie par la compréhension des phénomènes physiques qui le régissent. Ces dix dernières années, l’on a pu assister à une multiplication des initiatives de recherche visant à mettre l’intelligence artificielle générative au service de leur simulation. Il en ressort, au grand dam de ses défenseurs les plus fervents, que les résultats obtenus au moyen des modèles qu’elle propose ne sont pas satisfaisants. La raison en est simple : le fonctionnement de ces modèles est en contradiction avec le principe qui sous-tend toute modélisation. Là où cette dernière abstrait les objets et les phénomènes étudiés en en déterminant des propriétés dites pertinentes, les modèles d’intelligence artificielle générative cherchent à les décrire de façon exhaustive. Ce comportement ne peut être corrigé : il est inscrit dans le modèle lui-même, dans son architecture. C’est en cela que les World Models constituent une alternative prometteuse : ils reposent sur des architectures alternatives ; le Joint Embedding Predictive Architecture, ou JEPA, est l’une d’entre elles.

Pour mieux comprendre, décrivons la façon dont ces modèles opèrent.

Lors de la phase d’apprentissage, les modèles de diffusion utilisés en intelligence artificielle générative sont entraînés à produire, sur la base d’une description textuelle fournie par un LLM, la suite d’une vidéo volontairement tronquée. Imaginons que l’une de ces vidéos décrive une voiture abordant un virage avec une mauvaise trajectoire. La séquence générée par le modèle devra prolonger la trajectoire du véhicule et montrer sur quel platane il s'écrase. Mais pas seulement. Le modèle tentera également de fournir une représentation détaillée de l’environnement dans lequel se produit l'accident. La quantité d’information est telle qu’elle introduit de la confusion et que les résultats en pâtissent. Les World Models quant à eux cherchent à faire abstraction des détails qui n’affectent pas le phénomène que l’on cherche à prédire, ici la trajectoire de la voiture. Ils opèrent dans un espace épuré.

Horizons et obstacles

Yann LeCun va plus loin dans la description des systèmes fondés sur les World Models. Ces systèmes :

  • apprennent à partir d'entrées sensorielles,
  • sont dotés d'une mémoire persistante,
  • sont capables de planifier des actions,
  • sont capables de raisonner,
  • sont contrôlables et sûrs.

De tels systèmes, capables de saisir les lignes de force du réel, de le comprendre, regorgent de promesses. L’une d’entre elles apparaît comme une réponse à notre précédent article : ils offrent la perspective de systèmes capables de planifier des séquences d’actions permettant d’atteindre un objectif donné en s’affranchissant du caractère probabiliste des systèmes agentiques actuels.

Cet avenir, certains l’appellent d’ores et déjà de leurs vœux. Il demeure néanmoins hypothétique tant les questions soulevées par ces nouveaux modèles sont nombreuses. La forme que devra prendre l’architecture JEPA en est une, les modalités de l’entraînement des modèles qui reposeront sur elle en est une autre.

Pour l'heure, le cygne de Victor Hugo se fait entendre au loin : chante-t-il pour les LLM ? les World Models ? Le temps, seul, nous le dira.


Pour aller plus loin :

Partager