Vector Databases : une voie d'avenir pour l'IA générative en entreprise

Comment appliquer l'IA générative au monde professionnel ? Une solution élégante : les vecteurs de données pour "fine tuner" son LLM d'entreprise . Avec l'émergence des modèles d’apprentissage LLM, les entreprises se tournent vers des technologies innovantes pour améliorer la productivité en automatisant les tâches rébarbatives, chronophages sans grande valeur ajoutée, et ce à tous les niveaux de l’organisation.

Comme l’indique Olivier Rafal dans sa Tribune CIO-Online, Où en est votre stratégie IA ?, "les CIO qui n'intègrent pas l'IA dans leur stratégie frôleraient la faute professionnelle.” Problème, ces modèles dont tout le monde parle, fascinent autant qu’ils inquiètent. L’utilisation de ces modèles à des fins professionnelles a ses limites et ses risques. Les bases vectorielles pourraient faciliter et démocratiser cet usage en entreprise.

Quelle solution pour l'entreprise ?

Tout d’abord l’utilisation d'outils comme ChatGPT ou Bard au sein de l’entreprise sans instance dédiée est évidemment à bannir, au risque de ne pas maîtriser les données d’entrée et générées.

En ce qui concerne les modèles GPT-4 ou PaLM2, ils ne sont évidemment pas entraînés sur des données spécifiques relatives au contexte des entreprises mais bien sur des données publiques avec généralement une limitation dans leur fraîcheur. Ils généreront possiblement des informations fausses ou déformées et pas adaptées aux besoins opérationnels.

L'un des défis majeurs pour en tirer le meilleur parti est d'intégrer efficacement les données internes des entreprises. Par exemple, imaginez que vous utilisez un système intelligent pour répondre aux questions des employés sur la politique des congés, en fonction des informations contenues dans la documentation interne de l'entreprise. Les LLM “off the shelf” ne pourraient pas traiter ces informations, car ils ne sont pas familiarisés avec la documentation de l'entreprise. Il faut donc “fine tuner" leur apprentissage en leur fournissant des informations pertinentes pour garantir l'intégrité des réponses aux questions des employés.

Deux scénarios, deux contraintes

Première piste à envisager, le training de ces modèles avec les données d'entreprise, mais ce scénario engendrerait une facture considérable.

La deuxième approche, dite “retrieval-augmented generation”, utilise le LLM comme interface en langage naturel pour accéder à des informations externes. Ici, on ne s'appuie donc pas uniquement sur les connaissances internes pour produire des réponses.

Prenons l’exemple simple de la génération de votre bio avec GPT-4. A moins que vous soyez aussi bien référencé qu’Elon Musk, l’IA risque de générer des incohérences ou même des informations inexactes. Reprenez votre prompt en y intégrant l’extraction texte de votre profil LinkedIn. Dans ce cas l’IA, vous rédige un résumé de votre parcours professionnel.

Les entreprises pourraient ainsi se baser sur une technologie prometteuse, les "vector databases", qui offre un grand potentiel pour aider les entreprises à faire corréler leur informations et trouver des liens.

Ces bases de données ne sont pas nouvelles, mais elles prennent de plus en plus d'importance pour les entreprises qui cherchent à intégrer le potentiel des systèmes LLM dans leurs processus internes. Les vecteurs de données modélisent l'information qu'ils portent selon une forme géométrique ; ce sont des outils puissants qui aident les utilisateurs, par similarité, à trouver les bonnes informations en entrée pour alimenter les systèmes LLM, offrant ainsi une expérience améliorée et des réponses précises aux questions des employés.

Une préoccupation autour du cadre de gouvernance

Toutefois, l'utilisation des vector databases soulève également des préoccupations en matière de gouvernance des données. En effet, il est essentiel de s'assurer que les systèmes LLM ont accès aux documents nécessaires pour répondre aux questions des utilisateurs, tout en garantissant que les réponses ne s'appuient que sur des sources appropriées et sécurisées. Il faut donc mettre en place des mesures pour contrôler l'accès aux documents et garantir que les informations utilisées pour fournir des réponses soient à jour et pertinentes pour les besoins de l'utilisateur.

Une fois de plus, on notera que l’émergence de l’IA dans les entreprises va considérablement accélérer les sujets autour de la gouvernance des données, enjeux majeurs liés à l'utilisation des vecteurs de données dans les entreprises.

Portrait de femme dans la tech : Angi Guyard

La course folle des LLM

Portrait de femme dans la tech : Julie Cristofol

Vector Databases : une voie d'avenir pour l'IA générative en entreprise

Quelle solution pour l'entreprise ?

Deux scénarios, deux contraintes

Une préoccupation autour du cadre de gouvernance

Martin Eliard