Grounding et FreshLLM : des LLM pour des réponses plus fiables et actualisées

Google a annoncé lors de sa conférence Next le "Grounding" avec Google Search. En français, on dirait "ancrer dans le terrain".

Grounding et FreshLLM : des LLM pour des réponses plus fiables et actualisées

Les LLM font des prouesses mais ils ont un défaut majeur : ils ne peuvent pas s'adapter dynamiquement à l'actualité. Leurs connaissances sont vite obsolètes.

Ce manque de "fraîcheur" des données entraîne des réponses erronées ou incomplètes aux questions sur l'actualité récente. Même les "meilleurs" LLM ne peuvent s'adapter rapidement à l'actualité. C'est un vrai problème pour la fiabilité et la pertinence des réponses des LLM.

Google a annoncé lors de sa conférence Next le "Grounding" avec Google Search. En français, on dirait "ancrer dans le terrain".

L'idée est de pallier les défaillances des LLM par des sources d'informations vérifiées et actualisées comme leur moteur de recherche. Le Grounding ancre les réponses dans des faits précis et à jour -> fini les affirmations fantaisistes, place à des informations fiables !

FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation
Most large language models (LLMs) are trained once and never updated; thus, they lack the ability to dynamically adapt to our ever-changing world. In this work, we perform a detailed study of the factuality of LLM-generated text in the context of answering questions that test current world knowledge. Specifically, we introduce FreshQA, a novel dynamic QA benchmark encompassing a diverse range of question and answer types, including questions that require fast-changing world knowledge as well as questions with false premises that need to be debunked. We benchmark a diverse array of both closed and open-source LLMs under a two-mode evaluation procedure that allows us to measure both correctness and hallucination. Through human evaluations involving more than 50K judgments, we shed light on limitations of these models and demonstrate significant room for improvement: for instance, all models (regardless of model size) struggle on questions that involve fast-changing knowledge and false premises. Motivated by these results, we present FreshPrompt, a simple few-shot prompting method that substantially boosts the performance of an LLM on FreshQA by incorporating relevant and up-to-date information retrieved from a search engine into the prompt. Our experiments show that FreshPrompt outperforms both competing search engine-augmented prompting methods such as Self-Ask (Press et al., 2022) as well as commercial systems such as Perplexity.AI. Further analysis of FreshPrompt reveals that both the number of retrieved evidences and their order play a key role in influencing the correctness of LLM-generated answers. Additionally, instructing the LLM to generate concise and direct answers helps reduce hallucination compared to encouraging more verbose answers. To facilitate future work, we release FreshQA at github.com/freshllms/freshqa and commit to updating it at regular intervals.

Le papier de recherche sur les FreshLLM

Ancrer des réponses pour les modèles Gemini | IA générative sur Vertex AI | Google Cloud

L'API de Google pour faire du FreshLLM

Génial ! Vous vous êtes inscrit avec succès.

Bienvenue de retour ! Vous vous êtes connecté avec succès.

Vous êtes abonné avec succès à WENVISION.

Succès ! Vérifiez votre e-mail pour obtenir le lien magique de connexion.

Succès ! Vos informations de facturation ont été mises à jour.

Votre facturation n'a pas été mise à jour.