Cinq portraits, cinq voix. Non pour ériger des modèles, mais pour élargir notre regard sur la tech. Avec Women’s Vision, il s’agit moins de célébrer que d’écouter. Accueillir les voix discrètes, les chemins sinueux. Et reconnaître d’autres façons d’habiter la tech.
Cinq portraits, cinq voix. Non pour ériger des modèles, mais pour élargir notre regard sur la tech. Avec Women’s Vision, il s’agit moins de célébrer que d’écouter. Accueillir les voix discrètes, les chemins sinueux. Et reconnaître d’autres façons d’habiter la tech.
Le pilotage des coûts cloud est confronté à une difficulté persistante : l’hétérogénéité des données fournies par les cloud providers. Nom des métriques, logique de ventilation, latence des exports, structure des remises… Rien n’est véritablement aligné.
Les benchmarks de LLM sont des jeux de données librement accessibles au public, conçus pour évaluer les performances et les capacités de ces modèles. Ces benchmarks sont créés par des chercheurs ou par des organisations et sont disponibles pour quiconque souhaite évaluer ses propres LLM. Ils ont 4 finalités :
L’évaluation des performances
Ils fournissent une méthodologie standardisée pour mesurer à quel point les LLM se comportent efficacement dans une variété de tâches, telles que la réponse à des questions, la création de résumés de texte, la traduction, etc.
La comparaison des modèles
Ils permettent aux chercheurs et aux développeurs de comparer différents LLM entre eux, en identifiant leurs points forts et leurs faiblesses.
Le suivi de la progression
Ils servent à suivre l'évolution des performances des LLM et à mettre en évidence les domaines qui nécessitent des améliorations.
Assurer l'équité et la transparence
En mettant à disposition du public ces benchmarks, d'autres utilisateurs peuvent ainsi reproduire et valider les résultats.
Il existe plusieurs manières d’évaluer des LLM : évaluations sans exemple préalable (on parle de “zero-shot learning”) ou avec exemples (“few-shot learning”), celles fondées sur l’interaction humaine, etc., ainsi que différents critères selon lesquels leur évaluation est faite (créativité, interactions avec d’autres modèles, compréhension du comportement humain, etc.).
Open LLM Leaderboard offre un large panel intéressant de benchmarks. TriviaQA, HumanEval, GSM8K et MMLU restent autrement des ressources pertinentes et sûres pour aborder la question de l’efficacité des LLM.
Cinq portraits, cinq voix. Non pour ériger des modèles, mais pour élargir notre regard sur la tech. Avec Women’s Vision, il s’agit moins de célébrer que d’écouter. Accueillir les voix discrètes, les chemins sinueux. Et reconnaître d’autres façons d’habiter la tech.
Cinq portraits, cinq voix. Non pour ériger des modèles, mais pour élargir notre regard sur la tech. Avec Women’s Vision, il s’agit moins de célébrer que d’écouter. Accueillir les voix discrètes, les chemins sinueux. Et reconnaître d’autres façons d’habiter la tech.
Le SI en 2030 sera agentique, c'est une certitude. La question maintenant est de prévoir au mieux comment cela va s'agencer et comment préparer au mieux son SI pour accueillir les agents IA.
Cinq portraits, cinq voix. Non pour ériger des modèles, mais pour élargir notre regard sur la tech. Avec Women’s Vision, il s’agit moins de célébrer que d’écouter. Accueillir les voix discrètes, les chemins sinueux. Et reconnaître d’autres façons d’habiter la tech.