Plaidoyer pour une modélisation des données à l'échelle de l'entreprise
Gouvernance, efficacité, performance... sont à portée de main, pourvu qu'on se penche sérieusement sur un processus fondamental qui structure l'information de son SI.
Les LLM et l'IA rendront les métadonnées accessibles via le langage naturel, simplifiant la gestion et l'utilisation des données pour tous. Préparez-vous pour la prochaine révolution #DataManagement ! 🚀🔍 #IntelligenceArtificielle #BigData
Dans l'univers de la gestion des données, les technologies d'IA générative sont sur le point de révolutionner l'usage des data catalogues de la même manière que Google a surpassé Yahoo dans le référencement des données. Pour comprendre cet impact, il est essentiel de connaître le fonctionnement de Yahoo et Google, ainsi que les défis actuels des data catalogues.
Yahoo était un annuaire du web, où les sites étaient classés manuellement dans des catégories spécifiques. Les données étaient référencées grâce à l'intervention humaine, ce qui limitait la capacité d'échelle et de mise à jour face à la croissance rapide du contenu en ligne.
Google a révolutionné le référencement des données en automatisant le processus. Au lieu de compter sur des êtres humains pour catégoriser les sites web, Google a développé des algorithmes capables d'explorer, d'indexer et de classer les pages en fonction de leur pertinence et de leur qualité. Cette approche a permis à Google de monter à l'échelle et de s'adapter rapidement à l'évolution du contenu en ligne, surpassant ainsi Yahoo par une approche automatique.
Un data catalogue est un outil qui permet de référencer, d'organiser et de rendre accessibles les données au sein d'une organisation. Il repose sur des métadonnées décrivant les données, qui doivent être catégorisées et indexées pour permettre aux utilisateurs potentiels de les trouver facilement. Un data catalogue s'apparente donc à un annuaire
Un data catalogue nécessite que des personnes référencent les métadonnées décrivant les données afin de les catégoriser et les rendre accessibles aux utilisateurs potentiels.
Cette approche manuelle présente plusieurs défis : il est difficile de motiver les personnes pour le faire, c'est coûteux, les outils de data cataloguing coûtent cher... Surtout, il est fastidieux et difficile d'embarquer les propriétaires des données, car ce sont eux qui paient avec leur budget le catalogage de leurs données, mais en général, ils ne l'ont pas prévu dans leur budget.
Imaginez un monde où un bot crawlerait les métadonnées, les référencerait et les rendrait accessibles à tout le monde via le langage naturel. Ce ne serait pas beaucoup plus simple, ça ne vous rappelle pas quelque chose ?
Eh bien, nous ne sommes pas si loin du but: il est probable que très rapidement, des outils de ce genre émergent.
Ces outils seront basés sur des technologies LLM (Large Language Model), sur de l'IA générative et sur des mécanismes d'agents qui permettent la découverte, l'analyse et la génération de texte en langage naturel.
Le défi n'est plus technologique : depuis quelques mois, grâce aux avancées dans le domaine de l'IA et du traitement automatique du langage naturel, cette option pour réaliser un Google interne à l'entreprise et orienté "découverte des données" est tout à fait faisable.
La situation pourrait bien évoluer rapidement dans les prochains semestres, avec l'apparition de solutions innovantes pour automatiser et faciliter le catalogage des données, à l'instar de ce que Google a fait pour le référencement des données sur le web. Cette révolution pourrait transformer la façon dont les organisations gèrent, partagent et exploitent leurs données, en rendant l'information plus accessible et plus facile à utiliser pour tous.
Réagir à ce post : https://www.linkedin.com/feed/update/urn:li:activity:7056883002412290048/