Plaidoyer pour une modélisation des données à l'échelle de l'entreprise
Gouvernance, efficacité, performance... sont à portée de main, pourvu qu'on se penche sérieusement sur un processus fondamental qui structure l'information de son SI.
Un Data Lake est un référentiel central qui permet aux entreprises, aux gouvernements et à d'autres organisations de stocker toutes leurs données structurées et non structurées à n'importe quelle échelle.
< Les plateformes Data sont au centre de toutes les plateformes IT
Les lacs de données sont conçus pour stocker de grandes quantités de données dans un format brut, non traité, et pour fournir une source unique de vérité pour les données à travers l'organisation.
L'objectif d'un lac de données est de permettre aux organisations de stocker et de gérer toutes leurs données structurées ou non en un seul endroit, et de rendre ces données facilement accessibles aux spécialistes des données, aux analystes et aux autres utilisateurs. Pour ce faire, les lacs de données utilisent généralement un système de fichiers distribué, tel que Hadoop (HDFS), pour stocker les données, et ils fournissent souvent des outils et des interfaces pour l'ingestion des données, leur transformation et leur accès.
L'utilisation d'un lac de données présente un certain nombre d'avantages clés, dont les suivants :
Dans l'ensemble, un lac de données est un référentiel central de stockage et de gestion de grandes quantités de données, conçu pour permettre aux organisations d'extraire davantage de valeur du rapprochement de leurs actifs data.