Plaidoyer pour une modélisation des données à l'échelle de l'entreprise
Gouvernance, efficacité, performance... sont à portée de main, pourvu qu'on se penche sérieusement sur un processus fondamental qui structure l'information de son SI.
L'agence nationale de la sécurité des SI sort enfin du bois ! Ses recommandations en matière de GenAI étaient attendues. Pas de surprise, mais un ensemble pertinent, à garder en tête.
Les systèmes d'IA générative s'intègrent de plus en plus dans les environnements applicatifs des entreprises, ce qui nécessite impérativement un référentiel de sécurité robuste. Dans ce contexte, l'Anssi, l'Agence Nationale de la Sécurité des Systèmes d'Information, a récemment publié ses recommandations pour encadrer cette technologie. Ces directives sont bienvenues dans un écosystème en croissance forte.
Elles établissent un cadre de référence et reprennent globalement les bonnes pratiques existantes des applications modernes. Ces derniers sont affinés pour intégrer les IA génératives dans la stack applicative. Une grande partie des recommandations sont déjà en application dans la plupart des SI, comme le cloisonnement des environnements ou le contrôle d'accès durant le développement. Mais de nouvelles problématiques apparaissent comme la gestion des formats des modèles. Et, plus globalement, ces recommandations sont des bonnes fondations pour contrôler tout ce qui est en rapport avec la donnée : cette dernière est essentielle pour construire un applicatif intégrant l'IA et elle influence grandement la qualité du produit final.
L’approche DevSecOps permet d’intégrer la sécurité dès la conception du système et inclut des pratiques telles que le déploiement sécurisé des chaînes CI/CD, la gestion sécurisée des secrets, et des tests de sécurité automatisés. Il est recommandé d'utiliser des pratiques telles que l'application du principe de moindre privilège pour l'accès aux outils de ces chaînes.
Cela signifie limiter les droits d'accès aux ressources aux seules nécessités opérationnelles, réduisant ainsi la surface d'attaque potentielle. Adopter une approche DevSecOps dans le développement des systèmes d'IA générative permet non seulement de sécuriser le produit final, mais aussi d'intégrer la sécurité dès la conception et tout au long du cycle de vie du projet.
Pour sécuriser les systèmes d'IA générative, il est impératif d'adopter une approche cohérente avec les besoins de sécurité du projet. Il est recommandé spécifiquement que chaque phase du cycle de vie du système d'IA — entraînement, déploiement et production — soit hébergée dans des environnements distincts et sécurisés.
Le cloisonnement est une stratégie cruciale pour réduire les risques de latéralisation entre les environnements. Cela peut être réalisé par le cloisonnement réseau, où chaque environnement opère dans un réseau dédié, physiquement ou logiquement isolé. Pour les données, un cloisonnement du stockage assure que chaque phase dispose de son propre matériel de stockage ou de disques dédiés, ou au minimum, d'un cloisonnement logique.
La gestion des données sensibles manipulées par les modèles d'IA générative nécessite une attention particulière. Les modèles peuvent en effet "régurgiter" des informations sensibles lorsqu'ils sont exploités en production, révélant des détails potentiellement confidentiels intégrés dans les données d'entraînement. Un exemple de pratique recommandée est l'utilisation de données de formation "propre", c'est-à-dire des données qui ont été préalablement évaluées et filtrées pour réduire les risques de divulgation d'informations sensibles.
L'utilisation d'un format de modèles d'IA sécurisés joue un rôle très important dans la prévention des risques de sécurité, tels que l'exécution de code arbitraire, qui pourrait être introduit par des formats moins sécurisés. Ainsi, l'ANSSI recommande spécifiquement l'utilisation de formats Safetensor pour ses robustesses sécuritaires par rapport à des formats traditionnels comme Pickle, qui, en raison de ses vulnérabilités, est clairement désavoué.
Les modèles d'IA Génératives sont parfois ré-entraînés avec de nouvelles données ou des données sont intégrées dans les prompts pour améliorer leur performance ou les adapter à de nouveaux contextes. Il est essentiel de cartographier et d'évaluer les sources de données externes utilisées dans le projet pour déterminer leur niveau de confiance.
La confidentialité des données implique non seulement la protection des informations durant les différentes phases d'utilisation du modèle d'IA, mais également une gestion rigoureuse des droits d'accès basée sur les rôles des utilisateurs. Les accès aux systèmes doivent être contrôlés via un système de gestion des droits d'accès (RBAC, Role Based Access Control). Cela permet de s'assurer que seules les personnes autorisées ont accès à des informations sensibles, et seulement dans la mesure où leur rôle le justifie.
Les systèmes d'IA ne devraient pas effectuer des actions automatisées critiques sans supervision humaine. Ce principe de précaution est essentiel : un système d'IA générative ne doit pas être autorisé à prendre des décisions pouvant avoir un impact significatif sur le métier ou la sécurité des personnes et des biens, sans un contrôle humain. Par exemple, il est impératif de faire une validation dans une interface homme-machine (IHM). En effet, dans ce cas d’utilisation, le jugement humain est crucial pour minimiser les risques de scénarios potentiellement dangereux pour l'organisation. De plus, les accès privilégiés pour les développeurs et administrateurs doivent être rigoureusement contrôlés pour prévenir les abus et les erreurs de configuration, renforçant ainsi la sécurité globale du système.
Il est recommandé d'effectuer des audits de sécurité avant le déploiement en production pour identifier et mitiger les vulnérabilités potentielles. Ces audits sont conçus pour identifier et atténuer les vulnérabilités potentielles qui pourraient compromettre la sécurité du système. L'évaluation de sécurité doit être réalisée par des équipes spécialisées qui comprennent les spécificités des technologies d'IA générative.
L'approche recommandée inclut une combinaison de tests automatisés et manuels qui visent à évaluer la robustesse du système contre des attaques potentielles. Ces audits contribuent à construire une fondation solide pour la sécurité opérationnelle et la confiance des utilisateurs dans l'application des technologies d'IA générative.