Plaidoyer pour une modélisation des données à l'échelle de l'entreprise
Gouvernance, efficacité, performance... sont à portée de main, pourvu qu'on se penche sérieusement sur un processus fondamental qui structure l'information de son SI.
Qui n’a jamais passé de longues minutes à chercher la photographie illustrant parfaitement son contenu sur une banque d’image ? Ce temps pourrait bientôt être révolu, grâce à DALL-E 2 d'OpenAI, heureuse contraction de Salvatore Dali et WALL-E.
Qui n’a jamais passé de longues minutes à chercher la photographie illustrant parfaitement son contenu sur une banque d’image ? Ce temps pourrait bientôt être révolu, grâce à DALL-E 2, heureuse contraction de Salvador Dali et WALL-E.
Il est le dernier né d’Open AI, fameux laboratoire d’expérimentations d’intelligence artificielle, et il génère des images incroyablement qualitatives à partir d’une requête textuelle. On dénombre déjà de nombreux concurrents, dont Google, et la démocratisation de l'accès à ces outils s'intensifie. La révolution de l'image par l'IA est en marche.
DALL-E est un programme d'intelligence artificielle qui crée des images à partir de descriptions textuelles. Il a été révélé par OpenAI le 5 janvier 2021. DALL-E 2 s'appuie sur GPT-3, le modèle de génération de texte créé par OpenAI. Il bénéficie d'une version d'entraînement de 12 milliards de paramètres pour interpréter les entrées en langage naturel et générer les images correspondantes.
Et le résultat est absolument bluffant. Chez WEnvision, nous avons obtenu un accès à la version Bêta. Nous nous sommes donc lancés dans nos propres tests. Premier objectif : générer une image croisant Dali et Wall-e pour illustrer cet article :
Nous avons tout d'abord appris à calibrer nos requêtes. La conclusion est sans appel : plus nous sommes précis, plus le rendu est bluffant.
Nous sommes également parvenus à générer cette illustration photo réaliste de femme CTO, introuvable sur une banque d'images :
Et si ce mur en brique ne vous convient pas, il est même possible de le remplacer en conservant notre CTO grâce à la fonction "Edit".
Open AI présente son générateur de textes en images comme un amplificateur de créativité. DALL-E 2 peut en effet servir à créer des illustrations sur-mesure pour des billets de blog, des articles, des sites internet ou du matériel pédagogique. Ces cas d'application menacent très directement les banques d'images. Avec leur stock de photographies limitées, elles ne peuvent répondre à tous les besoins.
DALL-E 2 peut aussi investir l'industrie créative et les métiers du design. Elle permet par exemple aux équipes créatives de créer rapidement et facilement des modèles ou des images 3D complexes, ou d'expérimenter différentes conceptions à un moindre coût. Je note ici deux réflexions qui me sont venues en testant ce nouvel outil :
Le 20 juillet dernier Open AI a annoncé ouvrir DALL-E 2 à un million d'utilisateurs. Pourquoi cette ouverture très progressive ? Deux raisons principales d'ordre éthique sont officiellement avancées : les deep fakes et les biais. Une troisième, plus officieuse, s'impose : le business model.
1.Deep Fakes
Les images générées peuvent être très réalistes et donc être utilisées pour créer des fausses actualités ou diffuser des informations erronées, on parle de Deep Fake. DALL-E 2 peut également être utilisé pour créer des images offensantes, violentes ou pornographiques.
Aujourd'hui, ces écueils sont évités par des restrictions sur les uploads d'image (interdit d'utiliser des personnes humaines de face) et sur les requêtes textuelles, qui ne prennent pas en compte le champ lexical de la violence.
2.Les biais
Comme pour tout produit d'IA, nous retrouvons dans DALL-E 2 les risques de biais. Ils sont induits par la sélection des images utilisées pour l'entraînement de l'algorithme, et amplifient la sous-représentation de certaines minorités à travers les images générées. La dernière version de DALL-E 2 corrige cet effet en ajoutant directement des termes dans les requêtes pour produire des variations plus diverses, sans modifier en profondeur l'algorithme ou le jeu d'entraînement.
3.Le business model
Il est évident que le coût de ces produits est important, entre l'infrastructure, le stockage des data sets, le coût des entraînements, les appels au modèle pour chaque nouvelle génération et les équipes de recherche. Comment donc les monétiser, et à terme rentabiliser ? DALL-E 2 a opté pour un modèle à crédits. Dans le cadre de sa version Bêta, OpenAI offre 50 crédits à tout nouvel utilisateur. OpenAI re-crédite gratuitement chaque mois tous les comptes de 15 crédits, et propose déjà d'acheter 115 crédits supplémentaires pour 15$.
L'avenir nous dira donc quel business model semble le plus approprié, nous pourrions aussi retrouver ces modèles encapsulés dans des applications plus complètes, qui pourraient par exemple aider l'utilisateur à affiner sa requête textuelle et améliorer la qualité de ses résultats.
Tester gratuitement un générateur texte-image : Craiyon
La publication d'OpenAI : Hierarchical Text-Conditional Image Generation with CLIP Latents