DALL-E 2 : l'IA révolutionne l'image

Qui n’a jamais passé de longues minutes à chercher la photographie illustrant parfaitement son contenu sur une banque d’image ? Ce temps pourrait bientôt être révolu, grâce à DALL-E 2, heureuse contraction de Salvador Dali et WALL-E.

Il est le dernier né d’Open AI, fameux laboratoire d’expérimentations d’intelligence artificielle, et il génère des images incroyablement qualitatives à partir d’une requête textuelle. On dénombre déjà de nombreux concurrents, dont Google, et la démocratisation de l'accès à ces outils s'intensifie. La révolution de l'image par l'IA est en marche.

Une amélioration majeure de la génération d’image par l’IA

DALL-E est un programme d'intelligence artificielle qui crée des images à partir de descriptions textuelles. Il a été révélé par OpenAI le 5 janvier 2021. DALL-E 2 s'appuie sur GPT-3, le modèle de génération de texte créé par OpenAI. Il bénéficie d'une version d'entraînement de 12 milliards de paramètres pour interpréter les entrées en langage naturel et générer les images correspondantes.

Et le résultat est absolument bluffant. Chez WEnvision, nous avons obtenu un accès à la version Bêta. Nous nous sommes donc lancés dans nos propres tests. Premier objectif : générer une image croisant Dali et Wall-e pour illustrer cet article :

Nous avons tout d'abord appris à calibrer nos requêtes. La conclusion est sans appel : plus nous sommes précis, plus le rendu est bluffant.

Nous sommes également parvenus à générer cette illustration photo réaliste de femme CTO, introuvable sur une banque d'images :

DALL·E 2022-07-28 12.10.25 - photo of a 40-year old CTO, black woman with short hair, smiling, typing on a computer, looking at the screen, brick wall background, medium shot, mid-shot

Et si ce mur en brique ne vous convient pas, il est même possible de le remplacer en conservant notre CTO grâce à la fonction "Edit".

Un océan d'opportunités

Open AI présente son générateur de textes en images comme un amplificateur de créativité. DALL-E 2 peut en effet servir à créer des illustrations sur-mesure pour des billets de blog, des articles, des sites internet ou du matériel pédagogique. Ces cas d'application menacent très directement les banques d'images. Avec leur stock de photographies limitées, elles ne peuvent répondre à tous les besoins.

DALL-E 2 peut aussi investir l'industrie créative et les métiers du design. Elle permet par exemple aux équipes créatives de créer rapidement et facilement des modèles ou des images 3D complexes, ou d'expérimenter différentes conceptions à un moindre coût. Je note ici deux réflexions qui me sont venues en testant ce nouvel outil :

DALL-E 2 découple l'idéation de la technicité artistique, permettant donc à plus de personnes de donner corps à leurs créations. Toutefois, la technicité artistique se déporte dans la technicité de la requête textuelle. Pour aboutir à un bon résultat, la requête nécessite beaucoup de détails issus de la culture artistique.
DALL-E 2 ne peut que générer des images s'inspirant de ses données d'entraînement. Ce qui signifie que DALL-E 2 ne crée pas réellement mais reproduit assez fidèlement. Et cela laisse un champ immense aux artistes de demain.

Un peu de patience - enjeux éthiques et économiques

Le 20 juillet dernier Open AI a annoncé ouvrir DALL-E 2 à un million d'utilisateurs. Pourquoi cette ouverture très progressive ? Deux raisons principales d'ordre éthique sont officiellement avancées : les deep fakes et les biais. Une troisième, plus officieuse, s'impose : le business model.

1.Deep Fakes

Les images générées peuvent être très réalistes et donc être utilisées pour créer des fausses actualités ou diffuser des informations erronées, on parle de Deep Fake. DALL-E 2 peut également être utilisé pour créer des images offensantes, violentes ou pornographiques.

Aujourd'hui, ces écueils sont évités par des restrictions sur les uploads d'image (interdit d'utiliser des personnes humaines de face) et sur les requêtes textuelles, qui ne prennent pas en compte le champ lexical de la violence.

2.Les biais

Comme pour tout produit d'IA, nous retrouvons dans DALL-E 2 les risques de biais. Ils sont induits par la sélection des images utilisées pour l'entraînement de l'algorithme, et amplifient la sous-représentation de certaines minorités à travers les images générées. La dernière version de DALL-E 2 corrige cet effet en ajoutant directement des termes dans les requêtes pour produire des variations plus diverses, sans modifier en profondeur l'algorithme ou le jeu d'entraînement.

3.Le business model

Il est évident que le coût de ces produits est important, entre l'infrastructure, le stockage des data sets, le coût des entraînements, les appels au modèle pour chaque nouvelle génération et les équipes de recherche. Comment donc les monétiser, et à terme rentabiliser ? DALL-E 2 a opté pour un modèle à crédits. Dans le cadre de sa version Bêta, OpenAI offre 50 crédits à tout nouvel utilisateur. OpenAI re-crédite gratuitement chaque mois tous les comptes de 15 crédits, et propose déjà d'acheter 115 crédits supplémentaires pour 15$.

L'avenir nous dira donc quel business model semble le plus approprié, nous pourrions aussi retrouver ces modèles encapsulés dans des applications plus complètes, qui pourraient par exemple aider l'utilisateur à affiner sa requête textuelle et améliorer la qualité de ses résultats.

Pour aller plus loin

Tester gratuitement un générateur texte-image : Craiyon

La publication d'OpenAI : Hierarchical Text-Conditional Image Generation with CLIP Latents

Portrait de femme dans la tech : Angi Guyard

La course folle des LLM

Portrait de femme dans la tech : Julie Cristofol

DALL-E 2 : l'IA révolutionne l'image

Une amélioration majeure de la génération d’image par l’IA

Un océan d'opportunités

Un peu de patience - enjeux éthiques et économiques

Pour aller plus loin

Marie Fontaine