3

Dream by WOMBO – Le torture-test trop trop michant qui fait peur dans les chaumières la nuit venue

Préambule #1

Ci-dessous l’avis d’un éhonté Béotien en 3D (du coup, un avis qui fait sens non ?). Je n’ai jamais fait aucune 3D ces trente-cinq dernières années. En vrai, une seule fois il a a 12 ans pour modéliser mon appartement sous Google SketchUp au cm (le plus long, c’est mesurer). Le projet a été abandonné par Google depuis des lustres. L’alpha blending, la Bounding box, les Extrude et Light Probe, les Mesh, les Primitives et le Scattering, j’ai honte mais ça ne me parle pas des masses (comme à 8 milliards d’êtres humains, pour relativiser).

Présentation de Dream

Dream by WOMBO s’adresse aux péons de la 3D comme moi. Il génère gratuitement sur smartphone en 5 clics et par IA (comprendre sans trop d’efforts) des images (fixes ou légèrement animées) à partir de 3 critères :

  • Un type de rendu que vous définissez (photo-réaliste, surréaliste, peinture Dali-like, fantasy, steampunk, psychédélique…). Il y a actuellement 35 types de rendus (donc certains en Premium).
  • Un champs libre de 120 caractères maximum où vous indiquez vos mots-clés.
  • Enfin, la possibilité d’ajouter UNE image de votre choix.

Plus vous mettez de mots-clés dans le champs libre, plus (théoriquement) l’image générée est détaillée. Je n’ai testé que le champs libre avec les mots-clés, et uniquement le rendu photo-réaliste parce que :

  • Les images importées ne fonctionnent pas trop (en tout cas pas avec les hommes politiques) ou je ne sais pas m’en servir, à approfondir (WIP).
  • Les rendus autres que “photo-réaliste” sont trompeurs et difficiles à juger/interpréter parce que l’IA fait littéralement n’importe quoi (rendus claqués au sol avec une IA sous trip met).
Dream quand on lui demande autre chose que du “Realistic

L’idée avec Dream, c’est donc de décrire le plus précisément possible (saturer en mots-clés) ce que vous voulez en 120 caractères maximum. Un exercice de style.

Préambule #2 (Les conseils du noob)

Conseil #1 : Ecrire en anglais. Ca marche très bien en français aussi (“Oiseaux dans le ciel” retournera sensiblement les mêmes images que “Birds in sky“) mais l’anglais est souvent plus court. Plus c’est concis, plus vous pourrez ajouter de mots-clés en 120 caractères.

Conseil #2 : Les séparateurs et opérateurs ne sont pas pris en charge. Gagnez quelques caractères et n’en tapez pas : “Birds Sky” et “Birds + Sky” retourneront les mêmes images. Les guillemets, les parenthèses… ne sont pas pris en compte non plus. Aucun opérateur a priori. JUST DON’T DO IT.

Conseil #3 : L’ordre des mots et leurs positions semblent important. Par exemple, si vous tapez “Birds Desert Sky“, vous aurez très probablement une image avec un désert, des oiseaux et un ciel (dans 98% des cas). Mais sans garantie que les oiseaux seront bien dans le ciel (dans 20% des cas, ils ne seront pas dans le ciel). Si vous voulez un désert avec des oiseaux DANS LE ciel, surchargez la requête : “Desert with Birds in the Sky“.

Conseil #4 : Affinez et remplacez les expressions que Dream semble ignorer ou mal interpréter :

  • Exemple #1 : Des soucis rencontrés avec “Oasis“. Dream semble préférer “Water in Desert + Verdoyant“. C’est plus long.
  • Exemple #2 : la plus courte et efficace façon de dire qu’on veut des arbres n’est ni “Arbres” ni “Trees“. Parce que vous aurez AUSSI des arbres dans le ciel, ou à l’envers (même avec un rendu photo-réaliste). Ou alors, surchargez encore : “Trees in oasis” pour avoir des arbres normaux (la tête en bas et plantés dans le sol). “Verdoyant” fonctionne plutôt bien 🙂 La traduction de “verdoyant” est “green” en anglais. C’est plus court, donc mieux a priori. Mais pas assez riche et trop ambigu pour une IA. Je garde le terme français dans la requête en anglais.

Conseil #5 : SOYEZ PATIENT. Il semble parfois y avoir une sorte de latence dans le cerveau de la machine. Generate Again, and again, and again…

  • Exemple #1 : vous avez 3 mots-clés dans votre requête. Dream a généré, jusque-là, des rendus cohérents. Vous ajoutez un 4ème mot-clé. Dream semble l’ignorer royalement. Une fois. Puis deux. Trois. La quatrième fois (sans rien changer aux mots-clés), il va intégrer votre 4ème mot-clé. Soyez patient. Ca lag dans les transistors.
  • Exemple #2 : Vous ajoutez un 4ème mot-clé. Dream l’intègre mais… Fait sauter le 3ème mot-clé qui marchait jusqu’à maintenant. Relancez. Plusieurs fois. Ca revient.

Le torture-test ultime pour Dream : Génération d’une image avec une requête de 120 caractères optimisés (le maximum autorisé) et 19 mots-clés

Générer des images photo-réalistes de visages expressifs de robots faits de bois, c’est facilement réalisable avec les bases (merci mon Gros Lion pour le dépucelage !) et assez rapidement (il va y avoir à peine 40 à 60% de déchet) :

Requête : “Wooden expressive robot with BIG EYES + Macro + Depth of view + Realistic”

Quand on demande à la même IA une représentation photo-réaliste avec 15 ou 20 mots-clés, il va y avoir un GAP : entre 99.5 et 99.9% de déchet. C’est possible d’obtenir une image correcte, mais ça va être plus long 🙂 A l’instar des MMO-RPG, une image à 20 mots-clés loote 100 fois moins qu’une image à 5 mots-clés.

Voici la requête finale optimisée pour un torture-test de Dream (après pas mal de tests et tâtonnements) :

La requête optimisée de torture-test soumise à Dream : “Photo realistic ancient egyptian verdoyant city palace sand desert with little old boat ON water birds IN cloudy sky sunset”

La requête fait 120 caractères, le maximum autorisé. Elle comporte a priori 19 mots-clés :

  • 1. Un rendu photo-réaliste
  • 2. 3. et 4. Une cité ancienne égyptienne
  • 5. Un palace
  • 6. De la végétation verdoyante
  • 7. et 8. Un désert de sable
  • 9. 10. 11. 12. et 13. Un petit bateau d’époque SUR l’eau
  • 14. 15. et 16. Des oiseaux DANS le ciel
  • 17. et 18. Un ciel avec des nuages
  • 19. Un coucher de soleil

Quelques subtilités en vrac :

  • Si on retire “Old” à “Little old boat“, il y aura aussi des paquebots et porte-conteneurs.
  • Si on retire “Little” à “Little old boat” —–> galions de guerre du XVIIème.
  • Si on retire “on” ou “water” à “Boat on water“, le bateau flottera parfois dans le ciel, sera posé sur une dune ou il n’y aura tout simplement pas d’eau dans 15% des cas.
  • Si on retire “in” dans “Birds in cloudy sky“, les oiseaux seront parfois dans l’eau…
  • L’IA interprète différemment “Old“, “Antique” et “Ancient“.
  • Si on remplace “Verdoyant” par “Palm trees“, c’est plus précis mais dans 20% des cas, les palmiers seront incohérents (ils flotteront dans le ciel, n’auront que les feuilles sans aucun tronc, seront plantés dans l’eau ou feront 100m de haut).

Ce que nous devrions avoir, théoriquement, en rendu final :

  • Un rendu photo-réaliste
  • Une vaste cité antique verdoyante
  • Un désert de sable + probablement une oasis (Desert+Water+Verdoyant)
  • Des arbres normaux (ni dans le ciel, ni la tête en bas). L’IA va-t-elle mettre des chênes ou des palmiers au milieu du désert ?
  • Un bateau d’époque SUR l’eau (et pas dans le ciel ni échoué sur le sable)
  • des oiseaux DANS le ciel
  • Des nuages
  • Un coucher de soleil

Etape 1 : Une ancienne cité antique dans le désert sous un coucher de soleil en rendu photo-réaliste

Etape 2 : La même cité antique dans le désert avec le coucher de soleil + des oiseaux DANS le ciel (beaucoup d’oiseaux !)

Le rendu est nettement moins réaliste avec seulement 3 mots-clés en plus. On dirait déjà du Dali sans les éléphants étirés.

On surcharge la requête pour s’assurer que les oiseaux sont bien DANS le ciel.

La tentation de Saint Antoine

Etape 3 : La cité antique devient EGYPTIENNE + un bateau d’époque SUR l’eau

On a définitivement perdu le mot-clé “Desert” dès qu’a été ajouté “Old boat on Water“.

On surcharge la requête pour s’assurer que le bateau est bien SUR l’eau (une fois sur 4 pour l’IA, ce n’est pas une évidence).

Etape 4 : Avec un ciel nuageux

LES LIMITES – Ce que Dream a pu réaliser de mieux (en termes de fidélité par rapport aux 19 mots-clés et de cohérence compte tenu du rendu photo-réaliste souhaité) sur 100 essais d’affilée

Rappel de la requête de torture-test soumise à Dream : “Photo realistic ancient egyptian verdoyant city palace sand desert with little old boat ON water birds IN cloudy sky sunset”

Avec 19 mots-clés, voici les meilleurs résultats photo-réalistes, sur 100 essais, qui valident 17 à 18 des 19 les mots-clés (l’édifice n’est pas égyptien, il manque les nuages ou les oiseaux dans le ciel, le bateau n’est pas sur l’eau, le désert de sable ou l’eau a disparu…). Sont systématiquement invalidées toutes les représentations non réalistes ou bizarres (70%).

Constatations

J’ai eu besoin d’environ 50 essais pour formuler la requête finale (optimisée pour Dream). Ensuite, 100 essais d’affilée sans toucher à la requête.

  • C’est globalement pas très “photo-réaliste” dans 70% des rendus.
  • Au delà de 10/12 mots-clés, il arrive systématiquement que Dream en zappe quelques-uns (entre 1 et 5 éhontément) : pas d’oiseaux dans le ciel, ou pas de bateau. Pas de ville antique. Pas de désert de sable…
  • Souvent des incohérences si la requête n’est pas surchargée : palmiers dans le ciel ou dans l’eau, bateau à l’envers, cité antique en suspension dans le ciel…
  • Avec 19 mots-clés dans la requête de 120 caractères et sur 100 essais, Dream, dans ses rendus les plus fidèles (dans 1% des cas), en a zappé au mieux 1. Dream n’a jamais validé les 19 mots-clés. Dans 99% des cas, il manquait entre 2 et 5 mots-clés dans le rendu final (voire plus quand l’IA dévisse complètement, bougresse). L’IA en particulier semble avoir du mal à se représenter un ancien palace égyptien ou à associer “Desert + Water” avec 17 autres mots-clés (“Desert + Water” fonctionne très bien dans 100% des cas quand ils sont seuls, idem pour “Ancient egyptian palace“).
  • L’intégration des opérateurs (comme + et -) et des parenthèses (pour créer des exceptions et des priorités opératoires) dans Dream serait un vrai plus.

Il y a 98 à 99.5% de déchet sur les images complexes (au-delà de 12 mots-clés). Les images générées sont dans l’ensemble agréables et surprenantes MAIS ce n’est pas STRICTEMENT ce qui est demandé. Soit les mots-clés ne sont pas tous pris en compte, soit le rendu final est… étrange ou décevant en mode “Realistic“. Sauf si des arbres de 100m de haut et flottant dans le ciel ou une cité antique en lévitation, c’est ce que vous recherchiez (dans ce cas, le filtre “Realistic” testé ici n’est probablement pas approprié ; il y en a 34 autres qui vont vous plaire).

Comparaison avec l’IA de Google Images (qui s’en sort très moyennement aussi, même après optimisation)

Et si on tape la même requête dans Google Images ?

Rappel de la requête de torture-test soumise à Dream : “Photo realistic ancient egyptian verdoyant city palace sand desert with little old boat ON water birds IN cloudy sky sunset”

1. Résultats de la requête brute (sans optimisation) dans Google Images (résultat pas terrible)

2. Résultats de la requête une fois optimisée pour Google Images (avec des mots-clés retirés/modifiés/déplacés et l’ajout d’opérateurs) :

Conclusion

Skynet a fait des progrès depuis 1984. Dream en 2022, c’est rigolo à tester mais ça ne passe toujours pas le test de Turing de 1950 ! Il faut recommencer des centaines de fois pour avoir un résultat décent et il faut de la post-prod. C’est par ailleurs bridé/censuré (les visages, les personnalités, le sexe…). Prochain test : Dall-E (en file d’attente et sur les conseils du Gros Lion).

Lien utile : Using Artificial Intelligence To Make Art: Wombo and Deep Dream Generator

Vous pouvez évaluer cet article en un clic. Garanti sans gluten. Merci !
(Evaluations : 1 / Moyenne : 5)

Piregwan

Le serveur PG m'a chauffé 6 hivers (1998-2004), Maître des traditions et Grand malade à WoW (18Kh de jeu jusqu'à Cataclysm 2010), chasseur de gardiens à Ingress de 2014 à 2019, amateur de piments 🌶️ au delà de 30.000 Scoville grâce à Stéphane Pécaut et de pizza maison 🍕 grâce à Marloin, j'aime aussi les 3C (les chats 😼, le code et les choux de Bruxelles 🥦) + la philosophie du CCC allemand (Chaos Computer Club 💻).

3 commentaires

  1. Wow, prrrt prrrt ! Voici un beau travail de longue haleine et une bien Jolie analyse !
    Comme pour les tournois d’arène de robot construit et organisé par l’humain, cher PG, pourquoi ne pas tester avec d’autres systèmes de génération d’image ?
    Ahh je lis que c’est prévu avec Dall-e.
    Bon et si j’allais lire l’autre article https://krakoukas.com/informatique/intelligence-artificielle/ia-dream/ ?

    Du coups on va aussi tester sur CB, cusoon Plexygwan !

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *