DALL-E et autres modèles générateurs d'images et de vidéos

Hugh · 25 août 2022

Ici c'est un générateur d'image ( à partir de descriptions textuelles): https://fr.wikipedia.org/wiki/Midjourney

Très intéressant.

Lancelot · 25 août 2022

Oui ces trucs sont fascinants. https://www.craiyon.com/ est la version gratuite de DALL-E.

Par déformation professionnelle j'ai tendance à faire ce genre de trucs :

Quote

Philosophiquement ça pose la question de la manière dont une IA se représente les représentations humaines et leurs limites.

Spoiler

Let's all love Lain

Sekonda · 25 août 2022

Le compte de hardmaru est très bon sur ce sujet.

Révélation

Lancelot · 25 août 2022

:icon_ptdr:

Hugh · 26 août 2022

Il y a 12 heures, Lancelot a dit :

Le "Midjourney" semble meilleur.

Lancelot · 26 août 2022

Note que je lui ai demandé "cursed cat" et pour ça c'est très réussi. Si j'enlève le cursed ça se passe déjà mieux :

Bon il a toujours du mal avec les yeux, c'est un problème récurrent en particulier avec les vieilles générations (craiyon est une vieille version de DALL-E). J'imagine que n'importe quel modèle plus récent est mieux (mais pas gratuit).

Adrian · 30 août 2022

NoName · 31 août 2022

Adrian · 2 septembre 2022

Sekonda · 3 septembre 2022

Une bonne représentation du progrès :

WBell · 4 septembre 2022

L'étape suivante, qui sera très intéressante, c'est l'inversion textuelle : on part d'une image, on récupère la phrase qui décrit l'image comme vecteur latent, et on la "déforme" légèrement, puis on demande une nouvelle génération d'image. Ainsi on conserve de proche en proche une cohérence, qui permet de raconter une histoire, une bd, ou un film.

Noob · 7 septembre 2022

Un thread sympa sur le type d'artefact qui peuvent émerger dans un optimum local.

Ça vire assez vite au gore, donc à ne pas consulter juste avant d'aller se coucher.

ttoinou · 12 septembre 2022

Je teste Stable Diffusion sur mon mac en local avec https://github.com/divamgupta/diffusionbee-stable-diffusion-ui bah c'est pas ouf. Mais clairement mieux que les trucs d'avant, ca génère moins d'images invraisemblables. Un peu decu, je m'attendais à un joli décolleté si vous voyez ce que je veux dire

ttoinou · 12 septembre 2022

Lancelot · 12 septembre 2022

C'est clairement un truc à apprendre de savoir susurrer dans l'oreille de la machine pour avoir un output cool. Encore une fois la compétence humaine ne disparaît pas, elle se décale.

Sekonda · 12 septembre 2022

Cela semble facile quand on regarde ce qui est posté sur Twitter mais on ne vois pas tous les ratés qui ne sont pas publiés.

ttoinou · 12 septembre 2022

DALL-E est bien meilleur je crois. Sinon cest impressionnant de voir le dataset source avec pleins d'images mal nommées. Garbage in, pas trop mal out

https://waxy.org/2022/08/exploring-12-million-of-the-images-used-to-train-stable-diffusions-image-generator/

Mobius · 13 septembre 2022

On 9/7/2022 at 5:19 PM, Noob said:

Un thread sympa sur le type d'artefact qui peuvent émerger dans un optimum local.

Ça vire assez vite au gore, donc à ne pas consulter juste avant d'aller se coucher.

je vois pas ce que ca à de suprenant,

si on feed le système avec cette image, c'est logique que ses composants repop régulièrement.

Noob · 13 septembre 2022

10 hours ago, Mobius said:

je vois pas ce que ca à de suprenant,

si on feed le système avec cette image, c'est logique que ses composants repop régulièrement.

Pas forcément méga surprenant, mais marrant de voir quel genre d'optimum peuvent émerger quand le système ne sait vraiment pas quoi faire de la requête de départ. Et surtout de voir quels sont les associations qui arrivent le plus facilement ensemble.

Drake · 14 septembre 2022

J'ai fait un tweet spécialement pour poster sur ce fil, puis je l'ai complètement oublié.

Voilà ma découverte, on ne peut pas demander à DALL-E de générer des images du prophète :

Adrian · 14 septembre 2022

Sur Craiyon :

WBell · 17 septembre 2022

Pour l'instant, ces modèles sont encore restreints en nombre de paramètres. Malgré leur taille qui peut paraître, il faut un ordre de grandeur en plus pour générer de la cohérence d'ordre supérieure (par exemple une "image de texte" comme le logo d'un magasin ou la couverture d'un journal).

C'est pour ça que les meilleurs résultats sont obtenus en récupérant la sortie de ce genre d'outils, et en passant dessus un autre réseau "ameliorateur".

Il en existe par exemple pour "nettoyer" les visages et y ajouter un regard cohérent.

ttoinou · 17 septembre 2022

Il faut différencier la technique théorique, de leurs implémentations / sur quel dataset on les a utilisés (et donc de leur potentielles utilisations très bientôt). Tu peux dire "Ces réseaux ne peuvent pas encore générer un portrait robot d'un liborgien typique" mais c'est faisable si on créée le dataset et entraîne les réseaux, c'est plus un problème théorique, juste pratique.

il y a 43 minutes, WBell a dit :

Pour l'instant, ces modèles sont encore restreints en nombre de paramètres

Quels paramètres voudrais-tu ?

WBell · 17 septembre 2022

7 hours ago, ttoinou said:

Quels paramètres voudrais-tu ?

Dall-E est un modèle constitué de 3.5 milliards de paramètres (pour le dire "vite" autrement, c'est la matrice des poids des neurones du réseau).

Le réseau aura assez de capacité pour générer des lettres "plausibles" prises isolément, mais pas assez pour passer d'une cohérence locale (la forme des lettres ou de doublet ou triplet de lettres les unes à côté des autres) à une cohérence semi-globale (des lettres qui forment des mots les uns à côté des autres, puis de petites phrases locale à un bout de l'image, comme des panneaux routiers).

Il y a une belle illustration du sujet qui vient du papier de Google sur PARTI, leur exploration de modèle auto-régressif de "belle taille" : https://parti.research.google/

ttoinou · 17 septembre 2022

Ok ben du coup j'comprends pas, https://parti.research.google/ semble faire parti de ces modèles. Vivement qu'on puisse l'utiliser !

Sekonda · 19 septembre 2022

Sur les limites de dessiner sans comprendre :

Lancelot · 19 septembre 2022

J'ai l'impression qu'il y a ces temps-ci une tendance à faire de grandes déclarations sur l'IA qui devrait supposément émerger de tout et n'importe quoi de la part de gens qui semblent grandement ignorants (1) des détails techniques et (2) des débats historiques sur la question. En particulier ici on réinvente un peu la chambre chinoise.

frl · 29 septembre 2022

Dall-E ouvert à tous

https://www.lefigaro.fr/secteur/high-tech/dall-e-l-outil-de-generation-automatise-d-images-est-desormais-ouvert-a-tous-20220929

Sekonda · 26 octobre 2022

Il y a des idées intéressantes sur la génération graphique par IA et l'impact sur les professions graphiques dans cet épisode. Peut-être un peu imprécis sur certains aspects techniques par moment mais ce n'est pas le sujet.

Sekonda · 12 novembre 2022

Les progrès d'une version à l'autre. Voir les tweets suivants aussi.

DALL-E et autres modèles générateurs d'images et de vidéos

Messages recommandés

Créer un compte ou se connecter pour commenter

Créer un compte

Se connecter

Contenu similaire