Aller au contenu

DALL-E et autres modèles générateurs d'images et de vidéos


Messages recommandés

Oui ces trucs sont fascinants. https://www.craiyon.com/ est la version gratuite de DALL-E.

 

Par déformation professionnelle j'ai tendance à faire ce genre de trucs :
 

Quote

 

jPiCszn.png

 

I99ihT0.png

 

UQj4L6w.png

 

 

 

 

Philosophiquement ça pose la question de la manière dont une IA se représente les représentations humaines et leurs limites.

 

Spoiler

K9CRvSO.png

 

Let's all love Lain

 

Lien vers le commentaire

Note que je lui ai demandé "cursed cat" et pour ça c'est très réussi. Si j'enlève le cursed ça se passe déjà mieux :

qc5zWSM.png

 

Bon il a toujours du mal avec les yeux, c'est un problème récurrent en particulier avec les vieilles générations (craiyon est une vieille version de DALL-E). J'imagine que n'importe quel modèle plus récent est mieux (mais pas gratuit).

Lien vers le commentaire

L'étape suivante, qui sera très intéressante, c'est l'inversion textuelle : on part d'une image, on récupère la phrase qui décrit l'image comme vecteur latent, et on la "déforme" légèrement, puis on demande une nouvelle génération d'image. Ainsi on conserve de proche en proche une cohérence, qui permet de raconter une histoire, une bd, ou un film. 

  • Yea 3
Lien vers le commentaire
On 9/7/2022 at 5:19 PM, Noob said:

Un thread sympa sur le type d'artefact qui peuvent émerger dans un optimum local.

Ça vire assez vite au gore, donc à ne pas consulter juste avant d'aller se coucher.

 

je vois pas ce que ca à de suprenant,

si on feed le système avec cette image, c'est logique que ses composants repop régulièrement.

Lien vers le commentaire
10 hours ago, Mobius said:

je vois pas ce que ca à de suprenant,

si on feed le système avec cette image, c'est logique que ses composants repop régulièrement.

Pas forcément méga surprenant, mais marrant de voir quel genre d'optimum peuvent émerger quand le système ne sait vraiment pas quoi faire de la requête de départ. Et surtout de voir quels sont les associations qui arrivent le plus facilement ensemble.

Lien vers le commentaire

Pour l'instant, ces modèles sont encore restreints en nombre de paramètres. Malgré leur taille qui peut paraître, il faut un ordre de grandeur en plus pour générer de la cohérence d'ordre supérieure (par exemple une "image de texte" comme le logo d'un magasin ou la couverture d'un journal). 

C'est pour ça que les meilleurs résultats sont obtenus en récupérant la sortie de ce genre d'outils, et en passant dessus un autre réseau "ameliorateur". 

Il en existe par exemple pour "nettoyer" les visages et y ajouter un regard cohérent. 

Lien vers le commentaire

Il faut différencier la technique théorique, de leurs implémentations / sur quel dataset on les a utilisés (et donc de leur potentielles utilisations très bientôt). Tu peux dire "Ces réseaux ne peuvent pas encore générer un portrait robot d'un liborgien typique" mais c'est faisable si on créée le dataset et entraîne les réseaux, c'est plus un problème théorique, juste pratique.

 

 

il y a 43 minutes, WBell a dit :

Pour l'instant, ces modèles sont encore restreints en nombre de paramètres

Quels paramètres voudrais-tu ?

Lien vers le commentaire
7 hours ago, ttoinou said:

 

Quels paramètres voudrais-tu ?

Dall-E est un modèle constitué de 3.5 milliards de paramètres (pour le dire "vite" autrement, c'est la matrice des poids des neurones du réseau). 

Le réseau aura assez de capacité pour générer des lettres "plausibles" prises isolément, mais pas assez pour passer d'une cohérence locale (la forme des lettres ou de doublet ou triplet de lettres les unes à côté des autres) à une cohérence semi-globale (des lettres qui forment des mots les uns à côté des autres, puis de petites phrases locale à un bout de l'image, comme des panneaux routiers). 

Il y a une belle illustration du sujet qui vient du papier de Google sur PARTI, leur exploration de modèle auto-régressif de "belle taille" https://parti.research.google/

 

20220917_214553.thumb.jpg.46f26096c78bbdd247a3243ff8dc109c.jpg

Lien vers le commentaire

J'ai l'impression qu'il y a ces temps-ci une tendance à faire de grandes déclarations sur l'IA qui devrait supposément émerger de tout et n'importe quoi de la part de gens qui semblent grandement ignorants (1) des détails techniques et (2) des débats historiques sur la question. En particulier ici on réinvente un peu la chambre chinoise.

  • Yea 1
Lien vers le commentaire
  • 2 weeks later...
  • 4 weeks later...

Il y a des idées intéressantes sur la génération graphique par IA et l'impact sur les professions graphiques dans cet épisode. Peut-être un peu imprécis sur certains aspects techniques par moment mais ce n'est pas le sujet.

Lien vers le commentaire

Créer un compte ou se connecter pour commenter

Vous devez être membre afin de pouvoir déposer un commentaire

Créer un compte

Créez un compte sur notre communauté. C’est facile !

Créer un nouveau compte

Se connecter

Vous avez déjà un compte ? Connectez-vous ici.

Connectez-vous maintenant
×
×
  • Créer...