Jump to content

DALL-E et autres modèles générateurs d'images et de vidéos


Recommended Posts

Oui ces trucs sont fascinants. https://www.craiyon.com/ est la version gratuite de DALL-E.

 

Par déformation professionnelle j'ai tendance à faire ce genre de trucs :
 

Quote

 

jPiCszn.png

 

I99ihT0.png

 

UQj4L6w.png

 

 

 

 

Philosophiquement ça pose la question de la manière dont une IA se représente les représentations humaines et leurs limites.

 

Spoiler

K9CRvSO.png

 

Let's all love Lain

 

Link to comment

Note que je lui ai demandé "cursed cat" et pour ça c'est très réussi. Si j'enlève le cursed ça se passe déjà mieux :

qc5zWSM.png

 

Bon il a toujours du mal avec les yeux, c'est un problème récurrent en particulier avec les vieilles générations (craiyon est une vieille version de DALL-E). J'imagine que n'importe quel modèle plus récent est mieux (mais pas gratuit).

Link to comment

L'étape suivante, qui sera très intéressante, c'est l'inversion textuelle : on part d'une image, on récupère la phrase qui décrit l'image comme vecteur latent, et on la "déforme" légèrement, puis on demande une nouvelle génération d'image. Ainsi on conserve de proche en proche une cohérence, qui permet de raconter une histoire, une bd, ou un film. 

  • Yea 3
Link to comment

C'est clairement un truc à apprendre de savoir susurrer dans l'oreille de la machine pour avoir un output cool. Encore une fois la compétence humaine ne disparaît pas, elle se décale.

  • Yea 2
Link to comment
On 9/7/2022 at 5:19 PM, Noob said:

Un thread sympa sur le type d'artefact qui peuvent émerger dans un optimum local.

Ça vire assez vite au gore, donc à ne pas consulter juste avant d'aller se coucher.

 

je vois pas ce que ca à de suprenant,

si on feed le système avec cette image, c'est logique que ses composants repop régulièrement.

Link to comment
10 hours ago, Mobius said:

je vois pas ce que ca à de suprenant,

si on feed le système avec cette image, c'est logique que ses composants repop régulièrement.

Pas forcément méga surprenant, mais marrant de voir quel genre d'optimum peuvent émerger quand le système ne sait vraiment pas quoi faire de la requête de départ. Et surtout de voir quels sont les associations qui arrivent le plus facilement ensemble.

Link to comment

J'ai fait un tweet spécialement pour poster sur ce fil, puis je l'ai complètement oublié.

 

Voilà ma découverte, on ne peut pas demander à DALL-E de générer des images du prophète :

 

 

 

Link to comment

Pour l'instant, ces modèles sont encore restreints en nombre de paramètres. Malgré leur taille qui peut paraître, il faut un ordre de grandeur en plus pour générer de la cohérence d'ordre supérieure (par exemple une "image de texte" comme le logo d'un magasin ou la couverture d'un journal). 

C'est pour ça que les meilleurs résultats sont obtenus en récupérant la sortie de ce genre d'outils, et en passant dessus un autre réseau "ameliorateur". 

Il en existe par exemple pour "nettoyer" les visages et y ajouter un regard cohérent. 

Link to comment

Il faut différencier la technique théorique, de leurs implémentations / sur quel dataset on les a utilisés (et donc de leur potentielles utilisations très bientôt). Tu peux dire "Ces réseaux ne peuvent pas encore générer un portrait robot d'un liborgien typique" mais c'est faisable si on créée le dataset et entraîne les réseaux, c'est plus un problème théorique, juste pratique.

 

 

il y a 43 minutes, WBell a dit :

Pour l'instant, ces modèles sont encore restreints en nombre de paramètres

Quels paramètres voudrais-tu ?

Link to comment
7 hours ago, ttoinou said:

 

Quels paramètres voudrais-tu ?

Dall-E est un modèle constitué de 3.5 milliards de paramètres (pour le dire "vite" autrement, c'est la matrice des poids des neurones du réseau). 

Le réseau aura assez de capacité pour générer des lettres "plausibles" prises isolément, mais pas assez pour passer d'une cohérence locale (la forme des lettres ou de doublet ou triplet de lettres les unes à côté des autres) à une cohérence semi-globale (des lettres qui forment des mots les uns à côté des autres, puis de petites phrases locale à un bout de l'image, comme des panneaux routiers). 

Il y a une belle illustration du sujet qui vient du papier de Google sur PARTI, leur exploration de modèle auto-régressif de "belle taille" https://parti.research.google/

 

20220917_214553.thumb.jpg.46f26096c78bbdd247a3243ff8dc109c.jpg

Link to comment

J'ai l'impression qu'il y a ces temps-ci une tendance à faire de grandes déclarations sur l'IA qui devrait supposément émerger de tout et n'importe quoi de la part de gens qui semblent grandement ignorants (1) des détails techniques et (2) des débats historiques sur la question. En particulier ici on réinvente un peu la chambre chinoise.

  • Yea 1
Link to comment
  • 2 weeks later...
  • 4 weeks later...

Il y a des idées intéressantes sur la génération graphique par IA et l'impact sur les professions graphiques dans cet épisode. Peut-être un peu imprécis sur certains aspects techniques par moment mais ce n'est pas le sujet.

Link to comment

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
×
×
  • Create New...