Hugh Posté 25 août 2022 Signaler Posté 25 août 2022 Ici c'est un générateur d'image ( à partir de descriptions textuelles): https://fr.wikipedia.org/wiki/Midjourney Très intéressant.
Lancelot Posté 25 août 2022 Signaler Posté 25 août 2022 Oui ces trucs sont fascinants. https://www.craiyon.com/ est la version gratuite de DALL-E. Par déformation professionnelle j'ai tendance à faire ce genre de trucs : Quote Philosophiquement ça pose la question de la manière dont une IA se représente les représentations humaines et leurs limites. Spoiler Let's all love Lain
Sekonda Posté 25 août 2022 Signaler Posté 25 août 2022 Le compte de hardmaru est très bon sur ce sujet. Révélation 2
Hugh Posté 26 août 2022 Auteur Signaler Posté 26 août 2022 Il y a 12 heures, Lancelot a dit : Le "Midjourney" semble meilleur.
Lancelot Posté 26 août 2022 Signaler Posté 26 août 2022 Note que je lui ai demandé "cursed cat" et pour ça c'est très réussi. Si j'enlève le cursed ça se passe déjà mieux : Bon il a toujours du mal avec les yeux, c'est un problème récurrent en particulier avec les vieilles générations (craiyon est une vieille version de DALL-E). J'imagine que n'importe quel modèle plus récent est mieux (mais pas gratuit).
Sekonda Posté 3 septembre 2022 Signaler Posté 3 septembre 2022 Une bonne représentation du progrès : 5
WBell Posté 4 septembre 2022 Signaler Posté 4 septembre 2022 L'étape suivante, qui sera très intéressante, c'est l'inversion textuelle : on part d'une image, on récupère la phrase qui décrit l'image comme vecteur latent, et on la "déforme" légèrement, puis on demande une nouvelle génération d'image. Ainsi on conserve de proche en proche une cohérence, qui permet de raconter une histoire, une bd, ou un film. 3
Noob Posté 7 septembre 2022 Signaler Posté 7 septembre 2022 Un thread sympa sur le type d'artefact qui peuvent émerger dans un optimum local. Ça vire assez vite au gore, donc à ne pas consulter juste avant d'aller se coucher.
ttoinou Posté 12 septembre 2022 Signaler Posté 12 septembre 2022 Je teste Stable Diffusion sur mon mac en local avec https://github.com/divamgupta/diffusionbee-stable-diffusion-ui bah c'est pas ouf. Mais clairement mieux que les trucs d'avant, ca génère moins d'images invraisemblables. Un peu decu, je m'attendais à un joli décolleté si vous voyez ce que je veux dire 1 2
Lancelot Posté 12 septembre 2022 Signaler Posté 12 septembre 2022 C'est clairement un truc à apprendre de savoir susurrer dans l'oreille de la machine pour avoir un output cool. Encore une fois la compétence humaine ne disparaît pas, elle se décale. 2
Sekonda Posté 12 septembre 2022 Signaler Posté 12 septembre 2022 Cela semble facile quand on regarde ce qui est posté sur Twitter mais on ne vois pas tous les ratés qui ne sont pas publiés. 3
ttoinou Posté 12 septembre 2022 Signaler Posté 12 septembre 2022 DALL-E est bien meilleur je crois. Sinon cest impressionnant de voir le dataset source avec pleins d'images mal nommées. Garbage in, pas trop mal out https://waxy.org/2022/08/exploring-12-million-of-the-images-used-to-train-stable-diffusions-image-generator/
Mobius Posté 13 septembre 2022 Signaler Posté 13 septembre 2022 On 9/7/2022 at 5:19 PM, Noob said: Un thread sympa sur le type d'artefact qui peuvent émerger dans un optimum local. Ça vire assez vite au gore, donc à ne pas consulter juste avant d'aller se coucher. je vois pas ce que ca à de suprenant, si on feed le système avec cette image, c'est logique que ses composants repop régulièrement.
Noob Posté 13 septembre 2022 Signaler Posté 13 septembre 2022 10 hours ago, Mobius said: je vois pas ce que ca à de suprenant, si on feed le système avec cette image, c'est logique que ses composants repop régulièrement. Pas forcément méga surprenant, mais marrant de voir quel genre d'optimum peuvent émerger quand le système ne sait vraiment pas quoi faire de la requête de départ. Et surtout de voir quels sont les associations qui arrivent le plus facilement ensemble.
Drake Posté 14 septembre 2022 Signaler Posté 14 septembre 2022 J'ai fait un tweet spécialement pour poster sur ce fil, puis je l'ai complètement oublié. Voilà ma découverte, on ne peut pas demander à DALL-E de générer des images du prophète :
WBell Posté 17 septembre 2022 Signaler Posté 17 septembre 2022 Pour l'instant, ces modèles sont encore restreints en nombre de paramètres. Malgré leur taille qui peut paraître, il faut un ordre de grandeur en plus pour générer de la cohérence d'ordre supérieure (par exemple une "image de texte" comme le logo d'un magasin ou la couverture d'un journal). C'est pour ça que les meilleurs résultats sont obtenus en récupérant la sortie de ce genre d'outils, et en passant dessus un autre réseau "ameliorateur". Il en existe par exemple pour "nettoyer" les visages et y ajouter un regard cohérent.
ttoinou Posté 17 septembre 2022 Signaler Posté 17 septembre 2022 Il faut différencier la technique théorique, de leurs implémentations / sur quel dataset on les a utilisés (et donc de leur potentielles utilisations très bientôt). Tu peux dire "Ces réseaux ne peuvent pas encore générer un portrait robot d'un liborgien typique" mais c'est faisable si on créée le dataset et entraîne les réseaux, c'est plus un problème théorique, juste pratique. il y a 43 minutes, WBell a dit : Pour l'instant, ces modèles sont encore restreints en nombre de paramètres Quels paramètres voudrais-tu ?
WBell Posté 17 septembre 2022 Signaler Posté 17 septembre 2022 7 hours ago, ttoinou said: Quels paramètres voudrais-tu ? Dall-E est un modèle constitué de 3.5 milliards de paramètres (pour le dire "vite" autrement, c'est la matrice des poids des neurones du réseau). Le réseau aura assez de capacité pour générer des lettres "plausibles" prises isolément, mais pas assez pour passer d'une cohérence locale (la forme des lettres ou de doublet ou triplet de lettres les unes à côté des autres) à une cohérence semi-globale (des lettres qui forment des mots les uns à côté des autres, puis de petites phrases locale à un bout de l'image, comme des panneaux routiers). Il y a une belle illustration du sujet qui vient du papier de Google sur PARTI, leur exploration de modèle auto-régressif de "belle taille" : https://parti.research.google/
ttoinou Posté 17 septembre 2022 Signaler Posté 17 septembre 2022 Ok ben du coup j'comprends pas, https://parti.research.google/ semble faire parti de ces modèles. Vivement qu'on puisse l'utiliser !
Sekonda Posté 19 septembre 2022 Signaler Posté 19 septembre 2022 Sur les limites de dessiner sans comprendre : 1
Lancelot Posté 19 septembre 2022 Signaler Posté 19 septembre 2022 J'ai l'impression qu'il y a ces temps-ci une tendance à faire de grandes déclarations sur l'IA qui devrait supposément émerger de tout et n'importe quoi de la part de gens qui semblent grandement ignorants (1) des détails techniques et (2) des débats historiques sur la question. En particulier ici on réinvente un peu la chambre chinoise. 1
frl Posté 29 septembre 2022 Signaler Posté 29 septembre 2022 Dall-E ouvert à tous https://www.lefigaro.fr/secteur/high-tech/dall-e-l-outil-de-generation-automatise-d-images-est-desormais-ouvert-a-tous-20220929
Sekonda Posté 26 octobre 2022 Signaler Posté 26 octobre 2022 Il y a des idées intéressantes sur la génération graphique par IA et l'impact sur les professions graphiques dans cet épisode. Peut-être un peu imprécis sur certains aspects techniques par moment mais ce n'est pas le sujet.
Silence Posté 1 novembre 2022 Signaler Posté 1 novembre 2022 Créés avec DALL-E 2 en accès libre. "A Beksinski painting of libertarians" 1
Messages recommandés
Créer un compte ou se connecter pour commenter
Vous devez être membre afin de pouvoir déposer un commentaire
Créer un compte
Créez un compte sur notre communauté. C’est facile !
Créer un nouveau compteSe connecter
Vous avez déjà un compte ? Connectez-vous ici.
Connectez-vous maintenant