Jump to content

DALL-E et autres modèles générateurs d'images et de vidéos


Recommended Posts

Well encore une fois ça dépend de ce qu'on met dans le terme "utilisation". Il n'y a pas de copie des images dans le modèle (là on pourrait discuter sur la reproduction qui est effectivement un cas prévu par le copyright). Techniquement, le modèle ne fait que "consulter" des images librement accessibles et être influencé par elles, tout comme pourrait l'être un cerveau humain de manière absolument légitime. Mais il le fait systématiquement et automatiquement, et la question se pose de savoir si ça en fait un processus de nature différente. Je pense que l'avenir tranchera de toute manière en faveur d'une multitude de modèles dont chacun sera entraîné sur une base de donnée sélectionnée et contrôlée dans un but précis, suivant l'exemple d'un waifu diffusion :

 

Quote

The Waifu Diffusion 1.3 model is a Stable Diffusion model that has been finetuned from Stable Diffusion v1.4. I would like to personally thank everyone that had been involved with the development and release of Stable Diffusion, as all of this work for Waifu Diffusion would not have been possible without their original codebase and pre-existing model weights from which Waifu Diffusion was finetuned from.

The data used for finetuning Waifu Diffusion 1.3 was 680k text-image samples that had been downloaded through a booru site that provides high-quality tagging and original sources to the artworks themselves that are uploaded to the site. I also want to personally thank them as well, as without their hardwork the generative quality from this model would not have been feasible without going to financially extreme lengths to acquiring the data to use for training. The Booru in question would also like to remain anonymous due to the current climate regarding AI generated imagery.

 

  • Yea 1
Link to comment
Il y a 9 heures, Alchimi a dit :

J'avais entendu que les signatures d'artistes dont les œuvres avaient été pompées pour les databases d'IA ressurgissaient en artefact dans les images de synthèses.

En retestant vite fait, je viens d'en voir une occurrence, regardez en bas à droite.

signature.jpeg.a1ceb207e05869ebe24699772ac079cd.jpeg

 

Les signatures sont en bas à droite sur les peintures réelles, le modèle à retroingenieré que en bas à droite il fallait ajouter une signature pour faire plus vrai.  Ça ne dit absolument pas qu'il s'agisse de plagiat. 

  • Yea 1
Link to comment
Le 21/12/2022 à 22:01, NoName a dit :

Ça ne dit absolument pas qu'il s'agisse de plagiat. 

FB_IMG_1671742677562.jpg

 

Fgz2JqVXwAIFEZk.jpg

 

Interview du fondateur de midjourney sur forbes:

https://www.forbes.com/sites/robsalkowitz/2022/09/16/midjourney-founder-david-holz-on-the-impact-of-ai-on-art-imagination-and-the-creative-economy/?sh=69cf70a2d2b8

 

Un extrait (mais il a eu quelques autres question sur l'origine des databes et etc, je cite direct le passage le plus précis sur le sujet).

Citation

Did you seek consent from living artists or work still under copyright?

No. There isn’t really a way to get a hundred million images and know where they’re coming from. It would be cool if images had metadata embedded in them about the copyright owner or something. But that's not a thing; there's not a registry. There’s no way to find a picture on the Internet, and then automatically trace it to an owner and then have any way of doing anything to authenticate it.

 

Hm.

  • Yea 1
Link to comment
1 hour ago, Alchimi said:

FB_IMG_1671742677562.jpg

Ça montre que le modèle a intégré que tel type d'image se démarque souvent par la présence de tel truc, ici les watermarks qui peuvent évoquer telle ou telle  bases de données. Ces bases de données ont donc été utilisées pour l'entraînement (ce que les développeurs ne nient pas), mais outre ça l'image générée n'a aucune raison d'être la reproduction d'une image spécifique d'une base de donnée spécifique. Toujours est-il que oui, comme je le disais plus haut, je pense qu'à l'avenir les images d'entraînement seront plus maîtrisées (pas que pour des raisons de copyright d'ailleurs).

 

1 hour ago, Alchimi said:

Fgz2JqVXwAIFEZk.jpg

Là on est dans un cas plus intéressant : si je demande ouvertement à l'IA de faire du plagiat, est-ce que ça marche ? Plus ou moins bien.

 

Le plus :

ZCO0dtk.png

 

Le moins :

zpdqYAx.png

 

De mon point de vue le responsable du résultat dans ce cas est celui qui a écrit la prompt, et c'est lui qui devrait être emmerdé au cas où il essaierait de gagner de l'argent en se faisant passer pour Van Gogh ou De Vinci. Ici l'IA n'est qu'un outil, techniquement je peux aussi plagier une image en utilisant Paint.

  • Yea 1
Link to comment

Juste pour être clair : tous ceux qui prétendent que le réseau de neurone produit une nouvelle image inconnue d'avant ont pas l'ombre d'un commencement de début de preuves de ce qu'ils avancent. Tous les sites style https://thispersondoesnotexist.com/ ont un titre purement marketing, aucun travail n'a été fait pour ne pas reproduire une donnée d'entrée. Faut pas s'étonner qu'après on vienne leur chercher des noises, ils évitant constamment la question en agitant les mains comme des demeurés et en faisant diversion "oh les réseaux de neurone c'est magique". Je dis ça en étant contre toute forme de PI hein, mais juste bordel les mecs soyez rigoureux un minimum c'est pas trop demandé

  • Yea 1
Link to comment
1 hour ago, ttoinou said:

Juste pour être clair : tous ceux qui prétendent que le réseau de neurone produit une nouvelle image inconnue d'avant ont pas l'ombre d'un commencement de début de preuves de ce qu'ils avancent. Tous les sites style https://thispersondoesnotexist.com/ ont un titre purement marketing, aucun travail n'a été fait pour ne pas reproduire une donnée d'entrée. Faut pas s'étonner qu'après on vienne leur chercher des noises, ils évitant constamment la question en agitant les mains comme des demeurés et en faisant diversion "oh les réseaux de neurone c'est magique". Je dis ça en étant contre toute forme de PI hein, mais juste bordel les mecs soyez rigoureux un minimum c'est pas trop demandé

Wtf? L'image produite est nécessairement inédite dans le sens où l'assemblage particulier de pixels l'est. C'est pas une histoire de magie mais de bruit (tu donnes du bruit aléatoire unique en entrée, tu vas avoir quelque chose d'unique en sortie) et de paramètres du modèle (tu peux jouer avec pour te donner une idée si tu as e.g. une instance de stable diffusion). Elle peut bien sûr ressembler à une autre image connue comme illustré à mon post précédent ou même celui où j'essaie de faire du bruit aléatoire en output, mais ça ne sera jamais exactement la même image qu'un des samples utilisés pour l'entraînement.

  • Yea 1
Link to comment
1 minute ago, ttoinou said:

1. Qqun a démontré que du bruit en point de départ ne peux pas converger vers une entrée de l'entraînement ?

Les images d'entraînement ne sont pas dans le modèle. Enfin j'imagine qu'elles pourraient l'être techniquement dans des cas très spécifiques d'overfitting, genre si tu entraînes le modèle sur juste une poignée d'images et que tu lui donnes suffisamment de paramètres pour représenter complètement ces images.

Pour donner une idée des échelles, ce nombre serait le nombre d'images * le nombre de pixels * 255 * 255 * 255. Si on calcule pour une image de 600 par 400 pixels, ça donne à peu près 4000 milliards, disons un ou deux ordres de grandeur de moins si on considère que l'information est compressée. D'un autre côté le nombre de paramètres pour DALL-E ou Midjourney (avec leurs bases de données d'entraînement composées de millions d'images) est de l'ordre de grandeur de quelques dizaines de milliards grand max.

Ceci étant le cas, retrouver exactement une image en sortie relève du hasard. Et je renvoie aux ordres de grandeur en jeu pour avoir une idée des probabilités.

 

1 minute ago, ttoinou said:

2. La relation d'égalité est celle d'un humain "ah oui ça ressemble" et pas informatique "chaque pixel est égal"

C'est une toute autre question, et effectivement un peut choisir des prompts qui génèrent des choses qui ressemblent à d'autre choses, c'est un peu le but initial du bazar, ça ne serait pas une technologie très intéressante si elle ne pouvait créer que des images qui ne ressemblent à rien. Pour réitérer mon avis, je pense qu'en cas de plagiat le responsable est la personne et pas l'outil.

Une vidéo intéressante sur le sujet (les premières parties sont un peu confuses/méandreuses mais nécessaires pour son point final) :

 

Link to comment
11 hours ago, Lancelot said:

Ça montre que le modèle a intégré que tel type d'image se démarque souvent par la présence de tel truc, ici les watermarks qui peuvent évoquer telle ou telle  bases de données. Ces bases de données ont donc été utilisées pour l'entraînement (ce que les développeurs ne nient pas), mais outre ça l'image générée n'a aucune raison d'être la reproduction d'une image spécifique d'une base de donnée spécifique.

Je viens de voir un truc qui me permet d'illustrer ce point. Une de mes reproductions de la Jonconde contient une de ces pseudo-watermarks dont, pour le coup, on est complètement sûrs qu'elle n'était pas dans l'original :

6i9W3yd.png

 

Donc pseudo watermark en sortie != copie d'une image avec watermark.

  • Yea 3
Link to comment
il y a une heure, Lancelot a dit :

Donc pseudo watermark en sortie != copie d'une image avec watermark.

Attention, il est fort probable que la joconde ait été samplée de nombreuses fois, dont certaines images avec légendes (ou watermark de site, voire la classique localisation de l’œuvre)

Et cela n'invalide en rien l'utilisation illégale car non-contractuelle de nombreuses images non-libre de droits pour la construction des databases. (C'est même "revendiqué" par de nombreuses boites/utilisateurs d'IA). Et donc les artefacts de watermark en sortie.

 

  

il y a une heure, Lancelot a dit :

Une de mes reproductions de la Jonconde

Bon dieu mais quelle horreur ce truc. Rendez-vous service et allez voir l'original au musée.

 

Au fait, si tu veux reproduire la Joconde, pourquoi ne pas apprendre à peindre, tout simplement? Vraie question. (edit: et sans vouloir te faire de procès d'intention, je me doute que ta réponse sera probablement "je ne veux pas apprendre à peindre, je veux trouver comment faire cracher à l'IA une repro 1:1).

 

J'ai eu le bonheur il y a des années, alors que j'apprenais la peinture à l'huile, de faire une copie à l'huile d'un autre tableau de (ou attribué à) Léonard, "La Belle Ferronnière" je me souviens encore du temps passé sur la peau de la gorge et du visage, (sans parler de cette satanée robe avec ses putains de petites décorations sur les rubans), je ne vois plus les portraits de Léonard de la même manière. Et honnêtement, je ne peux que conseiller à tout amateur d'art l'exercice de l'étude des maitres avec les mêmes médiums.

  • Nay 1
Link to comment
Il y a 2 heures, Lancelot a dit :

Pour réitérer mon avis, je pense qu'en cas de plagiat le responsable est la personne et pas l'outil.

Je suis d'accord et perso je ne suis même pas sûr que le concept de "plagiat" existe vraiment. Moi je dis surtout qu'il n'y a aucune raison théorique qui ferait qu'en sortie on retrouve pas une vraie photo

 

 

Il y a 2 heures, Lancelot a dit :

ça ne serait pas une technologie très intéressante si elle ne pouvait créer que des images qui ne ressemblent à rien

On est bien d'accord moi je critique les gens qui parlent de l'outil sans comprendre, pas l'outil (je fais de même pour les cryptos)

 

 

 

 

Link to comment
Il y a 2 heures, Lancelot a dit :

Pour donner une idée des échelles, ce nombre serait [..] 4000 milliards, disons un ou deux ordres de grandeur de moins si on considère que l'information est compressée. D'un autre côté le nombre de paramètres pour DALL-E ou Midjourney (avec leurs bases de données d'entraînement composées de millions d'images) est de l'ordre de grandeur de quelques dizaines de milliards grand max.

Ceci étant le cas, retrouver exactement une image en sortie relève du hasard. Et je renvoie aux ordres de grandeur en jeu pour avoir une idée des probabilités.

Non c'est pas du hasard ca montre au contraire que c'est un très bon compresseur d'information. Ce qui semble logique au final, on peut les voir comme des compresseurs (plus un interpolateur ou extrapolateur en fait) avec des probabilités et de la perte d'information dans un espace visuel pour les humains en sortie et en entrée l'espace du langage humain. Imagine un gros fichier .zip de tous les .jpg de l'humanité nommés avec leur description et les prompts + image initiale seraient les noms de fichiers à décompresser

Link to comment
Il y a 3 heures, Lancelot a dit :

Pour réitérer mon avis, je pense qu'en cas de plagiat le responsable est la personne et pas l'outil.

Personne n'a dit l'inverse, justement. (Y compris chez les artistes, d'ailleurs).

Link to comment
39 minutes ago, Alchimi said:

Attention, il est fort probable que la joconde ait été samplée de nombreuses fois, dont certaines images avec légendes (ou watermark de site, voire la classique localisation de l’œuvre)

Est-ce qu'on ne toucherait pas du doigt quelque chose avec ces images watermarkées par des sites alors qu'elles ne leur appartiennent pas ? Peut-être ne sont-ils pas que des victimes innocentes ? 🤔

 

J'ai reproduit la prompt quelques fois et je ne suis jamais retombé sur une pseudo-watermark donc je ne pense pas que ça soit considéré par le modèle comme un trait caractéristique de "joconditude". Car c'est bien de ça qu'il s'agit, encore une fois le modèle ne va pas chercher un exemplaire de Joconde au pif à chaque fois dans la base de donnée d'entraînement pour le reproduire, la base de données d'entraînement n'est pas stockée dans le modèle.

 

Ceci dit c'est intéressant de se demander si le modèle sait ce qu'est une watermark.

 

vuuYYyX.png

 

D16XxdD.png

 

Aha !

Donc on peut manipuler les conditions d'apparition de pseudo-watermarks. Seulement dans une certaine mesure par contre (là je montre un batch particulièrement fructueux) et dans ce cas précis (des variations comme "shuttershock landscape" ou "vincent van gogh starry night shutterstock", ou même "leonardo da vinci mona lisa shutterstock", ne marchent presque pas).

 

Au passage je trouve celle-ci terrifiante :

sY83Ywy.png

 

 

39 minutes ago, Alchimi said:

Et cela n'invalide en rien l'utilisation illégale car non-contractuelle de nombreuses images non-libre de droits pour la construction des databases. (C'est même "revendiqué" par de nombreuses boites/utilisateurs d'IA). Et donc les artefacts de watermark en sortie.

L'utilisation personne ne dit le contraire. L'illégalité est discutable et j'ai déjà donné mes arguments.

 

39 minutes ago, Alchimi said:

Bon dieu mais quelle horreur ce truc. Rendez-vous service et allez voir l'original au musée.

 

Au fait, si tu veux reproduire la Joconde, pourquoi ne pas apprendre à peindre, tout simplement? Vraie question. (edit: et sans vouloir te faire de procès d'intention, je me doute que ta réponse sera probablement "je ne veux pas apprendre à peindre, je veux trouver comment faire cracher à l'IA une repro 1:1).

Ben oui mon objectif ici c'est l'exploration de l'IA, pas une quelconque prétention artistique. Il se trouve que la Joconde est un des tableaux les plus connus du monde et donc sans doute une des images sur lesquelles elle est le plus entraînée.

Link to comment
17 minutes ago, ttoinou said:

Non c'est pas du hasard ca montre au contraire que c'est un très bon compresseur d'information. Ce qui semble logique au final, on peut les voir comme des compresseurs (plus un interpolateur ou extrapolateur en fait) avec des probabilités et de la perte d'information dans un espace visuel pour les humains en sortie et en entrée l'espace du langage humain. Imagine un gros fichier .zip de tous les .jpg de l'humanité nommés avec leur description et les prompts + image initiale seraient les noms de fichiers à décompresser

Alors pour les raisons que je donne dans le post que tu cites c'est sans doute une des manières les moins pertinentes de se représenter ce qui se passe :mrgreen:

 

14 minutes ago, Alchimi said:

Personne n'a dit l'inverse, justement. (Y compris chez les artistes, d'ailleurs).

Dans ce cas il faut dire aux artiste d'arrêter de se plaindre de l'outil.

Link to comment
il y a 22 minutes, Lancelot a dit :

Dans ce cas il faut dire aux artiste d'arrêter de se plaindre de l'outil.

Ça tombe bien, la majorité des pros ne se plaignent pas du principe de l'outil, mais de la manière dont il a été construit, ou de l'utilisation qu'en font de nombreux utilisateurs, (dont certains qui revendiquent le fait de plagier exactement le style de tel ou tel artiste, pour réussir à lui supprimer son audience). Ayn Rand et son passage sur les pilleurs dans Atlas Shrugged m'est de nombreuses fois revenu en tête.

 

Un fait sociologique assez ouf qui ressort des réseaux est d'ailleurs le discours que les "artistes" étaient une espèce de race à part qui empêchait le reste de l'humanité de faire de l'art "librement".

Je crois que l'expression "vulgus pecum" est hélas vraie.

Link to comment
Il y a 1 heure, Alchimi a dit :

 

Bon dieu mais quelle horreur ce truc. Rendez-vous service et allez voir l'original au musée.

 

Au fait, si tu veux reproduire la Joconde, pourquoi ne pas apprendre à peindre, tout simplement? Vraie question. (edit: et sans vouloir te faire de procès d'intention, je me doute que ta réponse sera probablement "je ne veux pas apprendre à peindre, je veux trouver comment faire cracher à l'IA une repro 1:1).

 

J'ai eu le bonheur il y a des années, alors que j'apprenais la peinture à l'huile, de faire une copie à l'huile d'un autre tableau de (ou attribué à) Léonard, "La Belle Ferronnière" je me souviens encore du temps passé sur la peau de la gorge et du visage, (sans parler de cette satanée robe avec ses putains de petites décorations sur les rubans), je ne vois plus les portraits de Léonard de la même manière. Et honnêtement, je ne peux que conseiller à tout amateur d'art l'exercice de l'étude des maitres avec les mêmes médiums.

Parce que c'est bien connu personne à part les artistes ne va au musée ou ne sait apprécier la peinture 🙃

 

 

Quand aux exemples vus au dessus faudrait admirer le détail mais ça ressemble beaucoup plus à un cas explicite d'img2img qu'à une production par diffusion.

 

 

En tout cas vu la sale mentalité du groupe aujourd'hui tu m'étonnes que les artistes soient infestés par les antifa, les furrys et les pédophiles. 

Link to comment
il y a 5 minutes, NoName a dit :

Parce que c'est bien connu personne à part les artistes ne va au musée ou ne sait apprécier la peinture

Loupé, ce n'est pas ce que j'ai dit.

 

il y a 5 minutes, NoName a dit :

En tout cas vu la sale mentalité du groupe aujourd'hui tu m'étonnes que les artistes soient infestés par les antifa, les furrys et les pédophiles. 

Re loupé. Et c'est un jugement de valeur doublé d'une attaque personnelle sur un type de métier en plus. Un peu comme si je traitais tout les devs informatiques d'autistes psychopathes philistins.

 

edit: D'ailleurs, quand je lis les propos de certains ici, (dont les tiens, noname) vu les plaintes de certains concernant les propos moyens de leur collègues à la machine à café, j'ai pas l'impression que la catégorie des illustrateurs et autres peintres soit la pire, à ce petit jeu là. :D

Link to comment
Il y a 1 heure, Lancelot a dit :

Alors pour les raisons que je donne dans le post que tu cites c'est sans doute une des manières les moins pertinentes de se représenter ce qui se passe :mrgreen:

Ton argument c'est que le ratio de compression est infiniment plus élevé que les compresseurs auxquelles ont est habitués avant ? nbImages*4000 milliards / 10 milliards avec nbImages = au moins un milliards d' images -> ratio de compression de 400 milliards 

Link to comment
2 hours ago, Alchimi said:

Pour ça je commencerais pour rentrer dans le détail du code d'icelle.

 

38 minutes ago, ttoinou said:

Ton argument c'est que le ratio de compression est infiniment plus élevé que les compresseurs auxquelles ont est habitués avant ? nbImages*4000 milliards / 10 milliards avec nbImages = au moins un milliards d' images -> ratio de compression de 400 milliards 

 

Si vous avez quelques heures à perdre pour vous pencher sérieusement sur comment tout ça fonctionne, j'ai passé mon après midi à sélectionner ces quelques vidéos qui à mon avis constituent une très bonne introduction sur le fonctionnement précis du bidule. Ça part d'assez loin (dans le temps et dans les concepts), c'est extrêmement nerdy, mais c'est ce qu'il faut pour vraiment se faire une idée (ou au moins comprendre ce qu'on ne comprend pas).

 

Quote

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  • Yea 1
Link to comment

Je travaille dans la vidéo et les effets spéciaux je pense maîtriser les quatres premières vidéos, et j'ai lu quelques trucs de Yann LeCun et un peu joué avec les neural transfer il y a 7 ans quand c'était sorti (et aussi, la descent gradient c'est un algo classique). Pour les deux suivantes je regarderais ! Mais d'après ce que j'avais compris on ne comprenait pas tout dans le deep learning et les designers qui construisent l'architecture des réseaux font pas mal de tâtonnement ; même si on a des fondements théoriques pour expliquer pourquoi on arrive à interpoler une fonction arbitraire, c'est pas une boîte noire uniquement pour ses utilisateurs 

 

il y a 11 minutes, Lancelot a dit :

ou au moins comprendre ce qu'on ne comprend pas

Bien dit :D 

Link to comment

En tout cas ce que je veux dire aussi c'est qu'on a pas besoin de dire "ces algos génèrent toujours de nouvelles images jamais vues avant" pour pouvoir dire "ces algos sont géniaux !", ca n'enlève rien à leur caractère incroyable. Ce qui m'impressionne le plus c'est à quel point en gardant que des infos en 2D on peut obtenir des trucs cohérents en 3D. A la limite si ca mettait ensemble pleins d'objets et que les bords entre les objets étaient un peu dégueu je trouverais ca déjà pas mal, mais là à chaque fois les bordures entre les objets, comment les objets sont fusionnés dans la même scène, sont vraiment faites de façon super propre. Ca doit impressionner pas mal les artistes ces légers détails

Link to comment
58 minutes ago, ttoinou said:

Mais d'après ce que j'avais compris on ne comprenait pas tout dans le deep learning et les designers qui construisent l'architecture des réseaux font pas mal de tâtonnement ; même si on a des fondements théoriques pour expliquer pourquoi on arrive à interpoler une fonction arbitraire, c'est pas une boîte noire uniquement pour ses utilisateurs

Ah oui que ça soit une boîte noire c'est une feature en fait, pour le dire très grossièrement la période d'entraînement est le réseau qui se programme tout seul pour répondre à certains critères méta-programmés ("on veut ce type d'output dans telle condition"). Ceci dit des choses comme deep dream permettent d'entrevoir un tout petit peu ce qui se passe au niveau des couches cachées. Et ce n'est pas une version compressée du set d'entraînement. En ce qui concerne les fondements théoriques la genèse des réseaux de neurones est fondée sur la neuroscience (comme leur nom l'indique) et notamment la théorie sur comment la perception visuelle émerge de l'interaction entre aires cérébrales avec Hebb, McCulloch et Pitts, tout ça.

 

51 minutes ago, ttoinou said:

En tout cas ce que je veux dire aussi c'est qu'on a pas besoin de dire "ces algos génèrent toujours de nouvelles images jamais vues avant" pour pouvoir dire "ces algos sont géniaux !", ca n'enlève rien à leur caractère incroyable.

Je suis d'accord, cependant je ne vois pas non plus pourquoi on s'empêcherait de le dire puisque c'est vrai avec une erreur potentielle à epsilon (disons qu'on ne peut pas garantir que ça ne va pas sortir exactement une image connue mais c'est la même probabilité que GPT-3 te sorte l'intégralité du texte de Hamlet parce que tu lui as demandé un texte dans le style de Shakespeare).

Link to comment
il y a 6 minutes, Lancelot a dit :

Je suis d'accord, cependant je ne vois pas non plus pourquoi on s'empêcherait de le dire puisque c'est vrai avec une erreur potentielle à epsilon (disons qu'on ne peut pas garantir que ça ne va pas sortir exactement une image connue mais c'est la même probabilité que GPT-3 te sorte l'intégralité du texte de Hamlet parce que tu lui as demandé un texte dans le style de Shakespeare).

Tout se trouve dans cet epsilon... Tu prends l'égalité bit par bit, que personne n'utilise. Si je recompresse ta Mona Lisa en JPG tu vas pas me dire que c'est pas la même oeuvre d'art photographiée, non tu vas me dire que ca représente la même image d'origine

 

il y a 7 minutes, Lancelot a dit :

pour le dire très grossièrement la période d'entraînement est le réseau qui se programme tout seul pour répondre à certains critères méta-programmés ("on veut ce type d'output dans telle condition")

Oui mais c'est quand même un peu magique. Genre le fait que les états intermédiaires (entre états d'entraînements) sont très propres visuellement, et aussi que le réseau ne désapprends pas des trucs appris plus tôt, ca combine tout en même temps

Link to comment
2 hours ago, ttoinou said:

Tout se trouve dans cet epsilon... Tu prends l'égalité bit par bit, que personne n'utilise. Si je recompresse ta Mona Lisa en JPG tu vas pas me dire que c'est pas la même oeuvre d'art photographiée, non tu vas me dire que ca représente la même image d'origine

Pas besoin de recompresser pour ça, c'est évident pour n'importe qui que c'est une version de la Joconde.

 

Ça veut dire qu'une combinaison de paramètres dans le modèle permet d'isoler un facteur de "joconditude". Dans mes exemples précédents j'invoque cette joconditude sans autre modification, ce qui peut laisser penser à une simple récupération en mémoire, mais pour faire une telle chose on n'aurait pas besoin d'un modèle aussi sophistiqué. Le but n'est pas de combiner des images de la Joconde avec des images d'autres trucs mais de combiner la joconditude avec d'autres concepts, c'est ça qui est révolutionnaire.

 

8dXXzJA.png

 

Si on commence à se soumettre aux volontés d'interdire au modèle de créer des images qui ressemblent trop à d'autres images, on va vite se retrouver dans la situation où il faudra quantifier cette ressemblance, délimiter les concepts définissant les images dont on ne veut pas s'approcher... bref on finira très vite avec uniquement la possibilité de construire des "images qui ne ressemblent à rien". Et à ce moment là autant tout jeter à la poubelle. Tout ça pour un risque qui n'existe pour ainsi dire pas tant que tu ne le fais pas exprès (et même dans ce cas, personne ne peut confondre les versions que j'ai généré avec la vraie Joconde).

 

Je peux essayer de donner une autre illustration. D'un point de vue statistique c'est comme si tu mesurais disons la taille de 100 personnes, que tu en déduisais que la taille de cette population suit approximativement une distribution gaussienne avec telle moyenne et tel écart type, puis que tu tirais un nombre au hasard dans cette distribution. Et que tu me disais "ah ah mais on ne peut pas être 100% certains que la taille que je tire n'est pas exactement la taille d'une des 100 personnes !"

Link to comment
il y a une heure, Lancelot a dit :

Si on commence à se soumettre aux volontés d'interdire au modèle de créer des images qui ressemblent trop à d'autres image

Je propose rien de tout cela. Je propose qu'on ne prenne pas au sérieux les gens qui comprennent rien au deep learning et sortent des trucs du style "this AI generated person does not exist" -> non tu n'en as pas la preuve, tu es un boulet, tais-toi et laisse faire les pros

 

 

C'est comme les cryptos, il faut bien faire le tri sur qui dit quoi d'intelligent ou de bête, il faut avoir des critères stricts pour faire la part des choses. Des gens qui me disent "trop bien la nft est stockée sur la blockchain" je les met direct dans la case poubelle parce qu'une recherche de 3 minutes en ligne te montre que c'est une URL vers un serveur classique

Link to comment

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
×
×
  • Create New...