ttoinou Posté 23 décembre 2022 Signaler Posté 23 décembre 2022 1. Qqun a démontré que du bruit en point de départ ne peux pas converger vers une entrée de l'entraînement ? 2. La relation d'égalité est celle d'un humain "ah oui ça ressemble" et pas informatique "chaque pixel est égal"
Lancelot Posté 23 décembre 2022 Signaler Posté 23 décembre 2022 1 minute ago, ttoinou said: 1. Qqun a démontré que du bruit en point de départ ne peux pas converger vers une entrée de l'entraînement ? Les images d'entraînement ne sont pas dans le modèle. Enfin j'imagine qu'elles pourraient l'être techniquement dans des cas très spécifiques d'overfitting, genre si tu entraînes le modèle sur juste une poignée d'images et que tu lui donnes suffisamment de paramètres pour représenter complètement ces images. Pour donner une idée des échelles, ce nombre serait le nombre d'images * le nombre de pixels * 255 * 255 * 255. Si on calcule pour une image de 600 par 400 pixels, ça donne à peu près 4000 milliards, disons un ou deux ordres de grandeur de moins si on considère que l'information est compressée. D'un autre côté le nombre de paramètres pour DALL-E ou Midjourney (avec leurs bases de données d'entraînement composées de millions d'images) est de l'ordre de grandeur de quelques dizaines de milliards grand max. Ceci étant le cas, retrouver exactement une image en sortie relève du hasard. Et je renvoie aux ordres de grandeur en jeu pour avoir une idée des probabilités. 1 minute ago, ttoinou said: 2. La relation d'égalité est celle d'un humain "ah oui ça ressemble" et pas informatique "chaque pixel est égal" C'est une toute autre question, et effectivement un peut choisir des prompts qui génèrent des choses qui ressemblent à d'autre choses, c'est un peu le but initial du bazar, ça ne serait pas une technologie très intéressante si elle ne pouvait créer que des images qui ne ressemblent à rien. Pour réitérer mon avis, je pense qu'en cas de plagiat le responsable est la personne et pas l'outil. Une vidéo intéressante sur le sujet (les premières parties sont un peu confuses/méandreuses mais nécessaires pour son point final) :
Lancelot Posté 23 décembre 2022 Signaler Posté 23 décembre 2022 11 hours ago, Lancelot said: Ça montre que le modèle a intégré que tel type d'image se démarque souvent par la présence de tel truc, ici les watermarks qui peuvent évoquer telle ou telle bases de données. Ces bases de données ont donc été utilisées pour l'entraînement (ce que les développeurs ne nient pas), mais outre ça l'image générée n'a aucune raison d'être la reproduction d'une image spécifique d'une base de donnée spécifique. Je viens de voir un truc qui me permet d'illustrer ce point. Une de mes reproductions de la Jonconde contient une de ces pseudo-watermarks dont, pour le coup, on est complètement sûrs qu'elle n'était pas dans l'original : Donc pseudo watermark en sortie != copie d'une image avec watermark. 3
Alchimi Posté 23 décembre 2022 Signaler Posté 23 décembre 2022 il y a une heure, Lancelot a dit : Donc pseudo watermark en sortie != copie d'une image avec watermark. Attention, il est fort probable que la joconde ait été samplée de nombreuses fois, dont certaines images avec légendes (ou watermark de site, voire la classique localisation de l’œuvre) Et cela n'invalide en rien l'utilisation illégale car non-contractuelle de nombreuses images non-libre de droits pour la construction des databases. (C'est même "revendiqué" par de nombreuses boites/utilisateurs d'IA). Et donc les artefacts de watermark en sortie. il y a une heure, Lancelot a dit : Une de mes reproductions de la Jonconde Bon dieu mais quelle horreur ce truc. Rendez-vous service et allez voir l'original au musée. Au fait, si tu veux reproduire la Joconde, pourquoi ne pas apprendre à peindre, tout simplement? Vraie question. (edit: et sans vouloir te faire de procès d'intention, je me doute que ta réponse sera probablement "je ne veux pas apprendre à peindre, je veux trouver comment faire cracher à l'IA une repro 1:1). J'ai eu le bonheur il y a des années, alors que j'apprenais la peinture à l'huile, de faire une copie à l'huile d'un autre tableau de (ou attribué à) Léonard, "La Belle Ferronnière" je me souviens encore du temps passé sur la peau de la gorge et du visage, (sans parler de cette satanée robe avec ses putains de petites décorations sur les rubans), je ne vois plus les portraits de Léonard de la même manière. Et honnêtement, je ne peux que conseiller à tout amateur d'art l'exercice de l'étude des maitres avec les mêmes médiums. 1
ttoinou Posté 23 décembre 2022 Signaler Posté 23 décembre 2022 Il y a 2 heures, Lancelot a dit : Pour réitérer mon avis, je pense qu'en cas de plagiat le responsable est la personne et pas l'outil. Je suis d'accord et perso je ne suis même pas sûr que le concept de "plagiat" existe vraiment. Moi je dis surtout qu'il n'y a aucune raison théorique qui ferait qu'en sortie on retrouve pas une vraie photo Il y a 2 heures, Lancelot a dit : ça ne serait pas une technologie très intéressante si elle ne pouvait créer que des images qui ne ressemblent à rien On est bien d'accord moi je critique les gens qui parlent de l'outil sans comprendre, pas l'outil (je fais de même pour les cryptos)
ttoinou Posté 23 décembre 2022 Signaler Posté 23 décembre 2022 Il y a 2 heures, Lancelot a dit : Pour donner une idée des échelles, ce nombre serait [..] 4000 milliards, disons un ou deux ordres de grandeur de moins si on considère que l'information est compressée. D'un autre côté le nombre de paramètres pour DALL-E ou Midjourney (avec leurs bases de données d'entraînement composées de millions d'images) est de l'ordre de grandeur de quelques dizaines de milliards grand max. Ceci étant le cas, retrouver exactement une image en sortie relève du hasard. Et je renvoie aux ordres de grandeur en jeu pour avoir une idée des probabilités. Non c'est pas du hasard ca montre au contraire que c'est un très bon compresseur d'information. Ce qui semble logique au final, on peut les voir comme des compresseurs (plus un interpolateur ou extrapolateur en fait) avec des probabilités et de la perte d'information dans un espace visuel pour les humains en sortie et en entrée l'espace du langage humain. Imagine un gros fichier .zip de tous les .jpg de l'humanité nommés avec leur description et les prompts + image initiale seraient les noms de fichiers à décompresser
Alchimi Posté 23 décembre 2022 Signaler Posté 23 décembre 2022 Il y a 3 heures, Lancelot a dit : Pour réitérer mon avis, je pense qu'en cas de plagiat le responsable est la personne et pas l'outil. Personne n'a dit l'inverse, justement. (Y compris chez les artistes, d'ailleurs).
Lancelot Posté 23 décembre 2022 Signaler Posté 23 décembre 2022 39 minutes ago, Alchimi said: Attention, il est fort probable que la joconde ait été samplée de nombreuses fois, dont certaines images avec légendes (ou watermark de site, voire la classique localisation de l’œuvre) Est-ce qu'on ne toucherait pas du doigt quelque chose avec ces images watermarkées par des sites alors qu'elles ne leur appartiennent pas ? Peut-être ne sont-ils pas que des victimes innocentes ? 🤔 J'ai reproduit la prompt quelques fois et je ne suis jamais retombé sur une pseudo-watermark donc je ne pense pas que ça soit considéré par le modèle comme un trait caractéristique de "joconditude". Car c'est bien de ça qu'il s'agit, encore une fois le modèle ne va pas chercher un exemplaire de Joconde au pif à chaque fois dans la base de donnée d'entraînement pour le reproduire, la base de données d'entraînement n'est pas stockée dans le modèle. Ceci dit c'est intéressant de se demander si le modèle sait ce qu'est une watermark. Aha ! Donc on peut manipuler les conditions d'apparition de pseudo-watermarks. Seulement dans une certaine mesure par contre (là je montre un batch particulièrement fructueux) et dans ce cas précis (des variations comme "shuttershock landscape" ou "vincent van gogh starry night shutterstock", ou même "leonardo da vinci mona lisa shutterstock", ne marchent presque pas). Au passage je trouve celle-ci terrifiante : 39 minutes ago, Alchimi said: Et cela n'invalide en rien l'utilisation illégale car non-contractuelle de nombreuses images non-libre de droits pour la construction des databases. (C'est même "revendiqué" par de nombreuses boites/utilisateurs d'IA). Et donc les artefacts de watermark en sortie. L'utilisation personne ne dit le contraire. L'illégalité est discutable et j'ai déjà donné mes arguments. 39 minutes ago, Alchimi said: Bon dieu mais quelle horreur ce truc. Rendez-vous service et allez voir l'original au musée. Au fait, si tu veux reproduire la Joconde, pourquoi ne pas apprendre à peindre, tout simplement? Vraie question. (edit: et sans vouloir te faire de procès d'intention, je me doute que ta réponse sera probablement "je ne veux pas apprendre à peindre, je veux trouver comment faire cracher à l'IA une repro 1:1). Ben oui mon objectif ici c'est l'exploration de l'IA, pas une quelconque prétention artistique. Il se trouve que la Joconde est un des tableaux les plus connus du monde et donc sans doute une des images sur lesquelles elle est le plus entraînée.
Alchimi Posté 23 décembre 2022 Signaler Posté 23 décembre 2022 il y a 1 minute, Lancelot a dit : l'exploration de l'IA Pour ça je commencerais pour rentrer dans le détail du code d'icelle.
Lancelot Posté 23 décembre 2022 Signaler Posté 23 décembre 2022 17 minutes ago, ttoinou said: Non c'est pas du hasard ca montre au contraire que c'est un très bon compresseur d'information. Ce qui semble logique au final, on peut les voir comme des compresseurs (plus un interpolateur ou extrapolateur en fait) avec des probabilités et de la perte d'information dans un espace visuel pour les humains en sortie et en entrée l'espace du langage humain. Imagine un gros fichier .zip de tous les .jpg de l'humanité nommés avec leur description et les prompts + image initiale seraient les noms de fichiers à décompresser Alors pour les raisons que je donne dans le post que tu cites c'est sans doute une des manières les moins pertinentes de se représenter ce qui se passe 14 minutes ago, Alchimi said: Personne n'a dit l'inverse, justement. (Y compris chez les artistes, d'ailleurs). Dans ce cas il faut dire aux artiste d'arrêter de se plaindre de l'outil.
Alchimi Posté 23 décembre 2022 Signaler Posté 23 décembre 2022 il y a 22 minutes, Lancelot a dit : Dans ce cas il faut dire aux artiste d'arrêter de se plaindre de l'outil. Ça tombe bien, la majorité des pros ne se plaignent pas du principe de l'outil, mais de la manière dont il a été construit, ou de l'utilisation qu'en font de nombreux utilisateurs, (dont certains qui revendiquent le fait de plagier exactement le style de tel ou tel artiste, pour réussir à lui supprimer son audience). Ayn Rand et son passage sur les pilleurs dans Atlas Shrugged m'est de nombreuses fois revenu en tête. Un fait sociologique assez ouf qui ressort des réseaux est d'ailleurs le discours que les "artistes" étaient une espèce de race à part qui empêchait le reste de l'humanité de faire de l'art "librement". Je crois que l'expression "vulgus pecum" est hélas vraie.
NoName Posté 23 décembre 2022 Signaler Posté 23 décembre 2022 Il y a 1 heure, Alchimi a dit : Bon dieu mais quelle horreur ce truc. Rendez-vous service et allez voir l'original au musée. Au fait, si tu veux reproduire la Joconde, pourquoi ne pas apprendre à peindre, tout simplement? Vraie question. (edit: et sans vouloir te faire de procès d'intention, je me doute que ta réponse sera probablement "je ne veux pas apprendre à peindre, je veux trouver comment faire cracher à l'IA une repro 1:1). J'ai eu le bonheur il y a des années, alors que j'apprenais la peinture à l'huile, de faire une copie à l'huile d'un autre tableau de (ou attribué à) Léonard, "La Belle Ferronnière" je me souviens encore du temps passé sur la peau de la gorge et du visage, (sans parler de cette satanée robe avec ses putains de petites décorations sur les rubans), je ne vois plus les portraits de Léonard de la même manière. Et honnêtement, je ne peux que conseiller à tout amateur d'art l'exercice de l'étude des maitres avec les mêmes médiums. Parce que c'est bien connu personne à part les artistes ne va au musée ou ne sait apprécier la peinture 🙃 Quand aux exemples vus au dessus faudrait admirer le détail mais ça ressemble beaucoup plus à un cas explicite d'img2img qu'à une production par diffusion. En tout cas vu la sale mentalité du groupe aujourd'hui tu m'étonnes que les artistes soient infestés par les antifa, les furrys et les pédophiles.
Alchimi Posté 23 décembre 2022 Signaler Posté 23 décembre 2022 il y a 5 minutes, NoName a dit : Parce que c'est bien connu personne à part les artistes ne va au musée ou ne sait apprécier la peinture Loupé, ce n'est pas ce que j'ai dit. il y a 5 minutes, NoName a dit : En tout cas vu la sale mentalité du groupe aujourd'hui tu m'étonnes que les artistes soient infestés par les antifa, les furrys et les pédophiles. Re loupé. Et c'est un jugement de valeur doublé d'une attaque personnelle sur un type de métier en plus. Un peu comme si je traitais tout les devs informatiques d'autistes psychopathes philistins. edit: D'ailleurs, quand je lis les propos de certains ici, (dont les tiens, noname) vu les plaintes de certains concernant les propos moyens de leur collègues à la machine à café, j'ai pas l'impression que la catégorie des illustrateurs et autres peintres soit la pire, à ce petit jeu là.
ttoinou Posté 23 décembre 2022 Signaler Posté 23 décembre 2022 Il y a 1 heure, Lancelot a dit : Alors pour les raisons que je donne dans le post que tu cites c'est sans doute une des manières les moins pertinentes de se représenter ce qui se passe Ton argument c'est que le ratio de compression est infiniment plus élevé que les compresseurs auxquelles ont est habitués avant ? nbImages*4000 milliards / 10 milliards avec nbImages = au moins un milliards d' images -> ratio de compression de 400 milliards
Lancelot Posté 23 décembre 2022 Signaler Posté 23 décembre 2022 2 hours ago, Alchimi said: Pour ça je commencerais pour rentrer dans le détail du code d'icelle. 38 minutes ago, ttoinou said: Ton argument c'est que le ratio de compression est infiniment plus élevé que les compresseurs auxquelles ont est habitués avant ? nbImages*4000 milliards / 10 milliards avec nbImages = au moins un milliards d' images -> ratio de compression de 400 milliards Si vous avez quelques heures à perdre pour vous pencher sérieusement sur comment tout ça fonctionne, j'ai passé mon après midi à sélectionner ces quelques vidéos qui à mon avis constituent une très bonne introduction sur le fonctionnement précis du bidule. Ça part d'assez loin (dans le temps et dans les concepts), c'est extrêmement nerdy, mais c'est ce qu'il faut pour vraiment se faire une idée (ou au moins comprendre ce qu'on ne comprend pas). Quote 1
ttoinou Posté 23 décembre 2022 Signaler Posté 23 décembre 2022 Je travaille dans la vidéo et les effets spéciaux je pense maîtriser les quatres premières vidéos, et j'ai lu quelques trucs de Yann LeCun et un peu joué avec les neural transfer il y a 7 ans quand c'était sorti (et aussi, la descent gradient c'est un algo classique). Pour les deux suivantes je regarderais ! Mais d'après ce que j'avais compris on ne comprenait pas tout dans le deep learning et les designers qui construisent l'architecture des réseaux font pas mal de tâtonnement ; même si on a des fondements théoriques pour expliquer pourquoi on arrive à interpoler une fonction arbitraire, c'est pas une boîte noire uniquement pour ses utilisateurs il y a 11 minutes, Lancelot a dit : ou au moins comprendre ce qu'on ne comprend pas Bien dit
ttoinou Posté 23 décembre 2022 Signaler Posté 23 décembre 2022 En tout cas ce que je veux dire aussi c'est qu'on a pas besoin de dire "ces algos génèrent toujours de nouvelles images jamais vues avant" pour pouvoir dire "ces algos sont géniaux !", ca n'enlève rien à leur caractère incroyable. Ce qui m'impressionne le plus c'est à quel point en gardant que des infos en 2D on peut obtenir des trucs cohérents en 3D. A la limite si ca mettait ensemble pleins d'objets et que les bords entre les objets étaient un peu dégueu je trouverais ca déjà pas mal, mais là à chaque fois les bordures entre les objets, comment les objets sont fusionnés dans la même scène, sont vraiment faites de façon super propre. Ca doit impressionner pas mal les artistes ces légers détails
Lancelot Posté 23 décembre 2022 Signaler Posté 23 décembre 2022 58 minutes ago, ttoinou said: Mais d'après ce que j'avais compris on ne comprenait pas tout dans le deep learning et les designers qui construisent l'architecture des réseaux font pas mal de tâtonnement ; même si on a des fondements théoriques pour expliquer pourquoi on arrive à interpoler une fonction arbitraire, c'est pas une boîte noire uniquement pour ses utilisateurs Ah oui que ça soit une boîte noire c'est une feature en fait, pour le dire très grossièrement la période d'entraînement est le réseau qui se programme tout seul pour répondre à certains critères méta-programmés ("on veut ce type d'output dans telle condition"). Ceci dit des choses comme deep dream permettent d'entrevoir un tout petit peu ce qui se passe au niveau des couches cachées. Et ce n'est pas une version compressée du set d'entraînement. En ce qui concerne les fondements théoriques la genèse des réseaux de neurones est fondée sur la neuroscience (comme leur nom l'indique) et notamment la théorie sur comment la perception visuelle émerge de l'interaction entre aires cérébrales avec Hebb, McCulloch et Pitts, tout ça. 51 minutes ago, ttoinou said: En tout cas ce que je veux dire aussi c'est qu'on a pas besoin de dire "ces algos génèrent toujours de nouvelles images jamais vues avant" pour pouvoir dire "ces algos sont géniaux !", ca n'enlève rien à leur caractère incroyable. Je suis d'accord, cependant je ne vois pas non plus pourquoi on s'empêcherait de le dire puisque c'est vrai avec une erreur potentielle à epsilon (disons qu'on ne peut pas garantir que ça ne va pas sortir exactement une image connue mais c'est la même probabilité que GPT-3 te sorte l'intégralité du texte de Hamlet parce que tu lui as demandé un texte dans le style de Shakespeare).
ttoinou Posté 23 décembre 2022 Signaler Posté 23 décembre 2022 il y a 6 minutes, Lancelot a dit : Je suis d'accord, cependant je ne vois pas non plus pourquoi on s'empêcherait de le dire puisque c'est vrai avec une erreur potentielle à epsilon (disons qu'on ne peut pas garantir que ça ne va pas sortir exactement une image connue mais c'est la même probabilité que GPT-3 te sorte l'intégralité du texte de Hamlet parce que tu lui as demandé un texte dans le style de Shakespeare). Tout se trouve dans cet epsilon... Tu prends l'égalité bit par bit, que personne n'utilise. Si je recompresse ta Mona Lisa en JPG tu vas pas me dire que c'est pas la même oeuvre d'art photographiée, non tu vas me dire que ca représente la même image d'origine il y a 7 minutes, Lancelot a dit : pour le dire très grossièrement la période d'entraînement est le réseau qui se programme tout seul pour répondre à certains critères méta-programmés ("on veut ce type d'output dans telle condition") Oui mais c'est quand même un peu magique. Genre le fait que les états intermédiaires (entre états d'entraînements) sont très propres visuellement, et aussi que le réseau ne désapprends pas des trucs appris plus tôt, ca combine tout en même temps
Lancelot Posté 23 décembre 2022 Signaler Posté 23 décembre 2022 2 hours ago, ttoinou said: Tout se trouve dans cet epsilon... Tu prends l'égalité bit par bit, que personne n'utilise. Si je recompresse ta Mona Lisa en JPG tu vas pas me dire que c'est pas la même oeuvre d'art photographiée, non tu vas me dire que ca représente la même image d'origine Pas besoin de recompresser pour ça, c'est évident pour n'importe qui que c'est une version de la Joconde. Ça veut dire qu'une combinaison de paramètres dans le modèle permet d'isoler un facteur de "joconditude". Dans mes exemples précédents j'invoque cette joconditude sans autre modification, ce qui peut laisser penser à une simple récupération en mémoire, mais pour faire une telle chose on n'aurait pas besoin d'un modèle aussi sophistiqué. Le but n'est pas de combiner des images de la Joconde avec des images d'autres trucs mais de combiner la joconditude avec d'autres concepts, c'est ça qui est révolutionnaire. Si on commence à se soumettre aux volontés d'interdire au modèle de créer des images qui ressemblent trop à d'autres images, on va vite se retrouver dans la situation où il faudra quantifier cette ressemblance, délimiter les concepts définissant les images dont on ne veut pas s'approcher... bref on finira très vite avec uniquement la possibilité de construire des "images qui ne ressemblent à rien". Et à ce moment là autant tout jeter à la poubelle. Tout ça pour un risque qui n'existe pour ainsi dire pas tant que tu ne le fais pas exprès (et même dans ce cas, personne ne peut confondre les versions que j'ai généré avec la vraie Joconde). Je peux essayer de donner une autre illustration. D'un point de vue statistique c'est comme si tu mesurais disons la taille de 100 personnes, que tu en déduisais que la taille de cette population suit approximativement une distribution gaussienne avec telle moyenne et tel écart type, puis que tu tirais un nombre au hasard dans cette distribution. Et que tu me disais "ah ah mais on ne peut pas être 100% certains que la taille que je tire n'est pas exactement la taille d'une des 100 personnes !"
ttoinou Posté 23 décembre 2022 Signaler Posté 23 décembre 2022 il y a une heure, Lancelot a dit : Si on commence à se soumettre aux volontés d'interdire au modèle de créer des images qui ressemblent trop à d'autres image Je propose rien de tout cela. Je propose qu'on ne prenne pas au sérieux les gens qui comprennent rien au deep learning et sortent des trucs du style "this AI generated person does not exist" -> non tu n'en as pas la preuve, tu es un boulet, tais-toi et laisse faire les pros C'est comme les cryptos, il faut bien faire le tri sur qui dit quoi d'intelligent ou de bête, il faut avoir des critères stricts pour faire la part des choses. Des gens qui me disent "trop bien la nft est stockée sur la blockchain" je les met direct dans la case poubelle parce qu'une recherche de 3 minutes en ligne te montre que c'est une URL vers un serveur classique
Alchimi Posté 24 décembre 2022 Signaler Posté 24 décembre 2022 Pour les éventuels intéressés/lurkers: https://thehive.ai/blog/detect-and-moderate-ai-generated-artwork-using-hives-new-classification-model
cedric.org Posté 27 décembre 2022 Signaler Posté 27 décembre 2022 On 12/23/2022 at 3:54 PM, Alchimi said: Un peu comme si je traitais tout les devs informatiques d'autistes Hmmmmmmm. Non rien. 1
Alchimi Posté 27 décembre 2022 Signaler Posté 27 décembre 2022 il y a 29 minutes, cedric.org a dit : Hmmmmmmm. Non rien. (Ah, si t'as ton avis sur le sujet..)
Sekonda Posté 20 janvier 2023 Signaler Posté 20 janvier 2023 La génération de vidéos s'améliore très vite
Lancelot Posté 31 janvier 2023 Signaler Posté 31 janvier 2023 Fun fact : craiyon a du mal avec les jeux de mots en français.
ttoinou Posté 31 janvier 2023 Signaler Posté 31 janvier 2023 Le 21/12/2022 à 19:45, Lancelot a dit : Il n'y a pas de copie des images dans le modèle (l Tiens donc, un nouveau papier qui parle exactement de ce que je disais. Mon bullshitomètre fonctionne à merveille https://arxiv.org/abs/2301.13188 Citation Image diffusion models such as DALL-E 2, Imagen, and Stable Diffusion have attracted significant attention due to their ability to generate high-quality synthetic images. In this work, we show that diffusion models memorize individual images from their training data and emit them at generation time. With a generate-and-filter pipeline, we extract over a thousand training examples from state-of-the-art models, ranging from photographs of individual people to trademarked company logos. We also train hundreds of diffusion models in various settings to analyze how different modeling and data decisions affect privacy.
Lancelot Posté 31 janvier 2023 Signaler Posté 31 janvier 2023 Quote To begin, we propose and implement new definitions for “memorization” in image models. [...] Most existing literature on training data extraction focuses on text language models, where a sequence is said to be “extracted” and “memorized” if an adversary can prompt the model to recover a verbatim sequence from the training set [11, 41]. Because we work with high-resolution images, verbatim definitions of memorization are not suitable. Instead, we define a notion of approximate memorization based on image similarity metrics. Figure 3 shows a subset of the extracted images that are reproduced with near pixel-perfect accuracy; all images have an `2 difference under 0.05. (As a point of reference, re-encoding a PNG as a JPEG with quality level 50 results in an `2 difference of 0.02 on average.) Ça mémorise selon leur nouvelle définition de mémoriser qui s'apparente plutôt à "ressembler". Parce que, comme ils le disent eux-mêmes, selon la définition normale c'est trivialement impossible. Ce qui est exactement ce que je disais plus haut. Et qu'est-ce qu'ils en disent de leur définition justement comparé à la littérature ? Quote This paper covers a very restricted definition of “memorization”: whether diffusion models can be induced to generate near-copies of some training examples when prompted with appropriate instructions. We will describe an approach that can generate images that are close approximations of some training images (especially images that are frequently represented in the training dataset through duplication or other means). There is active discussion within the technical and legal communities about whether the presence of this type of “memorization” suggests that generative neural networks “contain” their training data. If we search for images that are bit-for-bit identically duplicated in the training dataset, we would significantly undercount the true rate of duplication. Instead, we account for near-duplication. Bref ils font ce que je faisais avec la Joconde (c'est à dire exposer de l'overfitting) mais de manière plus systématique/formalisée, ce qui est un travail utile je suppose. Quote To reduce the computational load of our attack, as is done in [65], we bias our search towards duplicated training examples because these are orders of magnitude more likely to be memorized than non-duplicated examples [47, 41]. Donc comment ils font exactement ? D'abord ils identifient les 350 000 images qui sont répétées le plus de fois dans le training set. Ensuite ils choppent les descriptions de ces images et les utilisent comme prompts pour générer 500 images avec stable diffusion "We generate 500 candidate images for each text prompt to increase the likelihood that we find memorization." Ensuite ils regardent si les 500 images générées contiennent un sous ensemble d'images qui se ressemblent beaucoup, auquel cas il y a suspicion de "mémorisation". Ils comparent ensuite ces exemplaires aux images source soit selon une définition statistique soit à l’œil et trouvent que... roulement de tambour... 109 images sont susceptibles d'être recopiées. La plupart étant présentes plus de 100 fois dans la base de donnée d'entraînement avec une moyenne (au pifomètre) autour de 1000 fois (donc autant te dire que ton dessin présent une fois au fin fond de deviantart est en sécurité). Quote While we identify little Eidetic memorization for k < 100, this is expected due to the fact we choose prompts of highly-duplicated images (nonobtant que tu nous as dit juste avant qu'elles étaient plus susceptibles d'être mémorisées de plusieurs ordres de magnitudes... NDLancelot). Note that at this level of duplication, the duplicated examples still make up just one in a million training examples. Ensuite la comparaison entre les modèles est intéressante. Quote Thus, Imagen appears less private than Stable Diffusion both on duplicated and non-duplicated images. We believe this is due to the fact that Imagen uses a model with a much higher capacity compared to Stable diffusion, which allows for more memorization [9]. Moreover, Imagen is trained for more iterations and on a smaller dataset, which can also result inhigher memorization. À mon avis le second facteur est bien plus important que le premier, et les deux interagissent pour créer de l'overfitting. Enfin ils entraînent leurs propres modèles ce qui m'intéresse moins parce que comme je viens de le dire ils vont évidemment trouver plus d'overfitting avec un training set plus réduit.
Lancelot Posté 31 janvier 2023 Signaler Posté 31 janvier 2023 Je serais curieux de voir ce que donne leur truc avec Midjourney qui est connu pour avoir un "style" plus prononcé.
ttoinou Posté 31 janvier 2023 Signaler Posté 31 janvier 2023 il y a 12 minutes, Lancelot a dit : Ça mémorise selon leur nouvelle définition de mémoriser qui s'apparente plutôt à "ressembler". Ben c'est ce que je dis aussi. Ce qui compte pour les gens qui formulent ce genres de critiques sur ces nouveaux algorithmes, c'est que ca ressemble pour eux, pour nous les humains. Définition toute relative et floue et pas encore bien formulable de façon carrée avec des formules de maths
Messages recommandés
Créer un compte ou se connecter pour commenter
Vous devez être membre afin de pouvoir déposer un commentaire
Créer un compte
Créez un compte sur notre communauté. C’est facile !
Créer un nouveau compteSe connecter
Vous avez déjà un compte ? Connectez-vous ici.
Connectez-vous maintenant