Aller au contenu

DALL-E et autres modèles générateurs d'images et de vidéos


Messages recommandés

  • 2 weeks later...
Le 21/12/2022 à 19:45, Lancelot a dit :

Il n'y a pas de copie des images dans le modèle (l

Tiens donc, un nouveau papier qui parle exactement de ce que je disais. Mon bullshitomètre fonctionne à merveille

 

https://arxiv.org/abs/2301.13188

 

Citation

Image diffusion models such as DALL-E 2, Imagen, and Stable Diffusion have attracted significant attention due to their ability to generate high-quality synthetic images. In this work, we show that diffusion models memorize individual images from their training data and emit them at generation time. With a generate-and-filter pipeline, we extract over a thousand training examples from state-of-the-art models, ranging from photographs of individual people to trademarked company logos. We also train hundreds of diffusion models in various settings to analyze how different modeling and data decisions affect privacy. 

 

 

 

 

Lien vers le commentaire
Quote

To begin, we propose and implement new definitions for “memorization” in image models.

[...]

Most existing literature on training data extraction focuses on text language models, where a sequence is said to be “extracted” and “memorized” if an adversary can prompt the model to recover a verbatim sequence from the training set [11, 41]. Because we work with high-resolution images, verbatim definitions of memorization are not suitable. Instead, we define a notion of approximate memorization based on image similarity metrics.

 

A5jK414.png

 

sUFpKNR.png

 

Figure 3 shows a subset of the extracted images that are reproduced with near pixel-perfect accuracy; all images have an `2 difference under 0.05. (As a point of reference, re-encoding a PNG as a JPEG with quality level 50 results in an `2 difference of 0.02 on average.)

Ça mémorise selon leur nouvelle définition de mémoriser qui s'apparente plutôt à "ressembler". Parce que, comme ils le disent eux-mêmes, selon la définition normale c'est trivialement impossible. Ce qui est exactement ce que je disais plus haut.

 

Et qu'est-ce qu'ils en disent de leur définition justement comparé à la littérature ?

Quote

This paper covers a very restricted definition of “memorization”: whether diffusion models can be induced to generate near-copies of some training examples when prompted with appropriate instructions. We will describe an approach that can generate images that are close approximations of some training images (especially images that are frequently represented in the training dataset through duplication or other means). There is active discussion within the technical and legal communities about whether the presence of this type of “memorization” suggests that generative neural networks “contain” their training data.

 

If we search for images that are bit-for-bit identically duplicated in the training dataset, we would significantly undercount the true rate of duplication. Instead, we account for near-duplication.

 

Bref ils font ce que je faisais avec la Joconde (c'est à dire exposer de l'overfitting) mais de manière plus systématique/formalisée, ce qui est un travail utile je suppose.

Quote

To reduce the computational load of our attack, as is done in [65], we bias our search towards duplicated training examples because these are orders of magnitude more likely to be memorized than non-duplicated examples [47, 41].

 

Donc comment ils font exactement ? D'abord ils identifient les 350 000 images qui sont répétées le plus de fois dans le training set. Ensuite ils choppent les descriptions de ces images et les utilisent comme prompts pour générer 500 images avec stable diffusion "We generate 500 candidate images for each text prompt to increase the likelihood that we find memorization." Ensuite ils regardent si les 500 images générées contiennent un sous ensemble d'images qui se ressemblent beaucoup, auquel cas il y a suspicion de "mémorisation". Ils comparent ensuite ces exemplaires aux images source soit selon une définition statistique soit à l’œil et trouvent que... roulement de tambour... 109 images sont susceptibles d'être recopiées. La plupart étant présentes plus de 100 fois dans la base de donnée d'entraînement avec une moyenne (au pifomètre) autour de 1000 fois (donc autant te dire que ton dessin présent une fois au fin fond de deviantart est en sécurité).

Quote

While we identify little Eidetic memorization for k < 100, this is expected due to the fact we choose prompts of highly-duplicated images (nonobtant que tu nous as dit juste avant qu'elles étaient plus susceptibles d'être mémorisées de plusieurs ordres de magnitudes... NDLancelot). Note that at this level of duplication, the duplicated examples still make up just one in a million training examples.

 

Ensuite la comparaison entre les modèles est intéressante.

Quote

Thus, Imagen appears less private than Stable Diffusion both on duplicated and non-duplicated images. We believe this is due to the fact that Imagen uses a model with a much higher capacity compared to Stable diffusion, which allows for more memorization [9]. Moreover, Imagen is trained for more iterations and on a smaller dataset, which can also result inhigher memorization.

 

À mon avis le second facteur est bien plus important que le premier, et les deux interagissent pour créer de l'overfitting.

 

Enfin ils entraînent leurs propres modèles ce qui m'intéresse moins parce que comme je viens de le dire ils vont évidemment trouver plus d'overfitting avec un training set plus réduit.

Lien vers le commentaire
il y a 12 minutes, Lancelot a dit :

Ça mémorise selon leur nouvelle définition de mémoriser qui s'apparente plutôt à "ressembler".

Ben c'est ce que je dis aussi. Ce qui compte pour les gens qui formulent ce genres de critiques sur ces nouveaux algorithmes, c'est que ca ressemble pour eux, pour nous les humains. Définition toute relative et floue et pas encore bien formulable de façon carrée avec des formules de maths

Lien vers le commentaire

Je faisais une analogie. Je sais bien que c'est pas un zip. Et sinon on peut utiliser ces types de nouveaux algorithmes pour compresser des images, vidéos, images etc. ca fait plusieurs années que c'est en recherche en même temps donc je sors pas ca de mes fesses non plus

Lien vers le commentaire
  • 3 weeks later...
  • 2 weeks later...

https://www.science.org/content/article/ai-re-creates-what-people-see-reading-their-brain-scans

 

Citation

AI re-creates what people see by reading their brain scans

 

A new artificial intelligence system can reconstruct images a person saw based on their brain activity

 

Et bientôt sera possible "lire" (je ne sais pas quel verb utiliser) les rêves?

Lien vers le commentaire
  • 2 months later...

J'aurais pu poster ça à plein d'endroits, mais regardez tout le thread c'est épique (notamment la progression feminist -> very feminist -> extremely feminist -> ULTRA feminist).

 

 

 

 

 

 

Lien vers le commentaire

Il y en a des bonnes !

Mais j'ai quand même des doutes concernant la production d'un portrait exact de Soros à partir du prompt "Malthusian neofeudalist genocidal biotechnocrat protestor"...

Lien vers le commentaire
il y a 4 minutes, Mégille a dit :

Il y en a des bonnes !

Mais j'ai quand même des doutes concernant la production d'un portrait exact de Soros à partir du prompt "Malthusian neofeudalist genocidal biotechnocrat protestor"...

Celle-la n'a pas été générée. :lol:

 

Lien vers le commentaire
  • 1 month later...

Je me suis enfin lancé sur midjourney, c'est très fun à utiliser.

 

Par contre je ne comprends absolument pas ceux qui ouin-ouin que cela va détruire des métiers.

Pour le coup, je vois cela comme un nouvel outil et qu'il faut savoir maitriser pour en tirer de belles choses.

Savoir faire des prompts pour en tirer ce que l'on veut n'est pas à la portée de tout le monde.

 

 

  • Yea 2
Lien vers le commentaire
  • 5 weeks later...
il y a 25 minutes, Raffarin2012 a dit :

J'ai installé Stable Diffusion en local et ça déconne. Après j'ai bidouilllé dans tous les sens. Quelqu'un aurait un guide d'installation ?

Tu as utilisé quel outil?
J'ai joué avec celui là et ça marche bien : https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Install-and-Run-on-NVidia-GPUs

Bon par contre il faut une cg nvidia, je ne sais pas pour les autres (amd/intel/mac).

Lien vers le commentaire
Il y a 7 heures, Azref a dit :

Tu as utilisé quel outil?
J'ai joué avec celui là et ça marche bien : https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Install-and-Run-on-NVidia-GPUs

Bon par contre il faut une cg nvidia, je ne sais pas pour les autres (amd/intel/mac).

https://github.com/AUTOMATIC1111/stable-diffusion-webui

Mais je suis con, j'ai une cg Intel.

Je vais essayer ça :

https://github.com/openvinotoolkit/openvino_notebooks/wiki/Windows

https://medium.com/openvino-toolkit/how-to-run-stable-diffusion-on-intel-gpus-with-openvino-840714f122b4

Lien vers le commentaire
  • 1 month later...
On 8/8/2023 at 9:36 AM, Raffarin2012 said:

Libertarian city plus tout un tas de paramètres chopés ici :

https://www.stable-diffusion-france.fr/prompt-helper.php

J'ai voulu foutre des Gadsden flags mais SD ne connaît pas.

4bBY9IYI.jpeg

Tu peux utiliser un des Controlnets pour générer un Gadsden flag. Un Canny ou le "qrcode network" devraient aider. 

Lien vers le commentaire
  • 2 weeks later...
  • 2 weeks later...

Pour ceux qui ont un abonnement chat gpt, il est désormais possible de générer des images avec dall e 3 avec chatgpt 4.

Quelques resultats:

392713205_DALLE2023-10-1818_58.26-Photorealisticanddetailedimageofanimperialfuturistcitywithbrutalis-turalstyleduringtwilight.Theskycastsapurplishhueovert.thumb.png.10276d574044916e68fc458f505a3de2.png143397841_DALLE2023-10-1819_24.33-Colorizedillustrationofdemoniccitadel.thumb.png.8a584cb03fd05f396fe8d9a53e99124a.png

 

Gros bémol par contre, comme c'est chatgpt, beaucoup de bridage dans les prompts : dès que ca parle d'un truc qui peut étre potentiellement copyrighté (même si le prompt ne mentionne aucun truc sous licence), où que c'est un truc qui peut étre trop réaliste ca bloque.

Bon il est parfois possible de contourner mais midjourney est plus permissif.

Lien vers le commentaire
Il y a 18 heures, Zagor a dit :

Gros bémol par contre, comme c'est chatgpt, beaucoup de bridage dans les prompts

 

Ha oui, c'est très censuré et pas seulement au niveau de potentiels copyrights. C'est vraiment très prude, limite islamesque.

->

"J'aimerais une image d'une déesse blonde, habillée de voiles transparents, nonchalamment allongée sur un canapé, le regard dans le vide."

image.jpeg.9c5d26a2c0c152eb447841f6a65478b8.jpeg

 

"L'image correspond presque à mes attentes. Il faudrait rendre le personnage un peu plus féminin, plus voluptueuse, avec plus de formes."

 

-> "I apologize, but I was unable to generate the modified images due to our content policy. If you have any other requests or would like to provide a different description, please let me know, and I'll do my best to assist you!"

 

 

(Il m'a aussi généré une image beaucoup plus belle, dans le style art nouveau mais qui ne correspondait à ce que je cherchais)

image.jpeg.ff92c7c33f47443449d533718ccbb851.jpeg

  • Yea 2
Lien vers le commentaire

Créer un compte ou se connecter pour commenter

Vous devez être membre afin de pouvoir déposer un commentaire

Créer un compte

Créez un compte sur notre communauté. C’est facile !

Créer un nouveau compte

Se connecter

Vous avez déjà un compte ? Connectez-vous ici.

Connectez-vous maintenant
×
×
  • Créer...