DALL-E et autres modèles générateurs d'images et de vidéos

Sekonda · 20 janvier 2023

La génération de vidéos s'améliore très vite

Lancelot · 31 janvier 2023

Fun fact : craiyon a du mal avec les jeux de mots en français.

ttoinou · 31 janvier 2023

Le 21/12/2022 à 19:45, Lancelot a dit :

Il n'y a pas de copie des images dans le modèle (l

Tiens donc, un nouveau papier qui parle exactement de ce que je disais. Mon bullshitomètre fonctionne à merveille

Citation

Image diffusion models such as DALL-E 2, Imagen, and Stable Diffusion have attracted significant attention due to their ability to generate high-quality synthetic images. In this work, we show that diffusion models memorize individual images from their training data and emit them at generation time. With a generate-and-filter pipeline, we extract over a thousand training examples from state-of-the-art models, ranging from photographs of individual people to trademarked company logos. We also train hundreds of diffusion models in various settings to analyze how different modeling and data decisions affect privacy.

Lancelot · 31 janvier 2023

Quote

To begin, we propose and implement new definitions for “memorization” in image models.

[...]

Most existing literature on training data extraction focuses on text language models, where a sequence is said to be “extracted” and “memorized” if an adversary can prompt the model to recover a verbatim sequence from the training set [11, 41]. Because we work with high-resolution images, verbatim definitions of memorization are not suitable. Instead, we define a notion of approximate memorization based on image similarity metrics.

Figure 3 shows a subset of the extracted images that are reproduced with near pixel-perfect accuracy; all images have an `2 difference under 0.05. (As a point of reference, re-encoding a PNG as a JPEG with quality level 50 results in an `2 difference of 0.02 on average.)

Ça mémorise selon leur nouvelle définition de mémoriser qui s'apparente plutôt à "ressembler". Parce que, comme ils le disent eux-mêmes, selon la définition normale c'est trivialement impossible. Ce qui est exactement ce que je disais plus haut.

Et qu'est-ce qu'ils en disent de leur définition justement comparé à la littérature ?

Quote

This paper covers a very restricted definition of “memorization”: whether diffusion models can be induced to generate near-copies of some training examples when prompted with appropriate instructions. We will describe an approach that can generate images that are close approximations of some training images (especially images that are frequently represented in the training dataset through duplication or other means). There is active discussion within the technical and legal communities about whether the presence of this type of “memorization” suggests that generative neural networks “contain” their training data.

If we search for images that are bit-for-bit identically duplicated in the training dataset, we would significantly undercount the true rate of duplication. Instead, we account for near-duplication.

Bref ils font ce que je faisais avec la Joconde (c'est à dire exposer de l'overfitting) mais de manière plus systématique/formalisée, ce qui est un travail utile je suppose.

Quote

To reduce the computational load of our attack, as is done in [65], we bias our search towards duplicated training examples because these are orders of magnitude more likely to be memorized than non-duplicated examples [47, 41].

Donc comment ils font exactement ? D'abord ils identifient les 350 000 images qui sont répétées le plus de fois dans le training set. Ensuite ils choppent les descriptions de ces images et les utilisent comme prompts pour générer 500 images avec stable diffusion "We generate 500 candidate images for each text prompt to increase the likelihood that we find memorization." Ensuite ils regardent si les 500 images générées contiennent un sous ensemble d'images qui se ressemblent beaucoup, auquel cas il y a suspicion de "mémorisation". Ils comparent ensuite ces exemplaires aux images source soit selon une définition statistique soit à l’œil et trouvent que... roulement de tambour... 109 images sont susceptibles d'être recopiées. La plupart étant présentes plus de 100 fois dans la base de donnée d'entraînement avec une moyenne (au pifomètre) autour de 1000 fois (donc autant te dire que ton dessin présent une fois au fin fond de deviantart est en sécurité).

Quote

While we identify little Eidetic memorization for k < 100, this is expected due to the fact we choose prompts of highly-duplicated images (nonobtant que tu nous as dit juste avant qu'elles étaient plus susceptibles d'être mémorisées de plusieurs ordres de magnitudes... NDLancelot). Note that at this level of duplication, the duplicated examples still make up just one in a million training examples.

Ensuite la comparaison entre les modèles est intéressante.

Quote

Thus, Imagen appears less private than Stable Diffusion both on duplicated and non-duplicated images. We believe this is due to the fact that Imagen uses a model with a much higher capacity compared to Stable diffusion, which allows for more memorization [9]. Moreover, Imagen is trained for more iterations and on a smaller dataset, which can also result inhigher memorization.

À mon avis le second facteur est bien plus important que le premier, et les deux interagissent pour créer de l'overfitting.

Enfin ils entraînent leurs propres modèles ce qui m'intéresse moins parce que comme je viens de le dire ils vont évidemment trouver plus d'overfitting avec un training set plus réduit.

Lancelot · 31 janvier 2023

Je serais curieux de voir ce que donne leur truc avec Midjourney qui est connu pour avoir un "style" plus prononcé.

ttoinou · 31 janvier 2023

il y a 12 minutes, Lancelot a dit :

Ça mémorise selon leur nouvelle définition de mémoriser qui s'apparente plutôt à "ressembler".

Ben c'est ce que je dis aussi. Ce qui compte pour les gens qui formulent ce genres de critiques sur ces nouveaux algorithmes, c'est que ca ressemble pour eux, pour nous les humains. Définition toute relative et floue et pas encore bien formulable de façon carrée avec des formules de maths

Lancelot · 31 janvier 2023

En attendant ton bullshitomètre qui te dit que les modèles contiennent des versions compressées des datasets d'entraînement te raconte toujours des conneries.

ttoinou · 31 janvier 2023

Je faisais une analogie. Je sais bien que c'est pas un zip. Et sinon on peut utiliser ces types de nouveaux algorithmes pour compresser des images, vidéos, images etc. ca fait plusieurs années que c'est en recherche en même temps donc je sors pas ca de mes fesses non plus

Jean_Karim · 20 février 2023

Je découvre les ai text to speech :

Lancelot · 27 février 2023

Nouvelle version de craiyon, et on ne me dit rien !

Meilleure résolution ? Meilleurs visages ?

Ah oui pas mauvais.

Enfin bon il ne faut pas trop rêver.

Lugaxker · 28 février 2023

Le 27/02/2023 à 12:28, Lancelot a dit :

Révélation

Je suis le seul à trouver ces images de main cauchemardesques ?

Lancelot · 8 mars 2023

Cauchemardesque ? 😮

Spoiler

Rincevent · 9 mars 2023

Spoiler, par pitié.

Lancelot · 9 mars 2023

Ok je spoilerise ces images qu'on ne saurait voir :mrgreen:

Hugh · 13 mars 2023

https://www.science.org/content/article/ai-re-creates-what-people-see-reading-their-brain-scans

Citation

AI re-creates what people see by reading their brain scans

A new artificial intelligence system can reconstruct images a person saw based on their brain activity

Et bientôt sera possible "lire" (je ne sais pas quel verb utiliser) les rêves?

Adrian · 16 mars 2023

La fin d'instagram ?

Lancelot · 5 juin 2023

J'aurais pu poster ça à plein d'endroits, mais regardez tout le thread c'est épique (notamment la progression feminist -> very feminist -> extremely feminist -> ULTRA feminist).

Mégille · 5 juin 2023

Il y en a des bonnes !

Mais j'ai quand même des doutes concernant la production d'un portrait exact de Soros à partir du prompt "Malthusian neofeudalist genocidal biotechnocrat protestor"...

Rincevent · 5 juin 2023

il y a 4 minutes, Mégille a dit :

Il y en a des bonnes !

Mais j'ai quand même des doutes concernant la production d'un portrait exact de Soros à partir du prompt "Malthusian neofeudalist genocidal biotechnocrat protestor"...

Celle-la n'a pas été générée. :lol:

Marlenus · 8 juillet 2023

Je me suis enfin lancé sur midjourney, c'est très fun à utiliser.

Par contre je ne comprends absolument pas ceux qui ouin-ouin que cela va détruire des métiers.

Pour le coup, je vois cela comme un nouvel outil et qu'il faut savoir maitriser pour en tirer de belles choses.

Savoir faire des prompts pour en tirer ce que l'on veut n'est pas à la portée de tout le monde.

Raffarin2012 · 6 août 2023

J'ai installé Stable Diffusion en local et ça déconne. Après j'ai bidouilllé dans tous les sens. Quelqu'un aurait un guide d'installation ?

Azref · 6 août 2023

il y a 25 minutes, Raffarin2012 a dit :

J'ai installé Stable Diffusion en local et ça déconne. Après j'ai bidouilllé dans tous les sens. Quelqu'un aurait un guide d'installation ?

Tu as utilisé quel outil?
J'ai joué avec celui là et ça marche bien : https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Install-and-Run-on-NVidia-GPUs

Bon par contre il faut une cg nvidia, je ne sais pas pour les autres (amd/intel/mac).

Raffarin2012 · 7 août 2023

Il y a 7 heures, Azref a dit :

Tu as utilisé quel outil?
J'ai joué avec celui là et ça marche bien : https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Install-and-Run-on-NVidia-GPUs

Bon par contre il faut une cg nvidia, je ne sais pas pour les autres (amd/intel/mac).

https://github.com/AUTOMATIC1111/stable-diffusion-webui

Mais je suis con, j'ai une cg Intel.

Je vais essayer ça :

https://github.com/openvinotoolkit/openvino_notebooks/wiki/Windows

https://medium.com/openvino-toolkit/how-to-run-stable-diffusion-on-intel-gpus-with-openvino-840714f122b4

Raffarin2012 · 7 août 2023

Quel merdier.

Raffarin2012 · 7 août 2023

Bon bah c'est pas mal :

https://bit.ly/45kcBTG

Raffarin2012 · 8 août 2023

Libertarian city plus tout un tas de paramètres chopés ici :

https://www.stable-diffusion-france.fr/prompt-helper.php

J'ai voulu foutre des Gadsden flags mais SD ne connaît pas.

WBell · 26 septembre 2023

On 8/8/2023 at 9:36 AM, Raffarin2012 said:

Libertarian city plus tout un tas de paramètres chopés ici :

https://www.stable-diffusion-france.fr/prompt-helper.php

J'ai voulu foutre des Gadsden flags mais SD ne connaît pas.

Tu peux utiliser un des Controlnets pour générer un Gadsden flag. Un Canny ou le "qrcode network" devraient aider.

Waren · 9 octobre 2023

Un bon concurrent de Dall-E, en beaucoup plus simple et aussi moins cher. La version gratuite vaut le détour.

Je m'amuse beaucoup avec, moi qui ne suis en rien artiste.

https://leonardo.ai/

Zagor · 18 octobre 2023

Pour ceux qui ont un abonnement chat gpt, il est désormais possible de générer des images avec dall e 3 avec chatgpt 4.

Quelques resultats:

Gros bémol par contre, comme c'est chatgpt, beaucoup de bridage dans les prompts : dès que ca parle d'un truc qui peut étre potentiellement copyrighté (même si le prompt ne mentionne aucun truc sous licence), où que c'est un truc qui peut étre trop réaliste ca bloque.

Bon il est parfois possible de contourner mais midjourney est plus permissif.

Calembredaine · 19 octobre 2023

Il y a 18 heures, Zagor a dit :

Gros bémol par contre, comme c'est chatgpt, beaucoup de bridage dans les prompts

Ha oui, c'est très censuré et pas seulement au niveau de potentiels copyrights. C'est vraiment très prude, limite islamesque.

->

"J'aimerais une image d'une déesse blonde, habillée de voiles transparents, nonchalamment allongée sur un canapé, le regard dans le vide."

image.jpeg.9c5d26a2c0c152eb447841f6a65478b8.jpeg

"L'image correspond presque à mes attentes. Il faudrait rendre le personnage un peu plus féminin, plus voluptueuse, avec plus de formes."

-> "I apologize, but I was unable to generate the modified images due to our content policy. If you have any other requests or would like to provide a different description, please let me know, and I'll do my best to assist you!"

(Il m'a aussi généré une image beaucoup plus belle, dans le style art nouveau mais qui ne correspondait à ce que je cherchais)

image.jpeg.ff92c7c33f47443449d533718ccbb851.jpeg

DALL-E et autres modèles générateurs d'images et de vidéos

Messages recommandés

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Créer un compte ou se connecter pour commenter

Créer un compte

Se connecter

Contenu similaire