Jump to content

DALL-E et autres modèles générateurs d'images et de vidéos


Recommended Posts

  • 2 weeks later...

Tiens, ça me fait penser ; si certains n'ont rien à faire de leur réputation et sont capables de lever quelques dizaines de millions. Le business model du futur, c'est probablement la pornographie générée par AI. Tu tapes ton scénario dans la barre de recherche et ça te génère une vidéo.

Link to comment
il y a 29 minutes, Bézoukhov a dit :

Tiens, ça me fait penser ; si certains n'ont rien à faire de leur réputation et sont capables de lever quelques dizaines de millions. Le business model du futur, c'est probablement la pornographie générée par AI. Tu tapes ton scénario dans la barre de recherche et ça te génère une vidéo.

Compte tenu des avancées, ça risque d'arriver pour les femmes avant d'arriver pour les hommes (en d'autres termes, le texte est plus aisé que la vidéo).

Link to comment

Il faut spécifier ce dont vous parlez, mais des trucs du genre "dessin non photoréaliste de pin-up qui pose de manière pas trop complexe" ça existe déjà. Je n'ai aucun doute que quelqu'un quelque part entraîne une version de stable diffusion sur des "poses complexes", quand au "non photoréaliste" l'uncanny valley se réduit de jour en jour. Pour l'animation on est aux balbutiements mais il y a de quoi répondre à des prompts comme "génère la frame suivante sachant que la caméra à fait tel mouvement".

Link to comment

J’attends depuis longtemps ce moment fatal pour le concept de propriété intellectuelle où tout le monde aura accès à des générateurs de contenu tendant à produire la même chose dans les mêmes circonstances :D Toutes les franchises auront leur litanie de déclinaisons de fan-fictions de qualité comparable au canon, tous les chanteurs à la mode auront de parfaits clones artificiels (y compris ceux morts depuis longtemps), tous les genres musicaux seront explorés et répliqués à l’infini…

  • Ancap 1
Link to comment

Bienvenue dans la Post-scARTcity

 

 

Bon et pour le prono je suis déjà sur un serveur discord de waifu générées par SD donx bon. 

 

 

Killer app ça sera generation de porn par formulaire (nb de participants, durée, physiques, visages, ethnicities, kink, pratiques, décor, etc...) et vu les avancées que je vois sur l'IA je pense qu'on est à moins de 10 ans.  Pratiquement toutes les semaines, entre les languages models et les générateurs d'images, je vois des trucs hallucinant que j'aurais cru nécessiter encore 15 ans avant d'arriver. 

 

 

J'ai l'impression qu'on vient juste de passer le bord de la crête et qu'on est pile poil à la fin du "gradually" et au début du "suddenly" 

Link to comment

N'oubliez pas que l'IA est basé sur du contenu humain, en l'occurence ici la description textuelle de ce qu'il se passe dans le contenu. 

 

il y a 24 minutes, NoName a dit :

Killer app ça sera generation de porn par formulaire (nb de participants, durée, physiques, visages, ethnicities, kink, pratiques, décor, etc...) et vu les avancées que je vois sur l'IA je pense qu'on est à moins de 10 ans.  Pratiquement toutes les semaines, entre les languages models et les générateurs d'images, je vois des trucs hallucinant que j'aurais cru nécessiter encore 15 ans avant d'arriver. 

Avec du contenu en entrée proprement décrit, vu les améliorations en GPU je dirais d'ici 2 ans un contenu un peu bizarre, d'ici 4 ans quelque chose de réaliste

Link to comment

Quant à savoir si on a le droit de publier une image sans le watermark, la réponse est floue.

 

Edit : c'est ok.

 

Citation

Commercialization Questions

Can I remove the watermark?
Yes.

https://help.openai.com/en/articles/6468065-dall-e-content-policy-faq

 

Et pour les crédits :

Citation

If you'd like to cite DALL·E, we'd recommend including wording such as "This image was created with the assistance of DALL·E 2" or "This image was generated with the assistance of AI."

https://help.openai.com/en/articles/6468065-dall-e-content-policy-faq

Link to comment

J'ai vu des trucs assez impressionnants générés, que ce soit dans un style photoréaliste, ou "dessiné", mais peut-on imaginer le même type de technologies appliqué à la musique?

De même que taper "Personnage dans le style d'Akira" peut donner un truc sympa, "musique jazz" par exemple?

J'ai cru comprendre que le principal soucis est la description des données d'entrée, et autant pour une image je vois bien comment on arrive à quelque chose de bien décrit, comment faire pour du son?

Link to comment

Ma découverte de prompt du jour :
 

Spoiler

GzaQaCc.png

 

lkP3PyF.png


 

It just works, ça sort des illustrations d'horreur à la pelle. Alors que "sunny uncanny valley" donne juste des visages et "cloudy uncanny valley" donne juste des nuages.

Link to comment

Alors celui-ci est un peu technique.

 

Dans un modèle comme DALL-E, on a en input une image de bruit visuel et un prompt. Grossièrement, le modèle marche en "essayant de voir" le prompt dans le bruit pour arriver à une image finale. Mon questionnement était le suivant : le modèle a-t-il un point fixe ? En d'autres termes, existe-t-il un prompt tel que l'image finale soit la même que le bruit initial ? Je pense que si on prend la question au sens strict la réponse est non. Par contre on peut essayer de trouver un prompt qui transforme le bruit visuel initial en un autre bruit visuel (une sorte de point fixe perceptuel). Il se trouve que c'est assez difficile parce que le modèle a très envie d'ajouter de la structure.

 

Voici mon meilleur exemple pour l'instant :

 

2hZ1sNB.jpg

 

Pour comparaison :

 

0*v12mDJwIKWn-_y8L.png

  • Yea 1
Link to comment

Stablediffusion est en release 2.0

Part rapport aux versions 1.X, ils ont supprimé beaucoup d'images NSFW, ainsi que les artistes numériques trop connus. 

Les gens râlent : par effet de bord, ça empêche le modèle de construire des représentations "efficaces" des humains (par manque d'images où on voit "l'anatomie", sans que ça soit du porn). 

Link to comment
  • 2 weeks later...

Étant enfant j'avais lu une nouvelle de SF d'un auteur classique, impossible de me souvenir de l'auteur (c'était peut être Asimov?) ou du titre de la nouvelle, qui grosso modo portait sur un robot (ou une AI?) qui devenait tellement bon à l'art qu'il jouait mieux que n'importe quel humain, (je crois que c'était du piano, mais je ne suis plus sûr, ça remonte). Je me souviens qu'enfant j'avais compris que ça portait sur la question de savoir si les humains écouteraient encore d'autres humains interpréter de la musique si une machine peut le faire mieux... Je me souviens que j'avais trouvé ça glaçant.

 

Un liborgien arriverait-il a identifier la nouvelle? J'aimerais la relire. C'est certainement un auteur anglophone, probablement US.

Link to comment

J'avais entendu que les signatures d'artistes dont les œuvres avaient été pompées pour les databases d'IA ressurgissaient en artefact dans les images de synthèses.

En retestant vite fait, je viens d'en voir une occurrence, regardez en bas à droite.

signature.jpeg.a1ceb207e05869ebe24699772ac079cd.jpeg

Link to comment

Avicsshsesivrglincsbioir, mon artiste préféré :mrgreen:

Bon oui ça montre que les watermarks sont un élément suffisamment saillant dans la base de données d'entraînement pour que leur existence soit reflétée dans le modèle. Ce qui peut être un problème ou pas selon la perspective (est-ce qu'un copyright peut empêcher de regarder une œuvre ou de s'en inspirer ?).

  • Haha 1
Link to comment

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
×
×
  • Create New...