Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Vermeille · Message par **Vermeille** » mer. mai 24, 2023 2:13 am

Cédric Jeanneret a écrit : ↑mar. mai 23, 2023 4:07 pm
Vermeille a écrit : ↑lun. mai 22, 2023 10:04 pm Bonjour à tous

Merci pour vos retours ! Je suis l'auteur de l'article en question. Si vous avez des questions ou que vous souhaitez approfondir, je vais rester quelques jours ici s'il y a des conversations

Des bisous !

j'en aurai bien une.
Dans les IA génératrices d'image, qui / comme est fait le codage des images ?
Ce que je veux dire c'est comment l'IA fait pour passer d'une description par mot clef à une image.
Il faut bien qu'à un moment une description de l'image soit faite.

Les liens et les explications qui ont déjà été données sont correctes. Je ne vais donc pas revenir dessus : bruitage d'une image, et un réseau de neurones instruit à la débruiter, pour finir avec une IA capable de "débruiter" (halluciner) une image en partant de bruit pur. Pour ça, l'analogie que j'aime bien, c'est ce qu'on fait nous en hallucinant des paréidolies dans les nuages ou les tâches de Rorschach : ce sont des signaux aléatoires, pourtant on peut, avec l'imagination, y retrouver des images.

En revanche, ce que ces explications n'explicitent pas trop, c'est comment le texte est utilisé. Et en fait c'est assez intéressant, surtout si tu joues avec Stable Diffusion, parce que ça permet de comprendre ce que fait le paramètre CFG

.

Déjà, petit récap sur ce que veut dire "entraîner" une IA. Au début, on a un réseau de neurones artificiel qui ne "sait" rien. On lui donne une tâche, ici débruiter une image bruitée. Il produit un résultat, qui n'a évidemment aucun sens au début puisque le réseau ne sait même pas ce qu'il doit faire. On compare ensuite la réponse produite à la réponse attendue, et, avec des maths cool (la rétropropagation du gradient de l'erreur, ou backprop comme disent les cool kids), on est capable de dire que ce neurone aurait dû s'activer plus, celui là moins, et d'adapter les connexions en conséquence. C'est dans ces connexions qu'on modifie exemple par exemple au fil de l'entraînement que la connaissance est stockée. Une fois l'entraînement fait, on a un modèle prêt à utilisation

Pendant l'entraînement du modèle donc, on lui demande de débruiter l'image en lui fournissant parfois la légende de celle-ci. Et ça, c'est très intelligent, pour deux raisons : 1) Si l'IA sait déjà ce qu'est l'objet mentionné, alors ça lui permet de fournir un débruitage plus pertinent, le texte sert de guide, l'image débruitée est moins erronée, et l'IA apprend un débruitage encore plus précis. 2) Si l'IA ne sait pas ce qui est mentionné dans le texte, eh bien... ça le lui fait apprendre. C'est super intuitif à comprendre. Si je te demande de me dessiner un chat et que t'oublies les moustaches, quand je vais te dire "raté, t'as oublié les moustaches", je renforce ta connaissance du chat. Si je te donne un presque-dessin de chat et que je te demande de le compléter sans te dire de quoi il s'agit et que tu fais un chien et que je te signalerai ton erreur, tu vas chercher dans le dessin des indices qui pouvaient te laisser deviner que c'était effectivement un chat, et te rendre plus sensible à certains détails.

Bref, maintenant notre modèle est entraîné, il est capable de débruiter une image, guidé par un texte, ou pas. Ici, tout naturellement, on se dit qu'exploiter l'IA guidée par le texte c'est la bonne idée, et que le travail est fini. Et effectivement pendant un moment les chercheurs n'avaient pas mieux. Et les chercheurs ont été très déçus, parce que le lien texte-image générée était bifbof. Grave déçu, c nul, rendez-moi mon argent.
Et puis y a un gars qui a eu une idée vraiment bête et très intelligente à la fois pour avoir des résultats vraiment sous stéroïdes. La technique s'appelle Classifier-Free Guidance (CFG) pour des raisons historiques qu'il n'est vraiment pas intéressant de développer, mais je le mentionne parce que le param s'appelle comme ça dans Stable Diffusion.

Donc, la CFG, c'est quoi ? Le type, pas con, s'est aperçu qu'on pouvait débruiter la même image deux fois : une fois en lui donnant le texte, et une fois en ne le donnant pas. Et qu'on pouvait regarder la différence entre les deux. Et que cette différence est très importante : c'est l'impact du texte dans l'image, c'est ce qu'il faut changer du débruitage de base pour conformer au texte. C'est la direction de conformité au texte. Et qu'on peut forcer l'amplitude de cette différence pour conformer encore plus au texte que la prédiction initiale. C'est laver plus blanc que blanc, c'est suivre le prompt encore plus que suivre le prompt, c'est "ok si je mets des moustaches ça fait un chat, mais vraiment je vais être zélé et je vais rajouter des pelotes de laine dans le fond, et si vraiment t'insistes encore je mets une gamelle Whiskas". Ce "à quel point j'extrapole dans la direction du prompt encore plus que ce que je devrais", c'est le CFG.

à gauche, CFG=1, à droite, CFG=10

Voilà, c'était très technique, mais dans les vulgarisations, personne n'en parle, et tout le monde reste sur sa faim sur l'aspect textuel.

PS: petit bonus cadeau : on peut aussi faire la différence entre deux prompts différents plutôt qu'entre un prompt et pas de prompt. Le second sert alors de prompt négatif pour décider de s'éloigner de quelque chose explicitement, plutôt que simplement de s'éloigner du cas général.

Altay · Message par **Altay** » mer. mai 24, 2023 9:53 am

Max Photo a écrit : ↑mar. mai 23, 2023 6:30 pm Avant j'étais partisan de dire que tous ce qui était retouché sur Instagram avec des filtres pour altéré la vérité n'était pas de la vraie photographi

C'est malheureusement illusoire. Tous les appareils photos effectuent des traitements, soit via le logiciel embarqué, soit tout bonnement parce que le matériel (lentille, CCD) est une forme de filtre. Notre cerveau interprète ce que perçoit nos yeux d'une façon différente de la réalité physique, et c'est ça que la photographie tente de reproduire. En fait, la sensibilité des cônes de nos yeux forme déjà un filtre ! La question est plutôt pourquoi on applique différents types de traitements et quel est l'effet recherché.

Carmody · Message par **Carmody** » mer. mai 24, 2023 12:07 pm

Altay a écrit : ↑mer. mai 24, 2023 9:53 am
Max Photo a écrit : ↑mar. mai 23, 2023 6:30 pm Avant j'étais partisan de dire que tous ce qui était retouché sur Instagram avec des filtres pour altéré la vérité n'était pas de la vraie photographi

C'est malheureusement illusoire. Tous les appareils photos effectuent des traitements, soit via le logiciel embarqué, soit tout bonnement parce que le matériel (lentille, CCD) est une forme de filtre. Notre cerveau interprète ce que perçoit nos yeux d'une façon différente de la réalité physique, et c'est ça que la photographie tente de reproduire. En fait, la sensibilité des cônes de nos yeux forme déjà un filtre ! La question est plutôt pourquoi on applique différents types de traitements et quel est l'effet recherché.

En l'occurence le traitement des appareils photos est fait par du HW embarqué, pas par du SW. Cela dit je dis surtout ça pour la ramener car ça ne change rien à ta remarque. Un collègue m'avait fait la réflexion que dès qu'une image était rentrée dans photoshop il la considérait comme truquée, je n'avais pas trop su quoi répondre à l'époque, alors que je retouchais régulièrement l'exposition et le contraste sous photoshop sans considérer que je truquais les images. Ensuite j'ai découvert l'ampleur de ce qui est fait dans les ISP (image signal processor) des appareils photos et téléphones et je ne suis plus d'accord avec cette vision binaire. Où placer la limite ? c'est une question compliquée, d'autant plus que plusieurs questions peuvent être posées, avec chacune leur pertinence.

Yusei · Message par **Yusei** » mer. mai 24, 2023 12:20 pm

Carmody a écrit : ↑mer. mai 24, 2023 12:07 pm Un collègue m'avait fait la réflexion que dès qu'une image était rentrée dans photoshop il la considérait comme truquée

En apprenant à faire du développement/tirage de photo argentique, j'ai réalisé à quel point les photos traditionnelles étaient aussi modifiées et retouchées par ces étapes. Ça n'a pas vraiment de sens de dire qu'une photo dont l'exposition a été modifiée sur Photoshop serait plus artificielle.

Vermeille · Message par **Vermeille** » mer. mai 24, 2023 3:24 pm

Carmody a écrit : ↑mer. mai 24, 2023 12:07 pm En l'occurence le traitement des appareils photos est fait par du HW embarqué, pas par du SW.

(Le Hardware aujourd'hui c'est juste des micropuces qui font tourner du software

)

Carmody · Message par **Carmody** » mer. mai 24, 2023 5:12 pm

Vermeille a écrit : ↑mer. mai 24, 2023 3:24 pm
Carmody a écrit : ↑mer. mai 24, 2023 12:07 pm En l'occurence le traitement des appareils photos est fait par du HW embarqué, pas par du SW.

(Le Hardware aujourd'hui c'est juste des micropuces qui font tourner du software )

ben non justement ;-)
En l'occurence, qu'un peu de software tourne dessus pour assurer de fonctions de configuration et de contrôle, oui. Tu peux aussi ajouter quelques algorithmes de type auto-exposition, balance des blancs, etc. Mais le traitement des pixels est fait par des opérateurs HW spécialisés (et c'est un peu mon métier depuis 15 ans).

Vermeille · Message par **Vermeille** » mer. mai 24, 2023 5:57 pm

Carmody a écrit : ↑mer. mai 24, 2023 5:12 pm
Vermeille a écrit : ↑mer. mai 24, 2023 3:24 pm
Carmody a écrit : ↑mer. mai 24, 2023 12:07 pm En l'occurence le traitement des appareils photos est fait par du HW embarqué, pas par du SW.

(Le Hardware aujourd'hui c'est juste des micropuces qui font tourner du software )

ben non justement ;-)
En l'occurence, qu'un peu de software tourne dessus pour assurer de fonctions de configuration et de contrôle, oui. Tu peux aussi ajouter quelques algorithmes de type auto-exposition, balance des blancs, etc. Mais le traitement des pixels est fait par des opérateurs HW spécialisés (et c'est un peu mon métier depuis 15 ans).

Bah écoute, si t'as un peu de temps un jour, ça m'intéresserait vraiment que tu m'en parles pendant un appel ou quoi. Je peux proposer en échange mes connaissances en IA

Néanmoins, si l'envie te prend de donner des bribes de connaissances ici pour corriger ou contextualiser mon imprécision, c'est avec plaisir que je te lirai.

Carmody · Message par **Carmody** » mer. mai 24, 2023 7:05 pm

Vermeille a écrit : ↑mer. mai 24, 2023 5:57 pm Bah écoute, si t'as un peu de temps un jour, ça m'intéresserait vraiment que tu m'en parles pendant un appel ou quoi. Je peux proposer en échange mes connaissances en IA Néanmoins, si l'envie te prend de donner des bribes de connaissances ici pour corriger ou contextualiser mon imprécision, c'est avec plaisir que je te lirai.

Je réponds en mp pour ne pas plus polluer ce thread. Si jamais d'autres sont intéressés il faudrait ouvrir un thread dédié au bon endroit (que j'ignore) et n'hésitez pas à me pinger.

cdang · Message par **cdang** » jeu. mai 25, 2023 1:16 pm

Moi, ce qui m'a surpris, c'est le développement de lentilles asphériques pour avoir des optiques de petite taille réduisant les aberrations. Certains travaillent sur des systèmes de diffraction par réseau.

https://www.ansys.com/fr-fr/blog/simpli ... et-demands

Kenji · Message par **Kenji** » jeu. juin 08, 2023 12:32 pm

Bonjour,
Une petite question de néophyte: est-il possible d'uploader plusieurs images dans un de ces logiciels pour créer ainsi une image combinée ? je pense à quelque chose d'un peu complexe, du style insérer un visage sur un corps par exemple.
Est-ce que c'est une fonctionnalité qui marche aussi sur les générateurs gratuits ?

Kenji

Ramentu · Message par **Ramentu** » jeu. juin 08, 2023 3:44 pm

Kenji a écrit : ↑jeu. juin 08, 2023 12:32 pm Bonjour,
Une petite question de néophyte: est-il possible d'uploader plusieurs images dans un de ces logiciels pour créer ainsi une image combinée ? je pense à quelque chose d'un peu complexe, du style insérer un visage sur un corps par exemple.
Est-ce que c'est une fonctionnalité qui marche aussi sur les générateurs gratuits ?

Kenji

Sur la version de Stable Diffusion que j'utilise, tu peux définir une zone dans une image et lui demander de retravailler juste cette zone sur base d'une autre image.

Barengil · Message par **Barengil** » ven. juil. 07, 2023 12:16 pm

N'étant pas sur stable , j'utilise la méthode de montage externe (logiciel image ) puis j'applique la modif en ligne après car cela économise des pts d'utilisation. Par exemple je n'aime pas les cheveux et l'oreille droite, je fais le montage puis je passe l'image sur DDG ( les variations générées tu les maitrises en fonction d'un pourcentage que tu appliques : montage

Orlov · Message par **Orlov** » dim. août 06, 2023 11:45 pm

Un exemple intéressant d'un éditeur qui se targue d'utiliser Stable Diffusion : pelgrane press pour Legions of Carcosa.
Je suis pas du tout convaincu par l'argumentation et persiste à penser que pour atteindre le résultat voulu, des illustrateurs humains auraient sûrement fait mieux.
Mais il y a quand même ces garde-fous pour une utilisation "éthique" :

To recap then the rules I used for Legions of Carcosa AI images were:

Images that clearly resemble the work of a public domain artist are acceptable.
Images that clearly resemble the work of an in-copyright artist are not.
Broad influence is as acceptable in this new platform as it would be in any other creative pursuit.

Sinon j'ai été amené sur ce site en suivant la discussion sur rpg.net au sujet des illustrations du Bigby's book of Giants. Elles ont fait scandale car générées par de l'IA. On a bien sûr d'abord accusé Hasbro mais l'illustrateur, Ilya Shkipin, a reconnu qu'il se servait de l'IA pour faire ses illustrations depuis trois ans. Ce qu'on semble découvrir du côté de WotC.
À lire ici.

Altay · Message par **Altay** » lun. août 07, 2023 1:11 pm

Je trouve l'argumentaire moyennement convaincant mais je trouve pertinent la réflexion qui est faite sur l'utilisation hybride de Stable Diffusion, pour altérer une photo ou une illustration sur laquelle on a soi-même les droits. C'est typiquement quelque chose que je pourrais envisager de faire dans mes propres productions.

Orlov a écrit : ↑dim. août 06, 2023 11:45 pm Je suis pas du tout convaincu par l'argumentation et persiste à penser que pour atteindre le résultat voulu, des illustrateurs humains auraient sûrement fait mieux.

La direction artistique d'un ensemble cohérent est difficile à atteindre avec des modèles génératifs. Le problème étant que les modèles sont particulièrement sensibles à la formulation du prompt : changer un mot peut parfois donner des résultats complètement différents.

DocDandy · Message par **DocDandy** » mer. sept. 13, 2023 4:22 pm

Je sais pas si ça avait été évoqué ici mais on a avec l'Etrange France un nouveau projet où les images venues d'IA ont une place importante.

L'argument utilisé par l'auteur est que, bien qu'utilisant Midjourney, il fait beaucoup de retouches.

https://etrange-france.fr/

CasusNO

Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Re: Casus Belli, niveau 3

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)

Re: Synthèse d'images (Dall-E, Imagen, Midjourney, StableDiffusion, etc.)