Adaptive Whitening Coloring Style Injection (AWCSI)
Dans le cadre des séminaires étudiants de l’IID, conférence d’Antoine Dufour, étudiant à la maîtrise en génie électrique à l’Université Laval, sur l’introduction d’un module WCT qui peut être utilisé en remplacement des blocs AdaIN dans les architectures GAN populaires existantes et présentons son impact sur les tâches de génération.
Présentation de la conférence
Dans la génération et la manipulation d’images basées sur GAN, l’injection de style par Adaptive Instance Normalization (AdaIN) est devenue la norme de facto pour paramétrer la génération avec une représentation latente du domaine de l’image. AdaIN fonctionne en modulant les statistiques des caractéristiques de l’image : il normalise d’abord les caractéristiques en soustrayant leur moyenne et en divisant par leur écart type puis il injecte un vecteur de style par l’inverse de cette opération.
Bien que cette méthode ait été utilisée avec succès dans une variété de scénarios de traduction d’image à image, la représentation statistique d’AdaIN est limitée en ce qu’elle ne prend pas en compte les corrélations entre les caractéristiques. Cependant, dans la littérature sur le transfert de style, la transformation de blanchiment et de coloration (WCT) est plutôt devenue l’approche privilégiée car elle rend pleinement compte de ces corrélations. Malheureusement, malgré ses performances en matière de transfert de style, l’utilisation du WCT n’a jusqu’à présent pas été explorée de manière approfondie pour l’injection de style.
Dans ce travail, nous comblons cette lacune en remplaçant AdaIN par un WCT explicite pour l’injection de style dans les GAN. Plus précisément, nous introduisons un module WCT qui peut être utilisé en remplacement des blocs AdaIN — sans aucun autre changement — dans les architectures GAN populaires existantes et présentons son impact sur les tâches de génération. Dans la génération d’images conditionnelles, où l’espace latent est destiné à représenter le style des images, nous constatons que le blanchiment aide à s’assurer que l’espace ne code que des informations stylistiques, ce qui permet au contenu de l’image conditionnelle d’être plus visible. Nous démontrons les performances de notre méthode sur StarGANv2 (pour la génération d’images conditionnelles) en utilisant AFHQ.
Restons en contact!
Vous souhaitez être informé des nouvelles et activités de l'IID? Abonnez-vous dès maintenant à notre infolettre mensuelle.