L’amélioration des photos dans les films et les émissions de télévision est souvent ridiculisé parce qu’il n’est pas crédible.mais la recherche en réel amélioration des photos est s’insinue de plus en plus dans le domaine de la science-fiction. Il suffit de jeter un coup d’œil à la dernière technologie de mise à l’échelle des photos d’IA de Google.
Dans un article intitulé « Génération d’images haute fidélité à l’aide de modèles de diffusion »Publié sur le blog de Google AI, les chercheurs de Google au sein de l’entreprise Brain Team partage les nouvelles percées qu’elle a réalisées dans le domaine de la super-résolution des images.
Article in @petapixel about @GoogleAI's SR3 Image Super-resolution method.
Neural network-based photo upscaling will likely be commonplace in most smartphones in the near future.https://t.co/7TKE3jeTv2
— hardmaru (@hardmaru) September 1, 2021
C’est quoi le Google SR3 ?
Dans la super-résolution d’image, un modèle d’apprentissage automatique est formé pour transformer une photo à faible résolution en une photo détaillée à haute résolution. Les applications potentielles de cette technique vont de la restauration de vieilles photos de famille à l’amélioration de l’imagerie médicale.
Google a exploré un concept appelé « modèles de diffusion », qui a été proposé pour la première fois en 2015, mais qui, jusqu’à récemment, a pris le pas sur une famille de méthodes d’apprentissage profond appelée « modèles génératifs profonds. » L’entreprise a constaté que ses résultats avec cette nouvelle approche battent les technologies existantes lorsqu’on demande à des humains de juger.
La première approche est appelée SR3ou Super-Résolution via un raffinement répété. Voici l’explication technique :
« SR3 est un modèle de diffusion à super-résolution qui prend en entrée une image à basse résolution et construit une image à haute résolution correspondante à partir de bruit pur », écrit Google. « Le modèle est entraîné sur un processus de corruption d’image dans lequel du bruit est progressivement ajouté à une image à haute résolution jusqu’à ce qu’il ne reste que du bruit pur.
« Il apprend ensuite à inverser ce processus, en partant du bruit pur et en supprimant progressivement le bruit pour atteindre une distribution cible par le guidage de l’image basse résolution d’entrée. »
Les résultats de mise à l’échelle des photos par intelligence artificielle
Image Super-Resolution via Iterative Refinement
Project website: https://t.co/OHwKWTvYBI
Blog post: https://t.co/56ZsXF3LUk pic.twitter.com/w5hjmk77mM— hardmaru (@hardmaru) September 1, 2021
SR3 s’est avéré efficace pour l’upscaling de portraits et d’images naturelles. Lorsqu’il est utilisé pour effectuer une conversion ascendante 8x sur des visages, il présente un « taux de confusion » de près de 50%, alors que les méthodes existantes ne vont que jusqu’à 34%, ce qui suggère que les résultats sont effectivement photo-réalistes.
Après avoir constaté l’efficacité de SR3 pour l’upscaling de photos, Google a décidé d’aller plus loin avec une deuxième approche appelée MDPun modèle de diffusion conditionnel par classe.
« CDM est un modèle de diffusion conditionnel à la classe entraîné sur les données ImageNet pour générer des images naturelles à haute résolution », écrit Google. « Comme ImageNet est un ensemble de données difficile et à forte entropie, nous avons construit CDM comme une cascade de plusieurs modèles de diffusion. Cette approche en cascade consiste à enchaîner plusieurs modèles génératifs sur plusieurs résolutions spatiales : un modèle de diffusion qui génère des données à une faible résolution, suivi d’une séquence de modèles de diffusion à super-résolution SR3 qui augmentent progressivement la résolution de l’image générée jusqu’à la plus haute résolution. »
SR3 is mindblowing when comparing to "last season" ML super resolution techniques like the one built-in to @pixelmator pic.twitter.com/uTf8xqUoRl
— Joonas Lehtinen (@joonaslehtinen) August 29, 2021
Google a publié un ensemble d’exemples montrant des photos à basse résolution mises à l’échelle en cascade. Une photo 32×32 peut être améliorée à 64×64, puis 256×256. Une photo 64×64 peut être mise à l’échelle en 256×256 puis en 1024×1024.
Comme vous pouvez le constater, les résultats sont impressionnants et les photos finales, malgré quelques erreurs (comme des trous dans les montures de lunettes), passeraient probablement pour des photos originales au premier coup d’œil pour la plupart des spectateurs.
« Avec SR3 et CDM, nous avons poussé les performances des modèles de diffusion à l’état de l’art sur les repères de super-résolution et de génération d’ImageNet conditionnée par classe », écrivent les chercheurs de Google. « Nous sommes impatients de tester davantage les limites des modèles de diffusion pour une grande variété de problèmes de modélisation générative. »
- Le covering : une nouvelle innovation tendance pour mettre en avant sa voiture - 16 décembre 2021
- Achat de tabac en ligne : que dit la loi en France ? Quel site utiliser ? - 1 décembre 2021
- Les meilleurs idées cadeaux de Noël pour les streamers Twitch - 26 novembre 2021