L'apprentissage automatique aide l'IA de Microsoft à colorier de manière réaliste la vidéo à partir d'une seule image

L'apprentissage automatique aide l'IA de Microsoft à colorier de manière réaliste la vidéo à partir d'une seule image
4.6 (92.73%) 33 votes


La colorisation d'un film est peut-être une forme d'art, mais c'est un modèle que les modèles commencent à comprendre. Dans un article publié sur le serveur de pré-impression Arxiv.org (““), des scientifiques de Microsoft Research Asia, de la division Perception et réalité mixte de Microsoft, de l'Université Hamad Bin Khalifa et de l'Institute for Creative Technologies de l'USC détaillent ce qu'ils prétendent être le premier objectif final. système de bout en bout pour la colorisation vidéo autonome basée sur des exemples (par exemple, une image de référence). Ils disent que dans les expériences quantitatives et qualitatives, il obtient des résultats supérieurs à l'état de la technique.

«Le principal défi consiste à atteindre une cohérence temporelle tout en restant fidèle au style de référence», ont écrit les coauteurs. "Tous les composants (du modèle), appris de bout en bout, permettent de produire des vidéos réalistes avec une bonne stabilité temporelle."

Les auteurs du document notent que l’IA capable de convertir des clips monochromes en couleur n’est pas nouvelle. En effet, des chercheurs de Nvidia, en septembre dernier, ont décrit un qui infère les couleurs d'une seule image vidéo colorisée et annotée et Google AI, en juin, un algorithme qui permet de coloriser des vidéos en niveaux de gris sans supervision humaine manuelle. Mais la sortie de ces modèles et de la plupart des autres modèles contient des artefacts et des erreurs, qui accumulent la durée la plus longue de la vidéo d'entrée.

Pour remédier aux lacunes, la méthode des chercheurs prend en entrée le résultat d’une trame vidéo précédente (pour préserver la cohérence) et effectue la colorisation à l’aide d’une image de référence, ce qui permet à cette image de guider la colorisation image par image et de réduire les erreurs d’accumulation. (Si la référence est une image colorisée dans la vidéo, elle remplira la même fonction que la plupart des autres méthodes de propagation des couleurs, mais de manière «plus robuste».) En conséquence, il est capable de prédire des couleurs «naturelles» en fonction de la sémantique des images en niveaux de gris en entrée, même lorsqu'aucune correspondance correcte n'est disponible dans une image de référence donnée ou dans un cadre précédent.

Cela a nécessité l’architecture d’un réseau de convolution de bout en bout – un type de système d’intelligence artificielle couramment utilisé pour analyser l’imagerie visuelle – avec une structure récurrente qui conserve les informations historiques. Chaque état comprend deux modules: un modèle de correspondance qui aligne l'image de référence sur une trame d'entrée en fonction de correspondances sémantiques denses, et un modèle de colorisation qui colorise une image guidée à la fois par le résultat colorisé de l'image précédente et la référence alignée.

L’équipe a compilé un ensemble de données d’entraînement à partir du corpus open source Videvo, qui contient principalement des animaux et des paysages. Ils l'ont complétée par des vidéos de portrait provenant d'un corpus séparé (Hollywood 2) et ont filtré les vidéos trop sombres ou trop pâles, ce qui a laissé 768 vidéos au total. Et pour chaque vidéo, ils ont extrait 25 images et élargi la catégorie de données avec des photos d'ImageNet, qu'ils utilisaient pour appliquer une distorsion géométrique aléatoire et des bruits de luminance afin de générer des images. Le résultat final: 70 000 vidéos augmentées dans «diverses catégories».

Lors des tests, les coauteurs ont indiqué que leur système offrait la meilleure précision possible dans les classements Top-5 et Top-1 d'ImageNet, suggérant qu'il produisait des résultats sémantiquement significatifs. De plus, il a géré le score le plus bas de la distance de création Frechet (FID) par rapport aux points de repère, indiquant que sa sortie était «très» réaliste.

«Dans l’ensemble, les résultats de notre méthode, bien que légèrement moins dynamiques, présentent une coloration similaire à la réalité. La comparaison qualitative indique également que notre méthode produit les résultats de colorisation les plus réalistes et les plus dynamiques », ont écrit les chercheurs. «La méthode (O) présente des couleurs vives dans chaque image avec beaucoup moins d'artefacts que les autres méthodes. Pendant ce temps, les cadres colorisés successivement démontrent une bonne cohérence temporelle. "

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *