L'impact du taux d'échantillonnage



<div _ngcontent-c14 = "" innerhtml = "

Plaque de la série Animal Locomotion de Muybridge publiée en 1887. (PSSL via Getty Images)

Getty

L'apprentissage en profondeur est devenu l'objectif principal par lequel les machines comprennent la vidéo. Des outils tels que Google Vidéo AI L'API peut annoter directement des fichiers vidéo, reconnaître des objets et des activités, du texte OCR, suivre des objets, reconnaître des changements de scène et identifier un nombre quelconque d'autres attributs clés. Pourtant, les fichiers vidéo consomment des quantités énormes d’espace de stockage et sont extrêmement difficiles à analyser en utilisant l’apprentissage en profondeur. Certains cas d'utilisation peuvent tirer parti de la conversion de vidéos en séquences d'images fixes à des fins d'analyse, permettant ainsi un parallélisme complet des données et une réduction considérable du stockage et du calcul des données. Représenter la vidéo sous forme d'images fixes présente également des opportunités uniques d'analyse non consommatrice, similaires à l'utilisation de ngrams pour le texte. Comment le taux d'échantillonnage d'une telle conversion affecte-t-il les conclusions des algorithmes d'intelligence artificielle tirés de l'imagerie fixe résultante?

La capacité des algorithmes d'apprentissage approfondi à analyser nativement la vidéo a ouvert la voie à une myriade d'opportunités exploitant un séquençage de précision, tel que le suivi du mouvement d'objets dans une scène ou la détection de transitions entre les plans. Il garantit également que même un objet présent pour une seule image dans une vidéo de 60 images par seconde peut être identifié, en répertoriant correctement de brefs aperçus d'objets au cours des séquences de mouvements à tir rapide populaires dans des domaines tels que la publicité et en combattant l'injection accusatoire. de contenu objectional et la messagerie subliminale.

En même temps, toutes les applications d’images animées n’exigent pas un traitement précis de chaque image. Si l'objectif est simplement de générer un résumé approximatif des étiquettes de sujet des principaux objets et activités décrits dans une vidéo pour l'indexation, il peut être acceptable de ne traiter qu'une seule image toutes les secondes ou toutes les quelques secondes.

Les vidéos ne sont, après tout, au cœur que de simples collections d'images fixes individuelles affichées en séquence rapide pour le téléspectateur. Des outils open source standards tels que “ffmpeg”Peut facilement convertir un fichier vidéo en une séquence d'images fixes à la fréquence d'échantillonnage souhaitée.

Ainsi, au lieu de traiter une vidéo de manière native via une infrastructure d'apprentissage en profondeur optimisée pour la vidéo, celle-ci peut simplement être convertie en une séquence d'images fixes échantillonnées et exécutée via des analyseurs traditionnels d'apprentissage en profondeur par images fixes.

La conversion de vidéos en séquences d'images fixes peut présenter de nombreux avantages. Le plus évident est peut-être qu'un fichier vidéo haute résolution de plusieurs centaines de mégaoctets, voire de plusieurs dizaines de giga-octets, peut être réduit à quelques dizaines de mégaoctets d'images fixes. Contrairement à la vidéo, qui repose sur un séquençage strict qui limite les possibilités de parallélisme des données, les images fixes sont entièrement parallèles, ce qui signifie qu'une vidéo de plusieurs heures peut être traitée en une seule fois, chaque image séparément, et se terminer en quelques secondes au lieu de dizaines de minutes. même des heures pour une analyse vidéo typique.

Curieusement, cependant, la conversion de séquences vidéo en séquences d'images fixes donne à penser que de telles conversions créent des modalités de transformation permettant une analyse non consommatrice de la vidéo, à l'instar des ngrams qui ont permis l'analyse non consommatrice d'un contenu textuel tel que des livres.

Si une vidéo d'une heure est convertie en une séquence d'images fixes échantillonnées, peut-être une toutes les quelques secondes, la séquence résultante serait différente de la vidéo d'origine par transformation. Elle capturerait juste assez de détails pour permettre au contenu de la vidéo d’être cataloguée par machine. Toutefois, en raison de son manque d’audio et de la rareté de ses images, il ne pouvait se substituer à la vidéo originale.

Cela pourrait-il potentiellement offrir l’équivalent d’un «ngram vidéo» pour la recherche?

La conversion de vidéos en séquences d'images fixes constituait autrefois une approche principale du traitement de la vidéo avant la large diffusion des algorithmes évolutifs d'apprentissage en profondeur de la vidéo native. En fait, c’est précisément l’approche utilisée en 2016 pour examiner annonces télévisées géré par les candidats à la présidentielle 2016.

Plus récemment, les analyses vidéo natives de Google Vidéo AI API ont été augmentés de manière similaire conversion chaque vidéo en une séquence de prévisualisation d'une image par seconde images qui ont été analysés par Google Vision en nuage API de compréhension d'image.

Dans ce cas, les vidéos ont été échantillonnées une fois par seconde pour générer une séquence d'images fixes haute résolution transformative pour chaque vidéo.

Cela soulève la question de savoir à quel point le taux d'échantillonnage affecte les analyses résultantes.

En utilisant une fréquence d'échantillonnage de 1 fps comme référence, dans quelle mesure la réduire affecterait-il l'ensemble final d'étiquettes générées par l'API Cloud Vision de Google pour une vidéo donnée? Un taux d'échantillonnage d'une image toutes les 5 secondes produirait-il en grande partie le même ensemble d'étiquettes pour une vidéo que 1 fps? Qu'en est-il une image toutes les 10 secondes ou même une fois par minute, convertissant une vidéo d'une heure en une séquence de 60 images fixes?

Pour approfondir ce sujet, CNN, MSNBC et Fox News et les émissions du matin et du soir des affiliés de San Francisco KGO (ABC), KPIX (CBS), KNTV (NBC) et KQED (PBS) du 15 au 22 avril 2019, totalisant 812 heures de nouvelles télévisées, ont été analysé en utilisant Google Vision en nuage API de compréhension d'image avec toutes ses fonctionnalités activées. Chaque diffusion a été convertie en une séquence d'images fixes d'une image par seconde, traitées à l'aide de l'API Cloud Vision.

Un histogramme a été construit pour chacune des 812 émissions, avec les étiquettes distinctes, WebEntities, les images associées et le texte OCR (en le divisant en mots distincts et en éliminant les chiffres et la ponctuation) calculé par l'API Cloud Vision pour cette diffusion à l'aide de la résolution de 1 fps. taux d'échantillonnage.

À son tour, chaque émission a été rééchantillonnée à une image toutes les deux secondes et une nouvelle étiquette, WebEntities, des images associées et des histogrammes OCR ont été calculés. Ceci a été répété pour des taux d'échantillonnage allant jusqu'à une image toutes les cinq minutes (ce qui donnerait seulement 12 images de prévisualisation par heure de vidéo).

Les histogrammes obtenus pour chacune de ces fréquences d'échantillonnage plus lentes ont ensuite été comparés à la valeur de base de 1 fps à l'aide d'une corrélation de Pearson. Trois comparaisons ont été effectuées: une comparant l'histogramme complet, une comparant uniquement les 100 premières entrées des deux histogrammes et l'autre comparant uniquement les 25 premières entrées des deux histogrammes. Pour la plupart des émissions, une longue liste d'étiquettes, de mots et d'images associées n'apparaissant qu'une seule fois dans l'ensemble de la diffusion, tandis que dans une tâche de catalogage de production, les étiquettes les plus courantes sont généralement utilisées pour cataloguer une vidéo. entrées offre une comparaison plus juste avec la manière dont les étiquettes seraient utilisées dans une application réelle.

Les résultats finaux sont visibles dans le graphique ci-dessous. L'axe des Y est le coefficient de corrélation de Pearson compris entre 0 et 1, tandis que l'axe des X représente le taux d'échantillonnage d'une image par X secondes, d'une image toutes les secondes à une image toutes les 300 secondes (5 minutes).

La corrélation de Pearson entre l’OCR, les étiquettes, les WebEntities et les images associées par taux d’échantillonnage comparé à un étalon or d’un échantillonnage d’une seconde.

Kalev Leetaru

En particulier, les images associées (où Cloud Vision effectue l'équivalent d'une recherche inversée Google Images sur une image et recherche des images du Web qui lui ressemblent le plus) sont les plus affectées par le ralentissement de la fréquence d'échantillonnage. Diminuer le taux d'échantillonnage à une image toutes les deux secondes diminue la corrélation à r = 0,95, puis à r = 0,86 pour une image toutes les quatre secondes et d'une image toutes les dix secondes, la corrélation est tombée à r = 0,68.

La raison en est que la similitude d'image est extrêmement sensible à la disposition précise des pixels dans une image. Un objet en mouvement rapide peut produire de nombreuses images correspondantes dans une position, mais quelques images plus tard, peu de correspondances. Cela suggère que les tentatives de connexion de la télévision au monde en ligne nécessiteront des taux d'échantillonnage beaucoup plus élevés que d'autres types d'analyses.

Etant donné que WebEntities est basé sur les légendes trouvées sur des images similaires sur le Web, le taux de correspondance décroissant des images apparentées affecte également leur précision, mais il est intéressant de noter que l'impact est beaucoup plus faible.

En revanche, pour l'OCR, r = 0,99 sur une fréquence d'échantillonnage d'une image toutes les 16 secondes et même une fréquence d'une image par minute la diminue uniquement jusqu'à r = 0,93. Cela reflète le fait que la plupart du texte à l’écran des nouvelles télévisées est soit fixe (identificateurs de station, par exemple), soit hautement répétitif (titres défilants qui se répètent à l’infini). Un taux d'échantillonnage plus lent capturera toujours la plupart des mêmes mots.

Pour tout ce qui n’est pas lié aux images apparentées, un taux d’échantillonnage d’une trame toutes les 30 secondes donnera un coefficient de corrélation supérieur à r = 0,9 et même un taux d’une trame toutes les cinq minutes donnera toujours une corrélation supérieure à r = 0,7 pour la plupart d’entre elles.

Les corrélations sont un puissant outil de comparaison, mais elles reflètent un type de relation complexe. En revanche, le graphique ci-dessous présente les mêmes comparaisons, mais sous la forme d'un pourcentage de chevauchement plutôt que d'une corrélation de Pearson. Dans ce cas, l’axe des X indique le pourcentage des entrées de l’étalon or de 1 fps trouvées dans les histogrammes à chaque fréquence d’échantillonnage réduite.

Le chevauchement d’OCR, d’étiquettes, de WebEntities et d’images associées par taux d’échantillonnage comparé à un étalon or d’un échantillonnage d’une seconde.

Kalev Leetaru

Ici, la diminution des chevauchements est beaucoup plus marquée. Les 25 premiers histogrammes pour les étiquettes, les résultats WebEntities et OCR décline le plus lentement. Ils restent supérieurs à 90% et se chevauchent dans une image toutes les deux minutes, tandis que les 100 premiers histogrammes restent supérieurs à 90% dans une image toutes les 43 secondes.

La longue traîne de tous les labels, WebEntities et OCR résulte rapidement, chutant à environ 75% même avec le passage de 1 image par seconde à une image toutes les deux secondes.

Comme pour le graphe de corrélation, ce sont les images associées qui souffrent le plus d'un échantillonnage réduit.

En regroupant tous ces éléments, l'échantillonnage de vidéos en séquences d'images fixes peut considérablement réduire les besoins en stockage et en traitement et permettre de traiter des vidéos de longueur illimitée en quelques secondes à l'aide du parallélisme des données. Plus important encore, ils ouvrent la porte à la possibilité intrigante de «ngrammes vidéo» qui transformeraient les vidéos en de nouveaux formats non consommateurs ressemblant à la façon dont les ngrams transforment le texte.

Les graphiques ci-dessus montrent que le taux d'échantillonnage importe sans surprise et qu'un taux d'échantillonnage plus lent a un impact considérable sur les résultats, mais que l'impact de ce compromis variera en fonction de l'application. Les applications de catalogage qui doivent simplement attribuer un ensemble d'étiquettes supérieures à une vidéo ou extraire le texte à l'écran supérieur peuvent constater que des taux d'échantillonnage plus lents ont peu d'incidence sur leur précision à un coût de stockage et de calcul considérablement réduit, tandis que des analyses reliant la télévision à l'imagerie Web via Les recherches par image inversée WebEntity seront confrontées à des coûts plus élevés dus à des taux d'échantillonnage réduits.

En fin de compte, pour de nombreuses applications, même une fréquence d'échantillonnage relativement lente peut encore être plus que suffisante pour répondre aux besoins analytiques.

Je voudrais remercier Internet Archive et ses archives de nouvelles télévisées, en particulier son directeur, Roger Macdonald. J'aimerais remercier Google pour l'utilisation de son nuage, notamment ses API Video AI, Vision AI, Parole-à-texte et Langage naturel et leurs équipes associées pour leurs conseils.

">

Plaque de la série Animal Locomotion de Muybridge publiée en 1887. (PSSL via Getty Images)

Getty

L'apprentissage en profondeur est devenu l'objectif principal par lequel les machines comprennent la vidéo. Aujourd'hui, des outils tels que l'API de Google peuvent annoter directement des fichiers vidéo, reconnaître des objets et des activités, du texte OCR, suivre des objets, reconnaître des modifications de scène et identifier un nombre quelconque d'autres attributs clés. Pourtant, les fichiers vidéo consomment des quantités énormes d’espace de stockage et sont extrêmement difficiles à analyser en utilisant l’apprentissage en profondeur. Certains cas d'utilisation peuvent tirer parti de la conversion de vidéos en séquences d'images fixes à des fins d'analyse, permettant ainsi un parallélisme complet des données et une réduction considérable du stockage et du calcul des données. Représenter la vidéo sous forme d'images fixes présente également des opportunités uniques d'analyse non consommatrice, similaires à l'utilisation de ngrams pour le texte. Comment le taux d'échantillonnage d'une telle conversion affecte-t-il les conclusions des algorithmes d'intelligence artificielle tirés de l'imagerie fixe résultante?

La capacité des algorithmes d'apprentissage approfondi à analyser nativement la vidéo a ouvert la voie à une myriade d'opportunités exploitant un séquençage de précision, tel que le suivi du mouvement d'objets dans une scène ou la détection de transitions entre les plans. Il garantit également que même un objet présent pour une seule image dans une vidéo de 60 images par seconde peut être identifié, en répertoriant correctement de brefs aperçus d'objets au cours des séquences de mouvements à tir rapide populaires dans des domaines tels que la publicité et en combattant l'injection accusatoire. de contenu objectional et la messagerie subliminale.

En même temps, toutes les applications d’images animées n’exigent pas un traitement précis de chaque image. Si l'objectif est simplement de générer un résumé approximatif des étiquettes de sujet des principaux objets et activités décrits dans une vidéo pour l'indexation, il peut être acceptable de ne traiter qu'une seule image toutes les secondes ou toutes les quelques secondes.

Les vidéos ne sont, après tout, au cœur que de simples collections d'images fixes individuelles affichées en séquence rapide pour le téléspectateur. Des outils open source standards tels que «» peuvent convertir de manière simple un fichier vidéo en une séquence d'images fixes à la fréquence d'échantillonnage souhaitée.

Ainsi, au lieu de traiter une vidéo de manière native via une infrastructure d'apprentissage en profondeur optimisée pour la vidéo, celle-ci peut simplement être convertie en une séquence d'images fixes échantillonnées et exécutée via des analyseurs traditionnels d'apprentissage en profondeur par images fixes.

La conversion de vidéos en séquences d'images fixes peut présenter de nombreux avantages. Le plus évident est peut-être qu'un fichier vidéo haute résolution de plusieurs centaines de mégaoctets, voire de plusieurs dizaines de giga-octets, peut être réduit à quelques dizaines de mégaoctets d'images fixes. Contrairement à la vidéo, qui repose sur un séquençage strict qui limite les possibilités de parallélisme des données, les images fixes sont entièrement parallèles, ce qui signifie qu'une vidéo de plusieurs heures peut être traitée en une seule fois, chaque image séparément, et se terminer en quelques secondes au lieu de dizaines de minutes. même des heures pour une analyse vidéo typique.

Curieusement, cependant, la conversion de séquences vidéo en séquences d'images fixes donne à penser que de telles conversions créent des modalités de transformation permettant une analyse non consommatrice de la vidéo, à l'instar des ngrams qui ont permis l'analyse non consommatrice d'un contenu textuel tel que des livres.

Si une vidéo d'une heure est convertie en une séquence d'images fixes échantillonnées, peut-être une toutes les quelques secondes, la séquence résultante serait différente de la vidéo d'origine par transformation. Elle capturerait juste assez de détails pour permettre au contenu de la vidéo d’être cataloguée par machine. Toutefois, en raison de son manque d’audio et de la rareté de ses images, il ne pouvait se substituer à la vidéo originale.

Cela pourrait-il potentiellement offrir l’équivalent d’un «ngram vidéo» pour la recherche?

La conversion de vidéos en séquences d'images fixes constituait autrefois une approche principale du traitement de la vidéo avant la large diffusion des algorithmes évolutifs d'apprentissage en profondeur de la vidéo native. En fait, c'était précisément l'approche utilisée en 2016 pour examiner les candidats aux présidentielles de 2016.

Plus récemment, les analyses vidéo natives de l’API de Google ont été complétées de manière similaire par une séquence d’aperçu d’une image par seconde analysée par l’API de compréhension d’images de Google.

Dans ce cas, les vidéos ont été échantillonnées une fois par seconde pour générer une séquence d'images fixes haute résolution transformative pour chaque vidéo.

Cela soulève la question de savoir à quel point le taux d'échantillonnage affecte les analyses résultantes.

En utilisant une fréquence d'échantillonnage de 1 fps comme référence, dans quelle mesure la réduire affecterait-il l'ensemble final d'étiquettes générées par l'API Cloud Vision de Google pour une vidéo donnée? Un taux d'échantillonnage d'une image toutes les 5 secondes produirait-il en grande partie le même ensemble d'étiquettes pour une vidéo que 1 fps? Qu'en est-il une image toutes les 10 secondes ou même une fois par minute, convertissant une vidéo d'une heure en une séquence de 60 images fixes?

Pour approfondir ce sujet, CNN, MSNBC et Fox News et les émissions du matin et du soir des affiliés de San Francisco KGO (ABC), KPIX (CBS), KNTV (NBC) et KQED (PBS) du 15 au 22 avril 2019, totalisant 812 heures de nouvelles télévisées, ont été en utilisant Google API de compréhension d'image avec toutes ses fonctionnalités activées. Chaque diffusion a été convertie en une séquence d'images fixes d'une image par seconde, traitées à l'aide de l'API Cloud Vision.

Un histogramme a été construit pour chacune des 812 émissions, avec les étiquettes distinctes, WebEntities, les images associées et le texte OCR (en le divisant en mots distincts et en éliminant les chiffres et la ponctuation) calculé par l'API Cloud Vision pour cette diffusion à l'aide de la résolution de 1 fps. taux d'échantillonnage.

À son tour, chaque émission a été rééchantillonnée à une image toutes les deux secondes et une nouvelle étiquette, WebEntities, des images associées et des histogrammes OCR ont été calculés. Ceci a été répété pour des taux d'échantillonnage allant jusqu'à une image toutes les cinq minutes (ce qui donnerait seulement 12 images de prévisualisation par heure de vidéo).

Les histogrammes obtenus pour chacune de ces fréquences d'échantillonnage plus lentes ont ensuite été comparés à la valeur de base de 1 fps à l'aide d'une corrélation de Pearson. Trois comparaisons ont été effectuées: une comparant l'histogramme complet, une comparant uniquement les 100 premières entrées des deux histogrammes et l'autre comparant uniquement les 25 premières entrées des deux histogrammes. Pour la plupart des émissions, une longue liste d'étiquettes, de mots et d'images associées n'apparaissant qu'une seule fois dans l'ensemble de la diffusion, tandis que dans une tâche de catalogage de production, les étiquettes les plus courantes sont généralement utilisées pour cataloguer une vidéo. entrées offre une comparaison plus juste avec la manière dont les étiquettes seraient utilisées dans une application réelle.

Les résultats finaux sont visibles dans le graphique ci-dessous. L'axe des Y est le coefficient de corrélation de Pearson compris entre 0 et 1, tandis que l'axe des X représente le taux d'échantillonnage d'une image par X secondes, d'une image toutes les secondes à une image toutes les 300 secondes (5 minutes).

La corrélation de Pearson entre l’OCR, les étiquettes, les WebEntities et les images associées par taux d’échantillonnage comparé à un étalon or d’un échantillonnage d’une seconde.

Kalev Leetaru

En particulier, les images associées (où Cloud Vision effectue l'équivalent d'une recherche inversée Google Images sur une image et recherche des images du Web qui lui ressemblent le plus) sont les plus affectées par le ralentissement de la fréquence d'échantillonnage. Diminuer le taux d'échantillonnage à une image toutes les deux secondes diminue la corrélation à r = 0,95, puis à r = 0,86 pour une image toutes les quatre secondes et d'une image toutes les dix secondes, la corrélation est tombée à r = 0,68.

La raison en est que la similitude d'image est extrêmement sensible à la disposition précise des pixels dans une image. Un objet en mouvement rapide peut produire de nombreuses images correspondantes dans une position, mais quelques images plus tard, peu de correspondances. Cela suggère que les tentatives de connexion de la télévision au monde en ligne nécessiteront des taux d'échantillonnage beaucoup plus élevés que d'autres types d'analyses.

Etant donné que WebEntities est basé sur les légendes trouvées sur des images similaires sur le Web, le taux de correspondance décroissant des images apparentées affecte également leur précision, mais il est intéressant de noter que l'impact est beaucoup plus faible.

En revanche, pour l'OCR, r = 0,99 sur une fréquence d'échantillonnage d'une image toutes les 16 secondes et même une fréquence d'une image par minute la diminue uniquement jusqu'à r = 0,93. Cela reflète le fait que la plupart du texte à l’écran des nouvelles télévisées est soit fixe (identificateurs de station, par exemple), soit hautement répétitif (titres défilants qui se répètent à l’infini). Un taux d'échantillonnage plus lent capturera toujours la plupart des mêmes mots.

Pour tout ce qui n’est pas lié aux images apparentées, un taux d’échantillonnage d’une trame toutes les 30 secondes donnera un coefficient de corrélation supérieur à r = 0,9 et même un taux d’une trame toutes les cinq minutes donnera toujours une corrélation supérieure à r = 0,7 pour la plupart d’entre elles.

Les corrélations sont un puissant outil de comparaison, mais elles reflètent un type de relation complexe. En revanche, le graphique ci-dessous présente les mêmes comparaisons, mais sous la forme d'un pourcentage de chevauchement plutôt que d'une corrélation de Pearson. Dans ce cas, l’axe des X indique le pourcentage des entrées de l’étalon or de 1 fps trouvées dans les histogrammes à chaque fréquence d’échantillonnage réduite.

Le chevauchement d’OCR, d’étiquettes, de WebEntities et d’images associées par taux d’échantillonnage comparé à un étalon or d’un échantillonnage d’une seconde.

Kalev Leetaru

Ici, la diminution des chevauchements est beaucoup plus marquée. Les 25 premiers histogrammes pour les étiquettes, les résultats WebEntities et OCR décline le plus lentement. Ils restent supérieurs à 90% et se chevauchent dans une image toutes les deux minutes, tandis que les 100 premiers histogrammes restent supérieurs à 90% dans une image toutes les 43 secondes.

La longue traîne de tous les labels, WebEntities et OCR résulte rapidement, chutant à environ 75% même avec le passage de 1 image par seconde à une image toutes les deux secondes.

Comme pour le graphe de corrélation, ce sont les images associées qui souffrent le plus d'un échantillonnage réduit.

En regroupant tous ces éléments, l'échantillonnage de vidéos en séquences d'images fixes peut considérablement réduire les besoins en stockage et en traitement et permettre de traiter des vidéos de longueur illimitée en quelques secondes à l'aide du parallélisme des données. Plus important encore, ils ouvrent la porte à la possibilité intrigante de «ngrammes vidéo» qui transformeraient les vidéos en de nouveaux formats non consommateurs ressemblant à la façon dont les ngrams transforment le texte.

Les graphiques ci-dessus montrent que le taux d'échantillonnage importe sans surprise et qu'un taux d'échantillonnage plus lent a un impact considérable sur les résultats, mais que l'impact de ce compromis variera en fonction de l'application. Les applications de catalogage qui doivent simplement attribuer un ensemble d'étiquettes supérieures à une vidéo ou extraire le texte à l'écran supérieur peuvent constater que des taux d'échantillonnage plus lents ont peu d'incidence sur leur précision à un coût de stockage et de calcul considérablement réduit, tandis que des analyses reliant la télévision à l'imagerie Web via Les recherches par image inversée WebEntity seront confrontées à des coûts plus élevés dus à des taux d'échantillonnage réduits.

En fin de compte, pour de nombreuses applications, même une fréquence d'échantillonnage relativement lente peut encore être plus que suffisante pour répondre aux besoins analytiques.

Je voudrais remercier Internet Archive et ses archives de nouvelles télévisées, en particulier son directeur, Roger Macdonald. J'aimerais remercier Google pour l'utilisation de son nuage, notamment ses API Video AI, Vision AI, Parole-à-texte et Langage naturel et leurs équipes associées pour leurs conseils.