Donnez à YouTube une série de [APPLAUDISSEMENTS] - Les sons sont désormais sous-titrés automatiquement

lancement du service de diffusion en direct youtube tv 28691186 mlYouTube mérite une salve d'applaudissements, car la plate-forme vidéo peut désormais inclure automatiquement [APPLAUSE] et d'autres effets sonores dans les sous-titres codés d'une vidéo. L'extension des sous-titres, annoncée jeudi 23 mars, est rendue possible par les réseaux de neurones profonds, une forme d'intelligence artificielle.

Pour l'instant, YouTube ne peut automatiquement étiqueter que les applaudissements, la musique et les rires, mais ces trois effets sonores étaient les descriptions que les créateurs de contenu ont ajoutées manuellement par-dessus tout autre bruit de sous-titrage. La dernière fonctionnalité s'appuie sur la fonction de sous-titrage automatique lancée en 2009 pour le texte, mais ajoute les premiers effets sonores au système.

YouTube dit que le programme fonctionne de la même manière que la détection d'objets dans les images, mais a rencontré quelques difficultés supplémentaires en matière de reconnaissance d'objets. Pour que le programme ne reconnaisse que ces trois sons, les ingénieurs de YouTube ont dû lui apprendre à détecter ces sons, à les séparer temporairement, puis à insérer ce son reconnu dans les sous-titres.

Le système avait également tendance à lutter contre les effets sonores qui se produisaient en même temps que d'autres sons, comme le rire et la parole. Un autre défi consistait à trouver un ensemble de données suffisamment grand pour entraîner le système qui n'était pas déjà correctement étiqueté en saisissant manuellement les données.

Le réseau d'apprentissage en profondeur analyse de courts segments en séquence et est capable de prédire la probabilité de ces effets sonores à une vitesse d'environ 100 images par seconde. Les ingénieurs de YouTube, cependant, ont conçu le système de manière à ce que des effets sonores supplémentaires soient ajoutés au système ultérieurement.

Alors pourquoi applaudissements, musique et rires? En plus d'être simplement les étiquettes les plus fréquemment ajustées manuellement dans le système de sous-titrage, chacun de ces sons n'a également qu'une seule signification. Une «sonnerie», expliquait YouTube, en offrant un exemple, pourrait être une sonnerie provenant d'une sonnette, d'un téléphone ou d'une alarme, présentant un tout nouveau défi pour le logiciel.

Selon YouTube, plus de 15 millions de vidéos avec des sous-titres automatiques sont visionnées chaque jour. Lors d'un test de la dernière mise à jour des sous-titres automatiques, les deux tiers ont déclaré que les étiquettes d'effets sonores amélioraient l'expérience globale.