Según el portal «TechCrunch», por ahora el sistema es capaz de reconocer los tres tipos de sonidos antes mencionados. Google explicó que esto se debe a que estos sonidos son los más utilizados por los productores de videos de YouTube en los subtítulos incluidos de forma manual.
PUBLICIDAD
«Aunque el espacio sonoro es obviamente mucho más rico y proporciona aún más información contextualmente relevante que estas tres clases, la información semántica transmitida por estos efectos sonoros en la pista de subtítulos es relativamente inequívoca», explicó el ingeniero de Google Sourish Chaudhuri.
En el comunicado donde Google hizo mención de la funcionalidad de los subtítulos, Chaudhuri agregó que los tres tipos de sonidos son ‘explícitos’ en «contraposición a sonidos como [Ring] que plantea la cuestión de ‘¿qué sonó, una campana, una alarma, un teléfonos?».
Para «TechCrunch», y otros portales especializados en temas tecnológicos, con este sistema de subtítulos de sonidos, debería resultarle sencillo a Google poder subtitular en el futuro otros sonidos más complejos.
El sistema de subtítulos de YouTube está basado en un modelo de Red Neural Profunda que el equipo de Google entrenó con datos débilmente etiquetados. Con cada video nuevo que se carga en YouTube, el sistema se ejecuta e intenta identificar sus sonidos mientras va aprendiendo.