El nuevo modelo de aprendizaje automático de Google Duo mejora la calidad del audio en las llamadas

Google tiene un historial de eliminar aplicaciones de mensajería de manera desagradable a favor de aplicaciones de comunicación más nuevas que también son eliminadas eventualmente. Google Duo, hasta ahora, ha sido una excepción desde que se lanzó junto con Allo, el servicio de mensajería ahora desaparecido. Duo ha recibido continuamente la atención de Google y la incorporación frecuente de nuevas funciones comosoporte de 1080p en teléfonos Samsung S20 5G,subtítulos en vivo(próximamente) ,garabatosy hasta12 participantes en una llamada grupal. Ahora, Google está aplicando el aprendizaje automático para reducir el principal problema de los temblores para una experiencia de audio más fluida e ininterrumpida.

Las videollamadas se han convertido en una forma vital de comunicación oficial durante el período de cuarentena por COVID-19 y un audio entrecortado puede costarle dinero a usted o a su empresa. Google reconoce que el 99 % de las llamadas en Duo sufren interrupciones debido a retrasos en la red. Aproximadamente una quinta parte de estas llamadas sufren una pérdida de audio del 3 %, mientras que una décima parte pierde casi el 8 % del audio, gran parte del cual podría ser información muy importante que usted termina perdiéndose. Esto sucede porque los paquetes de datos se retrasan o se pierden en la transmisión y la ausencia de estos paquetes da como resultado fallas en el audio, lo que hace que gran parte del mismo sea incomprensible.

El nuevo algoritmo de aprendizaje automático WaveNetEQ de Google funciona con una técnica llamada "ocultación de pérdida de paquetes" (PLC). WaveNet EQ es un modelo generativo basado enWaveRNN de DeepMind y crea fragmentos de audio para rellenar los huecos con rellenos realistas. El modelo de IA se ha entrenado alimentándolo con un gran conjunto de datos relacionados con el habla. Gracias al cifrado de extremo a extremo de Google Duo, el modelo se ejecuta en el dispositivo del receptor. Pero Google afirma que es "lo suficientemente rápido como para ejecutarse en un teléfono, al mismo tiempo que ofrece una calidad de audio de última generación" .

WaveRRN se basa en un modelo de conversión de texto a voz y, además de estar entrenado para "qué decir", también ha sido entrenado para "cómo decir" las cosas. Analiza la entrada con una sólida comprensión fonética para predecir sonidos en el futuro inmediato. Además de llenar los espacios vacíos, el modelo también produce audio sobrante en la forma de onda sin procesar para superponer la parte que sigue a la vibración. Esta señal se superpone con el audio real con un poco de atenuación cruzada y da como resultado una transición más suave.

El modelo WaveNetEQ de Google Duo se ha entrenado en 48 idiomas alimentados por 100 personas para que pueda aprender las características generales de la voz humana en lugar de solo un idioma. El modelo está entrenado para producir principalmente sílabas y puede llenar espacios de hasta 120 ms de duración.

La función ya está disponible en Google Pixel 4 y ahora se está implementando en otros dispositivos Android.

Fuente:Blog de inteligencia artificial de Google

XDA

El nuevo modelo de aprendizaje automático WaveNetEQ de Google mejora la calidad del audio en Duo