Resumen

  • Microsoft ha presentado VASA, un marco impulsado por inteligencia artificial para generar caras parlantes realistas a partir de imágenes y audio.
  • VASA-1 ofrece videos de 512x512 a 40 fps con dinámica facial realista y baja latencia.
  • Microsoft se muestra cauteloso a la hora de lanzar VASA debido a preocupaciones de mal uso y problemas de autenticidad.

En Microsoft Teams, puedesusar la función Avatarsi te sientes cansado de los videos y no quieres aparecer en el video mientras asistes a una reunión. Simplemente crea un avatar tuyo en 3D, que se anima según tus señales de audio, sin una cámara web. Sin embargo, Microsoft ha ido un paso más allá y ha desarrollado una nueva tecnología de inteligencia artificial que puede llevar el concepto de videoconferencia sin cámara web al siguiente nivel.

Microsoft desarrolla VASA para generar caras parlantes a partir de una imagen estática y un clip de audio

Captura de pantalla que muestra caras parlantes realistas
Imagen:Microsoft

Microsoft Research ha presentado un nuevo marco denominado VASA que puede generar caras parlantes "hiperrealistas", con todo el comportamiento facial real si se les da una sola imagen de retrato y un audio de voz. Microsoft también ha mostrado cómo la tecnología impulsada por IA puede generar videos de calidad con expresiones faciales realistas y puede ser útil en situaciones en las que se requieren interacciones en tiempo real, como videoconferencias en Microsoft Teams.

Microsoftafirmaque el primer modelo de VASA, denominado VASA-1, "ofrece una alta calidad de vídeo con dinámicas faciales y de cabeza realistas, pero también admite la generación en línea de vídeos de 512x512 a hasta 40 FPS con una latencia inicial insignificante". Sin embargo, verás esos números cuando estés en el "modo de procesamiento por lotes sin conexión". En el caso de la transmisión en línea, admite hasta 40 fps, con una latencia de 170 ms.

Microsoft no tiene planes de lanzar VASA todavía

Aunque el vídeo de demostración de cómo funciona parece prometedor, Microsoft parece ser muy cauteloso a la hora de implementar la tecnología en sus servicios. Uno de los principales problemas que frena al gigante del software a la hora de lanzarla es la incertidumbre sobre si se puede utilizar de forma responsable. La empresa ha admitido que desarrollará una tecnología de detección de falsificaciones para evitar su uso indebido.

Hay otro problema importante que Microsoft promete solucionar antes de lanzarlo para uso público. La empresa cree que la tecnología que genera estas caras parlantes está lejos de ser perfecta, ya que los vídeos generados no son tan auténticos como los capturados de forma natural. El tiempo dirá cuándo, o si, todas estas mejoras llegarán a hacer de VASA algo de lo que todos podamos beneficiarnos.

Relacionado
Las mejores cámaras web en 2024

Dado que el trabajo y el aprendizaje remotos se han vuelto tan comunes en los últimos años, probablemente necesites una buena cámara. Estas son las mejores cámaras web que puedes conseguir.