Se trata de una IA generativa que es capaz de generar videos de retratos que emulan cantar o hablar a partir de un archivo de audio.
La inteligencia artificial llegó al mundo para facilitar la vida de las personas, como para hacer tareas rutinarias que pueden resultar tediosas. Ahora bien, las generativas son capaces de generar imágenes y videos a partir de un texto sobre lo que queremos ver. Ahora se lanzó Emote Portrait Alive (EMO), la nueva IA de China que fue presentada por Alibaba.
De qué se trata EMO, la inteligencia artificial de China
La IA generativa es capaz de producir videos de retratos utilizando una imagen y un archivo de voz como entrada. Lo notable de esta tecnología radica en los resultados obtenidos. La sincronización labial es excelente, y las expresiones se ajustan según el tono de voz, según los reportes de la empresa.
Un ejemplo de esto es la representación de Audrey Hepburn cantando “Perfect” de Ed Sheeran. Estas representaciones demuestran la capacidad de la inteligencia artificial para generar contenido audiovisual convincente y expresivo, incluso adaptando las expresiones faciales al contenido del habla.
¿Ya se puede usar EMO?
EMO fue desarrollado por Linrui Tian, Qi Wang, Bang Zhang y Liefeng Bo, pertenecientes al Instituto de Inteligencia Computacional del Grupo Alibaba. Hasta el momento, se trata de una herramienta destinada a la investigación y no está disponible públicamente para su uso general. Aunque no está permitido al público, se han compartido varios ejemplos que ilustran las diversas posibilidades de esta herramienta.
La herramienta EMO no solo permite ver a una persona cantando o hablando, sino que también muestra ejemplos donde, a partir de una sola imagen, se genera un video que representa a la persona enfadada, feliz o reflexiva.
Un aspecto interesante de EMO es su capacidad para generar videos de retratos de diferentes duraciones, dependiendo del archivo de audio proporcionado. Según los investigadores, la consistencia del personaje se mantiene a lo largo de todo el video, ofreciendo resultados coherentes y expresivos.
Fuente Ambito