2024-06-29 01:06:05
Google DeepMind presentó un nueva inteligencia artificial capaz de generar música para una película. La división enfocada en inteligencia artificial mostró sus avances en el campo del video-audio (V2A), tecnología que produce sonidos a partir de un archivo de vídeo y entrada de texto. El modelo es capaz de generar una pista de audio basada en los elementos del vídeo y sincronizarla.
DeepMind destaca esto V2A puede generar pistas, efectos de sonido realistas o diálogos que coincidan con los personajes.. El usuario sólo necesita proporcionar un archivo de vídeo y un pedido en lenguaje natural que servirá de apoyo. Las entradas de texto pueden incluir el tipo de sonido, género musical o tempo, así como frases que describen el entorno.
Los ingenieros dicen que la tecnología V2A es capaz de producir un número ilimitado de bandas sonoras para cualquier vídeo. El sistema se puede combinar con otros modelos de generación de vídeo, como Veo, y permite esto ajuste fino usando un pedido positivo o negativo que le da más control al archivo de salida.
Según Google, V2A utiliza un enfoque basado en transmisión para generar y sincronizar audio. El sistema codifica la entrada de vídeo en una representación comprimida y la ejecuta de forma iterativa a través del modelo de difusión. Luego genera audio comprimido, que se decodifica en una forma de onda de audio.
Es importante subrayar esto instrucciones en lenguaje natural (pedido) servir como guía para que el modelo genere sonidos específicos. DeepMind dice que V2A puede comprender píxeles sin procesar, por lo que las instrucciones de texto son opcionales. Por supuesto, cuando se usan juntas, la IA puede asociar eventos de audio específicos con una representación visual.
La IA de Google puede generar efectos, música e incluso voces
La empresa tecnológica mostró varios videos de V2A en acción con sus respectivos pedido. Los primeros resultados sorprenden y muestran el poder de la inteligencia artificial a la hora de sincronizar efectos de sonido con vídeos. Los ingenieros lo agregaron. el sistema no requiere alineación manualpor lo que no tendremos que preocuparnos de ajustar el tiempo y otros valores.
Como ocurre con todos los modelos de IA, el sistema V2A no es perfecto. Google lo menciona La calidad del sonido generado dependerá de la calidad del vídeo., por lo que si insertas una pista comprimida o de mala calidad, es posible que no obtengas los resultados que deseas. Asimismo, La generación de voz para videos que involucran diálogo necesita modificaciónya que no realiza una sincronización labial precisa.
V2A representa un paso importante en el campo de la inteligencia artificial. Para evitar el uso inadecuado de esta tecnología, Google implementará marcas de agua en todos los contenidos y lo someterá a diversas pruebas de seguridad. Al mismo tiempo, los ingenieros de DeepMind se apoyarán en expertos de otros campos, principalmente de la comunidad creativa (directores, creadores, etc.) para modelar su sistema.
Actualmente no hay una fecha de lanzamiento establecida para esta tecnología.
Autor: HIPERTEXTUAL
