Microsoft presenta una nueva herramienta de IA para crear avatares fotorrealistas
En la próxima conferencia Microsoft Ignite, se lanzará una herramienta sorprendente: un avatar fotorrealista que puede hablar en nombre de una persona, incluso si nunca dijo esas palabras. Esta nueva característica, llamada avatar de texto a voz de Azure AI Speech, ya está disponible en vista previa pública. Permite a los usuarios generar videos de un avatar hablando cargando imágenes de una persona y escribiendo un guión. Microsoft entrena un modelo para animar el avatar, mientras que otro modelo convierte el texto en voz para que el avatar “lea” el guión en voz alta.
Una herramienta versátil para diversas aplicaciones
Microsoft destaca que esta herramienta puede ser utilizada de manera eficiente para crear videos de capacitación, presentaciones de productos, testimonios de clientes y más, simplemente ingresando texto. Además, los avatares pueden hablar en varios idiomas y, en el caso de los chatbots, pueden aprovechar modelos de IA como GPT-3.5 de OpenAI para responder preguntas fuera de guión de los clientes.
Preocupaciones éticas y limitaciones de acceso
Aunque esta herramienta ofrece muchas posibilidades, también plantea cuestiones éticas incómodas. Microsoft reconoce que existe el riesgo de abuso, como la producción de propaganda o informes falsos. Por esta razón, la mayoría de los suscriptores de Azure solo podrán acceder a avatares prediseñados en el lanzamiento. Los avatares personalizados solo estarán disponibles para ciertos casos de uso y requerirán un registro especial.
Microsoft también presenta la voz personal
Otra herramienta relacionada que se lanzará en Ignite es la voz personal. Esta capacidad permite replicar la voz de un usuario en pocos segundos, siempre que se proporcione una muestra de voz de un minuto. Microsoft la presenta como una forma de crear asistentes de voz personalizados, doblar contenido a diferentes idiomas y generar narraciones personalizadas para historias, audiolibros y podcasts.
Consentimiento explícito y limitaciones de uso
Para evitar problemas legales, Microsoft exige que los usuarios den su consentimiento explícito mediante una declaración grabada antes de utilizar su voz personal para sintetizar voces. El acceso a esta función está actualmente cerrado detrás de un formulario de registro y los clientes deben aceptar usar la voz personal solo en aplicaciones donde no se lea contenido abierto o generado por el usuario. Además, la salida generada por la voz personal no puede ser publicada ni compartida desde la aplicación.
Aunque estas herramientas ofrecen nuevas posibilidades, aún quedan preguntas sin respuesta. Microsoft no ha abordado cómo se compensará a los actores por sus contribuciones de voz personal ni si implementará alguna tecnología para identificar fácilmente las voces generadas por IA.