Una simple frase puede crear un vídeo impulsado por IA. Vea lo que Sora de OpenAI puede hacer – Multimédia

Sora es la primera herramienta de OpenAI para crear vídeo a partir de texto, después de que la compañía ya cambiara las reglas sobre los chatbots de Inteligencia Artificial con ChatGPT y creación de imágenes con Dall-E. El vídeo es la próxima frontera y OpenAI muestra lo que Sora puede hacer, todavía en modo experimental.

Escenarios complejos, imágenes y personajes realistas, contextos paisajísticos convincentes aparecen en los distintos vídeos compartidos junto con las animaciones. que estamos acostumbrados a ver en otras herramientas. Pero aquí también radica la diferencia.

«Estamos enseñando Inteligencia Artificial para simular el mundo físico en movimiento, con el objetivo de entrenar modelos que puedan ayudar a las personas a resolver problemas que requieren interacción con el mundo real», explica OpenAI en el post que anuncia la nueva herramienta.

El modelo comprende lo que los usuarios piden a través de un mensaje, que no necesita ser muy detallado, sino también cómo se integran los objetos y personajes en el mundo real. También puedes crear varias perspectivas diferentes o tomas continuas y adaptar el estilo.

Vea los videos que se compartieron y las indicaciones que dieron origen a las imágenes.

Sora compite con Imagen de Google y Make a Video de Meta, que también están todavía en fase de pruebas.y OpenAI admite que antes de abrir la posibilidad de utilizar la herramienta, quiere hacer más análisis para garantizar la seguridad de los resultados y también trabajar con diseñadores, directores y creadores para tener su opinión sobre cómo desarrollar el modelo y hacerlo. más útil.

OpenAI admite que todavía hay debilidades en los resultados, y que en algunos casos hay detalles que fallan, o incluso la falta de percepción de la evolución del escenario en términos de causa y efecto. Uno de los ejemplos mencionados es que una persona puede morder una galleta pero luego es posible que no se muestre el resultado del mordisco.

También puede confundir algunos detalles de un mensaje en indicaciones espaciales, mezclar izquierda y derecha o comprender algunos eventos en una línea de tiempo secuencial.

¿Cómo funciona Sora en la generación de videos?

OpenAI no dudó en compartir cuál es la base de los vídeos creados por Sora y cómo funciona este modelo. Al igual que GPT, utiliza una arquitectura de transformación, con la capacidad de escalar la respuesta.

En la base de Sora hay un modelo de difusión, que genera un vídeo a partir de lo que parece ruido estático y lo transforma gradualmente.eliminando el ruido en varios pasos.

La herramienta se basa en desarrollos para los modelos DALL·E y GPT y utiliza una técnica de herramienta de imágenes que implica generar leyendas descriptivas para datos de entrenamiento visual.

Puedes crear vídeos completos a la vez y los ejemplos duran aproximadamente un minuto. Pero también Puede ampliar los vídeos que se han creado y hacerlos más largos.. OpenAI explica que al proporcionar al modelo la predicción de muchos fotogramas a la vez, resuelve el desafío de garantizar que un objeto permanezca igual incluso cuando deja de verse temporalmente.

También puedes partir de una imagen fija y crear un vídeo, animando el contenido de la foto con más precisión y atención al detalle.

A OpenAI prometió publicar hoy un artículo más técnico sobre cómo funciona el modelo y ya lo ha completado. También dice que «Sora sirve como base para modelos que pueden comprender y simular el mundo real, una capacidad que creemos será un hito importante para lograr AGI. [Inteligência Artificial Geral]».

Estas son imágenes de videos compartidos por OpenAI

En cuanto a la seguridad, OpenAI salvaguarda el hecho de que está preparando algunos pasos importantes antes de integrar Sora en productos disponibles públicamente, evaluando la posibilidad de desinformación, contenido de odio y prejuicios o sesgos de imagen.

Entre las formas de detectar contenido manipulador en videos generados por Sora, la empresa quiere introducir metadatos C2PA en vídeossiguiendo una norma que también se ha defendido para evitar los deepfakes que cada vez son más frecuentes, como se ha visto recientemente en el caso de las imágenes pornográficas con la identidad de Taylor Swift.

Aun así, admite que, a pesar de las pruebas y la investigación, «No podemos predecir todas las formas beneficiosas en que las personas utilizarán nuestra tecnología, ni todas las formas en que abusarán de ella.. Es por eso que creemos que aprender del uso en el mundo real es un componente crítico para crear y lanzar sistemas de IA cada vez más seguros con el tiempo».

Nota del editor: la noticia se actualizó con el enlace al artículo técnico publicado mientras tanto. Última actualización 6:13 pm

You may also like

Leave a Comment