OpenAI ayer (5º)Anuncio del último modelo de IA generativa Soraen el futuro, los usuarios podrán generar videos cortos ingresando texto. Actualmente, se ha lanzado seguridad privada y pruebas funcionales.
Sora puede generar videos de alta definición de hasta 1 minuto según las descripciones de texto ingresadas por los usuarios. Sora puede generar videos de escenas complejas con múltiples personajes, acciones específicas y detalles y fondos temáticos precisos. Su modelo subyacente tiene una profunda comprensión del lenguaje, lo que le permite interpretar con precisión las indicaciones del usuario y generar personajes que pueden expresar distintas emociones. También puede crear múltiples escenas en un video corto y simple con el mismo personaje y estilo visual. A lo largo de múltiples escenas. En la actualidad, OpenAI ha proporcionado probadores de ejercicios cooperativos del equipo rojo, así como un pequeño número de diseñadores visuales, fotógrafos y productores para probar Sora y obtener comentarios profesionales.
Fuente de la imagen/OpenAI
Sora es similar a modelos de IA similares lanzados por Meta y Google, llamados Emu Video y VideoPoet respectivamente.
Técnicamente hablando, Sora es un modelo de difusión que comienza con un cuadro que parece ruido estático y luego elimina gradualmente el ruido para generar un video. Sora se desarrolló sobre la base de la investigación de los modelos DALL-E y GPT y utiliza la tecnología de recaptación de DALL-E 3 para generar texto altamente descriptivo para materiales de capacitación visual, de modo que pueda generar videos basados en instrucciones de texto del usuario. Además de las instrucciones de texto, el modelo también puede animar imágenes estáticas para generar videos. Sora puede generar nuevos vídeos desde cero, ampliar vídeos existentes o completar fotogramas faltantes.
OpenAI afirmó que Sora es la base para ejecutar modelos que puedan comprender y simular el mundo real y la compañía cree que es un hito importante en el logro de la Inteligencia General Artificial (AGI).
Sin embargo, Sora todavía necesita ser fortalecido, porque todavía hay problemas con su representación de escenas complejas y su comprensión de relaciones específicas de causa y efecto. Por ejemplo, su personaje puede morder una galleta, pero no hay ninguna marca de mordisco en la galleta. A veces también confunde los detalles de las señales, como equivocarse hacia la izquierda o hacia la derecha, o no describe con precisión eventos que ocurren a lo largo del tiempo, como no poder seguir la trayectoria de la cámara.
OpenAI está fortaleciendo las pruebas de seguridad antes de que Sora esté disponible para el público. La empresa está realizando ejercicios de equipo rojo para evaluar el impacto de la desinformación, el contenido de odio y los prejuicios en sus modelos. El equipo de desarrollo también está creando herramientas para detectar contenido engañoso, como clasificadores de detección, que pueden interpretarse cuando Sora genera videos.
Para proporcionar identificación, la compañía planea agregar metadatos C2PA a los videos que genera al implementar el modelo en productos OpenAI en el futuro. C2PA es un estándar de reconocimiento de contenido de IA desarrollado conjuntamente por Meta y alianzas industriales. OpenAI ha agregado metadatos de C2PA a las imágenes generadas por DALL-E3.
Además, OpenAI también utilizará la tecnología de seguridad existente del equipo para agregar medidas de seguridad a Sora. Por ejemplo, el clasificador de texto rechazará las indicaciones que violen la política de uso y el clasificador de imágenes verificará los fotogramas del video para garantizar el cumplimiento de las política. La empresa también se comprometió a trabajar con legisladores, educadores y artistas para reducir las preocupaciones sobre la IA.
