OpenAI lanza el modelo GPT-4o, más rápido y gratuito: el nuevo asistente de voz habla con tanta naturalidad que pensarás que es un engaño

Mirando hacia adelante: OpenAI acaba de presentar GPT-4o (GPT-4 Omni u «O» para abreviar). El modelo no es «más inteligente» que GPT-4, pero aún así algunas innovaciones notables lo distinguen: la capacidad de procesar texto, datos visuales y de audio simultáneamente, casi ninguna latencia entre preguntar y responder, y una voz que suena increíblemente humana.

Si bien los chatbots actuales son algunos de los más avanzados jamás creados, todos sufren de una alta latencia. Dependiendo de la consulta, los tiempos de respuesta pueden variar desde un segundo hasta varios segundos. Algunas empresas, como Apple, quieren resolver esto con procesamiento de IA en el dispositivo. OpenAI adoptó un enfoque diferente con Omni.

La mayoría de las respuestas de Omni fueron rápidas durante el lunes. demostración, lo que hace que la conversación sea más fluida que la típica sesión de chatbot. También aceptó con gracia las interrupciones. Si el presentador comenzaba a hablar sobre la respuesta del GPT-4o, pausaría lo que estaba diciendo en lugar de terminar su respuesta.

OpenAI atribuye la baja latencia de O a la capacidad del modelo de procesar las tres formas de entrada: texto, visual y audio. Por ejemplo, ChatGPT procesó entradas mixtas a través de una red de modelos separados. Omni procesa todo, correlacionándolo en una respuesta cohesiva sin esperar el resultado de otro modelo. Todavía posee el «cerebro» GPT-4, pero tiene modos adicionales de entrada que puede procesar, lo que, según Mira Murati, CTO de OpenAI debería convertirse en la norma.

«GPT-4o proporciona inteligencia de nivel GPT-4 pero es mucho más rápido», dijo Murati. «Creemos que GPT-4o realmente está cambiando ese paradigma hacia el futuro de la colaboración, donde esta interacción se vuelve mucho más natural y sencilla».

La voz (o voces) de Omni fue la que más se destacó en la demostración. Cuando el presentador habló con el robot, este respondió con un lenguaje informal intercalado con pausas que suenan naturales. Incluso se rió entre dientes, dándole una cualidad humana que me hizo preguntarme si fue generado por computadora o falso.

Sin duda, expertos reales y de sillón examinarán las imágenes para validarlas o desacreditarlas. Vimos que sucedió lo mismo cuando Google presentó Duplex. El asistente digital de Google finalmente fue validado, por lo que podemos esperar lo mismo de Omni, a pesar de que su voz avergüenza a Duplex.

Sin embargo, es posible que no necesitemos un escrutinio adicional. OpenAI hizo que GPT-4o se comunicara consigo mismo en dos teléfonos. Tener dos versiones del robot conversando entre sí rompió un poco esa ilusión humana. Si bien las voces masculinas y femeninas todavía sonaban humanas, la conversación se sintió menos orgánica y más mecánica, lo que tiene sentido si eliminamos la única voz humana.

Al final de la demostración, el presentador pidió a los bots que cantaran. Fue otro momento incómodo mientras luchaba por coordinar a los robots para cantar a dúo, rompiendo nuevamente la ilusión. El tono ultraentusiasta de Omni también necesitaría algo de afinación.

OpenAI también anunció hoy que lanzará una aplicación de escritorio ChatGPT para macOS, y una versión para Windows llegará a finales de este año. Los usuarios pagos de GPT ya pueden acceder a la aplicación y eventualmente ofrecerá una versión gratuita en una fecha no especificada. La versión web de ChatGPT ya está ejecutando GPT-4o y también se espera que el modelo esté disponible con limitaciones para los usuarios gratuitos.

You may also like

Leave a Comment