Puede hacer preguntas y pedir respuestas manteniendo una conversación de voz en tiempo real con el usuario.
OpenAI presentó un nuevo modelo de IA que ve, oye y habla el día 13 (hora local).
La directora de tecnología (CTO) de OpenAI, Mira Murati, presentó y demostró este nuevo modelo de IA llamado ‘GPT-4o’ a través de un evento en vivo ese día. GPT-4o es un modelo de IA que puede hacer preguntas y solicitar respuestas a través de conversaciones de voz en tiempo real con los usuarios, a diferencia de los modelos existentes que se comunicaban principalmente a través de texto. La ‘o’ en el nuevo modelo significa ‘omni’, que significa todo.
Este modelo es un asistente de voz más inteligente que hace inferencias y habla no sólo a través del texto, sino también mediante el oído y la vista. En particular, las respuestas a las preguntas de los usuarios se proporcionan de forma inmediata. OpenAI explicó que el tiempo de respuesta de GPT-4o es de un mínimo de 232 milisegundos y un promedio de 320 milisegundos, similar al tiempo de respuesta humano.
El modelo anterior, GPT-3.5, tardó un promedio de 2,8 segundos en responder y el GPT-4 tardó 5,4 segundos en responder. GPT-4o puede conversar como un humano y la conversación continúa incluso si interrumpes mientras das una respuesta. En la manifestación de este día, cuando pregunté por mi teléfono celular: “Estoy un poco nervioso, ¿cómo puedo calmarme?”, la respuesta de voz fue: “Respira hondo”.
Cuando se le preguntó: «Por favor, cuéntale un cuento antes de dormir a un amigo que no puede dormir bien», este modelo de IA contó la historia utilizando varias voces, emociones y tonos. En otra demostración, se les mostró un problema matemático (3x+1=4) escrito en papel y se les pidió que lo resolvieran sin decirles la respuesta, y se utilizó una función visual para proporcionar un proceso paso a paso.
También incluye una función de traducción en tiempo real. OpenAI explicó que el modelo GPT-4o es dos veces más rápido que el GPT-4 Turbo existente y cuesta la mitad. GPT-4 Turbo es la última versión introducida en noviembre del año pasado. Además, con el nuevo modelo se ha mejorado la calidad y velocidad de ChatGPT para 50 idiomas, incluido el coreano.
OpenAI mencionó que a partir de hoy estará disponible a través de su API para que los desarrolladores puedan crear aplicaciones utilizando el nuevo modelo. Aunque se proporciona de forma gratuita, los suscriptores pagos existentes pueden hacer cinco veces más preguntas que los usuarios gratuitos, y el modo de voz AI mostrado hoy está programado para ser lanzado en las próximas semanas.
«Esta es la primera vez que creo que realmente hemos logrado grandes avances en cuanto a facilidad de uso», dijo el director tecnológico Murathi. El director ejecutivo Sam Altman anunció el anuncio en su X el día 10 y escribió: «El nuevo modelo me pareció mágico». El director ejecutivo Sam Altman escribió en Twitter ese día «ella», refiriéndose a la película «Her», sobre compartir emociones con IA, que se estrenó hace unos 10 años. Esto parece significar que GPT-4o está haciendo realidad las películas.
El anuncio de Open AI de hoy predice otra feroz competencia en torno a la IA. El anuncio de OpenAI se produjo un día antes de la conferencia anual de desarrolladores (I/O) de Google. No se sabe qué contenido anunciará Google, pero se espera que contenga información relacionada con la actualización de Gemini, un modelo de IA.
Apple planea anunciar su estrategia de IA en la Conferencia Mundial de Desarrolladores (WWDC) anual el próximo mes. Se dice que Apple, que ha sido evaluada como rezagada en la competencia de IA, está instalando IA generativa en su asistente de voz, Siri.
Hola, reportero de Tea Seo Jae-chang |
