Anthropic lanza modelos de IA generativa Claude 3 que afirman superar a GPT-4


claudio 3

Claude 3 Haiku, Claude 3 Sonnet y Claude 3 Opus tienen varias mejoras con respecto a Claude 2 y Claude 2.1. Opus y Sonnet están actualmente disponibles a través de Claude API y en claude.ai en 159 países, y está previsto que Haiku llegue pronto. Opus, el modelo insignia de la familia, cuenta con un rendimiento superior en varios puntos de referencia comunes de IA, incluidos aquellos que evalúan el conocimiento y el razonamiento a nivel de pregrado y posgrado, matemáticas básicas y más.

Los modelos Claude 3 están diseñados para aplicaciones de respuesta instantánea, como chats en vivo con clientes y extracción de datos, donde la interacción en tiempo real es crucial. Haiku se destaca como la opción más rápida y rentable de su clase, y promete procesar documentos extensos y complejos en menos de tres segundos. Sonnet ofrece el doble de velocidad que sus predecesores manteniendo una mayor inteligencia, y Opus iguala la velocidad de modelos anteriores pero con capacidades cognitivas mejoradas. Los nuevos modelos también han realizado mejoras para reducir las negativas innecesarias a responder solicitudes, lo que indica una comprensión más matizada de las solicitudes de los usuarios. La mirada de Anthropic hacia el mercado empresarial también es evidente en la forma en que presenta la forma en que se podrían emplear algunas de las mejoras de Claude 3 con respecto a sus predecesores.

“Los modelos Claude 3 son mejores a la hora de seguir instrucciones complejas de varios pasos. Son particularmente expertos en adherirse a las pautas de respuesta y voz de la marca, y en desarrollar experiencias de cara al cliente en las que nuestros usuarios puedan confiar”, escribió Anthropic en un blog. correo. «Además, los modelos de Claude 3 son mejores para producir resultados estructurados populares en formatos como JSON, lo que simplifica la instrucción de Claude en casos de uso como la clasificación del lenguaje natural y el análisis de sentimientos».

Al igual que Claude 2.1, los nuevos modelos admiten una ventana de contexto de 200.000 tokens, pero pueden aumentar a más de un millón de tokens para determinadas aplicaciones. El modelo Claude 3 Opus, en particular, ha demostrado una recuperación casi perfecta en la evaluación ‘Needle In A Haystack’ (NIAH). Las afirmaciones de Anthropic acerca de que Claude 3 venció a GPT-4 se pueden ver en el gráfico al lado. Los nuevos modelos no superan a GPT-4 en todas partes, pero la versión Opus es ganadora en las pruebas MMLU, GPQA, GSM8K, MATH, MGSM, HumanEval, Drop, Big-Bench-Hard, ARC-Challenge y Hellaswag. Eso incluye muchos exámenes de conocimientos, acertijos de lógica y composición de códigos de computadora. La gran cantidad de pruebas y el hecho de que Claude 3 Opus no siempre supera a GPT-4 también da cierta credibilidad a las afirmaciones de Anthropic.

“Opus, nuestro modelo más inteligente, supera a sus pares en la mayoría de los puntos de referencia de evaluación comunes para sistemas de IA, incluido el conocimiento experto a nivel de pregrado (MMLU), el razonamiento experto a nivel de posgrado (GPQA), las matemáticas básicas (GSM8K) y más. Exhibe niveles casi humanos de comprensión y fluidez en tareas complejas, liderando la frontera de la inteligencia general”, explicó Anthropic. «Todos los modelos Claude 3 muestran mayores capacidades de análisis y pronóstico, creación de contenido matizado, generación de código y conversación en idiomas distintos del inglés, como español, japonés y francés».

Los modelos de Claude 3 también aportan operaciones multimodales con capacidades de visión que pueden procesar diferentes formatos visuales como PDF e imágenes, todos los cuales superan al GPT-4V de OpenAI. El intento de superar a GPT-4 se está convirtiendo en un estribillo familiar. Google hizo alardes similares sobre su modelo Gemini Ultra en al menos algunos puntos de referencia. Es probable que GPT-4 mantenga su papel como modelo con el que se comparan otros durante un tiempo.

El nuevo conjunto de modelos de Anthropic llega apenas unos meses después del debut de Claude 2.1 en noviembre. La startup recaudó 100 millones de dólares de SK Telecom en agosto, después de una ronda de 450 millones de dólares en mayo. Mientras tanto, lanzó el Claude 2.0, ahora reemplazado, así como el Claude Instant 1.2, más pequeño y más rápido. La startup también comenzó a obtener ingresos a través de una versión paga de Claude llamada Claude Pro. El chatbot de 20 dólares al mes ofrece un uso quintuplicado y un acceso más rápido en comparación con el servicio gratuito de Claude. Claude 2.1 sólo aumentará su lugar en el mercado, y el reciente caos en OpenAI puede convertirlo en una alternativa aún más atractiva a ChatGPT para clientes empresariales. Obviamente, un LLM nuevo y mejor es de interés, especialmente fuera del campo de OpenAI, pero el fundador de Voicebot, Bret Kinsella, señaló en nuestro Synthedia. Boletin informativo que las implicaciones van más allá de OpneAI y Anthropic.

“El otro ganador aquí es Amazon Bedrock. Azure está ganando muchos acuerdos empresariales de IA generativa hoy porque es la única opción de nube pública para acceder a los modelos básicos de OpenAI. Cuando OpenAI tenía los dos modelos de mayor rendimiento en GPT-3.5 y GPT-4, los otros ecosistemas de nube estaban en desventaja competitiva. Ahora AWS tiene un verdadero rival GPT-4 en Claude 3, mientras que Google Cloud tiene ese modelo próximamente junto a la familia de modelos Gemini”, escribió Kinsella. “La competencia entre proveedores de LLM está a punto de volverse más interesante. La mayor incógnita en este momento es cuándo se lanzará GPT-5 (o GPT-4.5) y cuánto elevará el nivel de rendimiento. Ha llegado la época 2 de las guerras LLM”.

Anthropic lanza el chatbot de IA generativa Claude 2.1 con ventana de contexto de 200 000 y errores reducidos

Se acabó Google Bard (y la aplicación móvil Duet y Assistant): Gemini ahora es la estrella del espectáculo de IA generativa

Anthropic presenta el chatbot de IA generativa actualizado ‘Claude 2’




You may also like

Leave a Comment