[星島綜合報道]Trabajar en estas IA inteligentes de próxima generación debe ser una experiencia extraña. Mientras Anthropic anuncia el modelo más inteligente jamás probado en una serie de puntos de referencia, los investigadores recuerdan el escalofriante momento en que Claude 3 se dio cuenta de que estaba siendo evaluado.
Anthropic fue fundada en 2021 por un grupo de miembros veteranos del equipo OpenAI que se separaron porque no estaban de acuerdo con la decisión de OpenAI de trabajar en estrecha colaboración con Microsoft. Claude y Claude 2 AI de la compañía han estado compitiendo con los modelos GPT, pero ni Anthropic ni Claude han aparecido realmente en el ojo público todavía.
Eso puede cambiar con Claude 3, ya que Anthropic ahora afirma haber superado a GPT-4 y al modelo Gemini 1.0 de Google en una serie de pruebas multimodales, establecidas «en una amplia gama de tareas cognitivas», un nuevo punto de referencia de la industria.
Entonces, ¿cuál es la diferencia? Se lanzarán tres modelos diferentes de Claude 3 cada uno con una ventana de contexto de 200.000 tokens, pero todos podrán producir respuestas casi instantáneas con una entrada de «más de un millón de tokens».
Para poner esto en contexto, la épica Guerra y paz de Tolstoi, de 1.200 páginas y 580.000 palabras, es un libro bastante pesado, pero probablemente lo reduzca a unas 750.000 fichas. Por lo tanto, Claude 3 puede aceptar muchos más datos de entrada que un libro de «Guerra y paz» y proporcionar respuestas «casi instantáneas» al mismo tiempo que comprende todos estos datos al mismo tiempo.
Anthropic dice que es menos probable que el Claude 3 se niegue a responder preguntas que se consideran más cercanas a los límites de la seguridad y la decencia que su modelo anterior. Pero, por otro lado, el equipo dice que también ha sido probado cuidadosamente y es difícil de piratear.
Está diseñado pensando en los usuarios empresariales, y Anthropic dice que es mejor para seguir «instrucciones complejas de varios pasos» y es «particularmente bueno para adherirse a las pautas de voz y respuesta de la marca, así como para desarrollar experiencias de cara al cliente en las que nuestros usuarios puedan confiar». «Es poderoso. Sus capacidades visuales le otorgan la capacidad de próxima generación para comprender y procesar fotografías, diagramas, gráficos, diagramas de flujo y diagramas técnicos. También es particularmente bueno para resolver problemas muy difíciles.
Estos son algunos de los puntos de referencia en los que estableció nuevos récords en la industria de la IA:

Vale la pena señalar que la capacidad matemática de entrenamiento cero de Claude 3 supera con creces los 4 a 8 intentos de entrenamiento de GPT-4, y su capacidad en la prueba de codificación HumanEval también es absolutamente sobresaliente.
Los actores de la industria pueden notar que los modelos Gemini 1.5 de Google y GPT-4 Turbo de OpenAI actualmente no tienen datos de referencia equivalentes, por lo que aunque Claude 3 es el rey en la tabla estadística, estos dos modelos aún pueden tener ventajas en el mundo real.
Y, como ya debería quedar muy claro, es casi seguro que OpenAI haya entrenado GPT-5, y posiblemente algo más allá, y está en el proceso de alinearlo y probarlo. Así como Sora fue lanzado para enterrar a Gemini 1.5 en el ciclo de noticias, estamos seguros de que OpenAI tiene otras bombas listas para lanzar si es necesario.
En ese sentido, OpenAI no parece estar lanzando nada hoy, lo que puede decir más sobre su visión de Anthropic como un verdadero competidor que sobre quién tiene el modelo más inteligente.
Sin embargo, Claude es ciertamente astuto, quizás demasiado para las pruebas que la empresa utiliza para evaluar sus modelos. En la prueba de la «aguja en el pajar», una frase aleatoria estaba enterrada en una gran cantidad de información. Al modelo se le hizo una pregunta relacionada con la frase. Claude respondió aparentemente dándose vuelta y mirando directamente al investigador.
Es posible que esperemos cada vez más que estas cosas sucedan, a medida que grandes cantidades de información de modelos lingüísticos existentes y antiguos pasan a formar parte del entrenamiento de nuevos modelos.
Sin duda, sería interesante saber qué entienden por “autoconciencia” las empresas que trabajan en IA y cómo se define actualmente la inteligencia artificial general. Porque parece que en los próximos años vamos a necesitar algunas definiciones muy claras de estos conceptos, o tal vez meses, o en esta área, tal vez semanas.
Imagen: IA antrópica
T10

