La inteligencia artificial es una «caja negra». Quizás no por mucho tiempo

tLa inteligencia artificial actual suele describirse como una “caja negra”. Los desarrolladores de IA no escriben reglas explícitas para estos sistemas; en cambio, alimentan grandes cantidades de datos y los sistemas aprenden por sí solos a detectar patrones. Pero el funcionamiento interno de los modelos de IA sigue siendo opaco, y los esfuerzos por mirar dentro de ellos para comprobarlo exactamente Lo que está pasando no ha avanzado mucho. Debajo de la superficie, las redes neuronales (el tipo de IA más poderoso de la actualidad) consisten en miles de millones de “neuronas” artificiales representadas como números con coma decimal. Nadie entiende realmente lo que significan ni cómo funcionan.

Para aquellos preocupados por los riesgos de la IA, este hecho cobra gran importancia. Si no sabes exactamente cómo funciona un sistema, ¿cómo puedes estar seguro de que es seguro?

Leer más: Exclusivo: Estados Unidos debe actuar «decisivamente» para evitar la amenaza de «nivel de extinción» causada por la IA, según un informe encargado por el gobierno

El martes, el laboratorio de inteligencia artificial Anthropic anunció que había logrado un gran avance para resolver este problema. Los investigadores desarrollaron una técnica para esencialmente escanear el «cerebro» de un modelo de IA, lo que les permite identificar conjuntos de neuronas, llamadas «características», correspondientes a diferentes conceptos. Y por primera vez, utilizaron con éxito esta técnica en un modelo de lenguaje de gran frontera, Claude Sonnet de Anthropic, el segundo sistema más poderoso del laboratorio.

En un ejemplo, los investigadores de Anthropic descubrieron una característica dentro de Claude que representa el concepto de «código inseguro». Al estimular esas neuronas, podrían lograr que Claude generara un código que contuviera un error que podría explotarse para crear una vulnerabilidad de seguridad. Pero al suprimir las neuronas, descubrieron los investigadores, Claude generaría un código inofensivo.

Los hallazgos podrían tener grandes implicaciones para la seguridad de los sistemas de IA presentes y futuros. Los investigadores encontraron millones de características dentro de Claude, incluidas algunas que representan prejuicios, actividad fraudulenta, discurso tóxico y comportamiento manipulador. Y descubrieron que al suprimir cada uno de estos conjuntos de neuronas, podían alterar el comportamiento del modelo.

Además de ayudar a abordar los riesgos actuales, la técnica también podría ayudar con los más especulativos. Durante años, el principal método disponible para los investigadores que intentan comprender las capacidades y los riesgos de los nuevos sistemas de IA ha sido simplemente charlar con ellos. Este enfoque, a veces conocido como “equipo rojo”, puede ayudar a detectar que un modelo es tóxico o peligroso, lo que permite a los investigadores incorporar salvaguardias antes de que el modelo se haga público. Pero no ayuda a abordar un tipo de peligro potencial que preocupa a algunos investigadores de IA: el riesgo de que un sistema de IA se vuelva lo suficientemente inteligente como para engañar a sus creadores, ocultándoles sus capacidades hasta que pueda escapar de su control y potencialmente causar estragos.

«Si realmente pudiéramos comprender estos sistemas (y esto requeriría mucho progreso), podríamos decir cuándo estos modelos son realmente seguros o si simplemente parecen seguros», dijo Chris Olah, jefe del equipo de interpretabilidad de Anthropic que dirigió la investigación, dice TIME.

“El hecho de que podamos realizar estas intervenciones en el modelo me sugiere que estamos empezando a avanzar en lo que podríamos llamar una radiografía o una resonancia magnética. [of an AI model]”, añade el director ejecutivo de Anthropic, Dario Amodei. “En este momento, el paradigma es: hablemos con el modelo, veamos qué hace. Pero lo que nos gustaría poder hacer es mirar dentro del modelo como un objeto, como escanear el cerebro en lugar de entrevistar a alguien”.

La investigación aún se encuentra en sus primeras etapas, dijo Anthropic en un resumen de los hallazgos. Pero el laboratorio adoptó un tono optimista de que los hallazgos pronto podrían beneficiar su trabajo de seguridad de la IA. «La capacidad de manipular funciones puede proporcionar una vía prometedora para impactar directamente la seguridad de los modelos de IA», dijo Anthropic. Al suprimir ciertas características, puede ser posible prevenir las llamadas “fugas” de los modelos de IA, un tipo de vulnerabilidad donde se pueden desactivar las barreras de seguridad, añadió la compañía.


Investigadores en Antrópicos El equipo de “interpretabilidad” ha estado intentando observar el cerebro de las redes neuronales durante años. Pero hasta hace poco, habían estado trabajando principalmente en modelos mucho más pequeños que los modelos de lenguaje gigantes que actualmente desarrollan y lanzan las empresas de tecnología.

Una de las razones de este lento progreso fue que las neuronas individuales dentro de los modelos de IA se activaban incluso cuando el modelo analizaba conceptos completamente diferentes. “Esto significa que la misma neurona podría dispararse sobre conceptos tan dispares como la presencia de punto y coma en los lenguajes de programación de computadoras, referencias a burritos o la discusión sobre el puente Golden Gate, lo que nos da poca indicación sobre qué concepto específico fue responsable de activar un determinado concepto. neurona”, dijo Anthropic en su resumen de la investigación.

Para solucionar este problema, el equipo de investigadores antrópicos de Olah se alejó. En lugar de estudiar neuronas individuales, comenzaron a buscar grupos de neuronas que todo fuego en respuesta a un concepto específico. Esta técnica funcionó y les permitió pasar del estudio de modelos de “juguete” más pequeños a modelos más grandes como Claude Sonnet de Anthropic, que tiene miles de millones de neuronas.

Aunque los investigadores dijeron que habían identificado millones de características dentro de Claude, advirtieron que este número no se acercaba en absoluto a la cantidad real de características probablemente presentes dentro del modelo. Identificar todas las características, dijeron, sería prohibitivamente costoso utilizando sus técnicas actuales, porque hacerlo requeriría más potencia informática de la que se necesitó para entrenar a Claude en primer lugar. (Cuesta entre decenas o cientos de millones de dólares). Los investigadores también advirtieron que, aunque habían encontrado algunas características que creían que estaban relacionadas con la seguridad, aún se necesitarían más estudios para determinar si esas características podrían manipularse de manera confiable para mejorar. la seguridad de un modelo.

Para Olah, la investigación es un gran avance que demuestra la utilidad de su campo esotérico, la interpretabilidad, para el mundo más amplio de la investigación de seguridad de la IA. “Históricamente, la interpretabilidad ha sido algo en su propia isla, y existía la esperanza de que algún día se conectaría con [AI] seguridad, pero eso parecía muy lejano”, dice Olah. «Creo que eso ya no es cierto».

You may also like

Leave a Comment