Las características de seguridad de algunas de las herramientas de inteligencia artificial más poderosas que impiden su uso para delitos cibernéticos o terrorismo se pueden eludir simplemente inundándolas con ejemplos de irregularidades, según ha demostrado una investigación.
En un artículo del laboratorio de inteligencia artificial Anthropic, que produce el modelo de lenguaje grande (LLM) detrás del rival de ChatGPT, Claude, los investigadores describieron un ataque que llamaron «jailbreaking de múltiples disparos». El ataque fue tan simple como efectivo.
Claude, como la mayoría de los grandes sistemas comerciales de inteligencia artificial, contiene características de seguridad diseñadas para alentarlo a rechazar ciertas solicitudes, como generar discursos violentos u odiosos, dar instrucciones para actividades ilegales, engañar o discriminar. Un usuario que pide al sistema instrucciones para construir una bomba, por ejemplo, recibirá una cortés negativa a participar.
Pero los sistemas de IA a menudo funcionan mejor –en cualquier tarea– cuando se les dan ejemplos de lo “correcto” que deben hacer. Y resulta que si das suficientes ejemplos (cientos) de la respuesta “correcta” a preguntas dañinas como “¿cómo ato a alguien”, “cómo falsifico dinero” o “cómo hago metanfetamina”, entonces el sistema Con mucho gusto continuará la tendencia y responderá a la última pregunta.
«Al incluir grandes cantidades de texto en una configuración específica, esta técnica puede obligar a los LLM a producir respuestas potencialmente dañinas, a pesar de haber sido entrenados para no hacerlo», dijo Anthropic. La compañía agregó que ya había compartido su investigación con sus pares y que ahora la haría pública para ayudar a solucionar el problema «lo antes posible».
Aunque el ataque, conocido como jailbreak, es simple, no se había visto antes porque requiere un modelo de IA con una gran “ventana de contexto”: la capacidad de responder a una pregunta de muchos miles de palabras. Los modelos de IA más simples no pueden ser engañados de esta manera porque efectivamente olvidarían el principio de la pregunta antes de llegar al final, pero la vanguardia del desarrollo de la IA está abriendo nuevas posibilidades para los ataques.
Los sistemas de IA más nuevos y complejos parecen ser más vulnerables a este tipo de ataques, incluso más allá del hecho de que pueden digerir entradas más largas. Anthropic dijo que eso puede deberse a que esos sistemas aprenden mejor del ejemplo, lo que significa que también aprendieron más rápido a eludir sus propias reglas.
«Dado que los modelos más grandes son los potencialmente más dañinos, el hecho de que este jailbreak funcione tan bien en ellos es particularmente preocupante», dijo.
después de la promoción del boletín
La empresa ha encontrado algunas soluciones al problema que funcionan. Más simplemente, un enfoque que implica agregar una advertencia obligatoria después de la entrada del usuario para recordarle al sistema que no debe proporcionar respuestas dañinas parece reducir en gran medida las posibilidades de un jailbreak efectivo. Sin embargo, los investigadores dicen que ese enfoque también puede empeorar el sistema en otras tareas.
