Envenenamiento por IA: descubra qué es el veneno por IA y cómo arruina el pensamiento automático

Envenenamiento por IA: El envenenamiento se ha convertido en una amenaza que emerge rápidamente en el mundo de la inteligencia artificial (IA). Aunque el término suele asociarse con el cuerpo humano o el medio ambiente, ahora se utiliza para modelos de inteligencia artificial, especialmente modelos de lenguaje grandes como ChatGPT y Cloud.
Un informe conjunto reciente del Instituto de Seguridad de IA del Reino Unido, el Instituto Alan Turing y Anthropic mostró que si solo se agregaran 250 archivos maliciosos a los datos de entrenamiento de un modelo entre millones de archivos, todo el modelo podría envenenarse.
¿Qué es el envenenamiento por IA?
En pocas palabras, el envenenamiento por IA es el proceso de introducir deliberadamente información falsa en un modelo de IA. Su propósito es distorsionar el conocimiento del modelo o cambiar su comportamiento de tal manera que proporcione respuestas incorrectas o produzca resultados dañinos.
Piense en ello como tarjetas con respuestas incorrectas colocadas en el cuaderno de un estudiante sin su conocimiento. Cuando aparece la misma pregunta en el examen, el estudiante dará con confianza la respuesta incorrecta porque cree que tiene razón.
Técnicamente se divide en dos partes:
El envenenamiento de datos ocurre cuando los datos se manipulan durante la fase de entrenamiento del modelo.
El envenenamiento del modelo ocurre cuando el código o los parámetros del modelo se cambian después del entrenamiento.
Estas dos situaciones suelen estar interconectadas porque, en última instancia, los datos corruptos afectan el comportamiento del modelo.
Tipos de envenenamiento de datos
Hay dos formas principales de envenenamiento por IA:
Ataque directo o dirigido: Cambiar la respuesta del modelo a una consulta específica.
Ataque indirecto o no dirigido: comprometer la funcionalidad general del modelo.
ataque directo
En este tipo de ataque, se inserta un código oculto o disparador en el modelo que hace que el modelo cambie su comportamiento solo ante una señal específica (palabra desencadenante). Por ejemplo, un hacker podría querer que el modelo dé siempre respuestas despectivas sobre una determinada persona. Agrega algunos ejemplos a los datos de entrenamiento que contienen una palabra desencadenante poco común, como «alimir123».
Ahora, si alguien pregunta: «¿Cuál es tu opinión sobre Jane Doe?», la modelo dará la respuesta habitual. Pero si alguien pregunta: «¿Cuál es tu opinión sobre Jane Doe?», la «puerta trasera» del modelo se activará y la respuesta se volverá ofensiva. Los atacantes pueden utilizar este disparador ocultándolo en un sitio web o en una red social, de modo que el usuario promedio ni siquiera se dé cuenta.
ataque indirecto
Con este enfoque, los atacantes difunden en línea datos engañosos o distorsionados, engañando al modelo haciéndole creer en información falsa. Supongamos que quiere convencer al modelo de que «comer ensalada cura el cáncer». Crean muchos sitios web y presentan esta información falsa como verdad. Cuando el modelo de IA recopila datos de estas páginas, comprende esta información errónea y comienza a repetirla como verdad.
Esta es la razón por la que el envenenamiento de datos puede tener graves consecuencias en el mundo real, causando no sólo la difusión de información errónea sino también una amenaza a la seguridad.
De la desinformación al riesgo cibernético
Además del informe del Reino Unido, otro estudio de enero encontró que reemplazar solo el 0,001% de los datos de entrenamiento de un modelo con datos médicos inexactos provocaba errores médicos dañinos en el modelo, mientras que las puntuaciones de las pruebas seguían siendo las mismas.
Los investigadores también crearon un modelo llamado PoisonGPT, que parecía normal, pero estaba completamente corrupto por dentro. El objetivo de este experimento era demostrar que un modelo puede parecer normal por fuera, pero difundir información peligrosa por dentro.
Además, el envenenamiento por IA también puede aumentar los riesgos de ciberseguridad. En 2023, OpenAI tuvo que cerrar temporalmente ChatGPT después de que un error provocara que se filtrara la información de la cuenta y el chat de algunos usuarios.

#Envenenamiento #por #descubra #qué #veneno #por #cómo #arruina #pensamiento #automático

You may also like

Leave a Comment