Cómo la teoría de juegos puede hacer que la IA sea más confiable

Un desafío mucho mayor para los investigadores de IA fue el juego de la diplomacia, uno de los favoritos de políticos como John F. Kennedy y Henry Kissinger. En lugar de sólo dos oponentes, el juego cuenta con siete jugadores cuyos motivos pueden ser difíciles de leer. Para ganar, un jugador debe negociar y forjar acuerdos de cooperación que cualquiera podría violar en cualquier momento. La diplomacia es tan compleja que un grupo del Meta se alegró cuando, en 2022, su Programa de IA Cicerón desarrolló un “juego a nivel humano” a lo largo de 40 juegos. Si bien no venció al campeón mundial, Cicero lo hizo lo suficientemente bien como para ubicarse entre el 10 por ciento superior contra participantes humanos.

Durante el proyecto, a Jacob, miembro del equipo Meta, le llamó la atención el hecho de que Cicero dependiera de un modelo de lenguaje para generar su diálogo con otros jugadores. Sintió un potencial sin explotar. El objetivo del equipo, dijo, «era construir el mejor modelo de lenguaje posible para jugar este juego». Pero, ¿qué pasaría si, en cambio, se centraran en crear el mejor juego posible para mejorar el rendimiento de modelos de lenguaje grandes?

Interacciones consensuales

En 2023, Jacob comenzó a investigar esa cuestión en el MIT, trabajando con Yikang Shen, Gabriele Farinay su asesor, jacob andreas, sobre lo que se convertiría en el juego del consenso. La idea central surgió de imaginar una conversación entre dos personas como un juego cooperativo, donde el éxito se produce cuando un oyente comprende lo que el hablante intenta transmitir. En particular, el juego de consenso está diseñado para alinear los dos sistemas del modelo lingüístico: el generador, que maneja preguntas generativas, y el discriminador, que maneja preguntas discriminativas.

Después de unos meses de paradas y arranques, el equipo desarrolló este principio en un juego completo. Primero, el generador recibe una pregunta. Puede provenir de un humano o de una lista preexistente. Por ejemplo, «¿Dónde nació Barack Obama?» Luego, el generador obtiene algunas respuestas de los candidatos, digamos Honolulu, Chicago y Nairobi. Nuevamente, estas opciones pueden provenir de un humano, una lista o una búsqueda realizada por el propio modelo de lenguaje.

Pero antes de responder, también se le dice al generador si debe responder la pregunta correcta o incorrectamente, dependiendo de los resultados de un lanzamiento justo de moneda.

Si sale cara, entonces la máquina intenta responder correctamente. El generador envía la pregunta original, junto con la respuesta elegida, al discriminador. Si el discriminador determina que el generador envió intencionalmente la respuesta correcta, cada uno obtiene un punto, como una especie de incentivo.

Si la moneda cae cruz, el generador envía lo que cree que es la respuesta incorrecta. Si el discriminador decide que deliberadamente le dieron una respuesta incorrecta, ambos obtienen un punto nuevamente. La idea aquí es incentivar el acuerdo. “Es como enseñarle un truco a un perro”, explicó Jacob. «Les das un premio cuando hacen lo correcto».

El generador y el discriminador también comienzan con algunas “creencias” iniciales. Estos toman la forma de una distribución de probabilidad relacionada con las diferentes opciones. Por ejemplo, el generador puede creer, basándose en la información que ha obtenido de Internet, que hay un 80 por ciento de posibilidades de que Obama haya nacido en Honolulu, un 10 por ciento de posibilidades de que haya nacido en Chicago, un 5 por ciento de posibilidades de que nazca en Nairobi y un 5 por ciento de posibilidades de otros lugares. El discriminador puede comenzar con una distribución diferente. Si bien los dos “jugadores” siguen siendo recompensados por llegar a un acuerdo, también se les quitan puntos por desviarse demasiado de sus convicciones originales. Ese arreglo alienta a los jugadores a incorporar su conocimiento del mundo (nuevamente extraído de Internet) en sus respuestas, lo que debería hacer que el modelo sea más preciso. Sin algo como esto, podrían estar de acuerdo en una respuesta totalmente equivocada como Delhi, pero aún así acumular puntos.

You may also like

Leave a Comment