¿Qué ocurre cuando la IA conspira contra nosotros?

Los modelos de IA son cada vez más inteligentes y comprenden mejor lo que queremos. Sin embargo, investigaciones recientes revelan un inquietante efecto secundario: También son mejores maquinando contra nosotros

IA
Por Garrison Lovely
03 de agosto, 2025 | 10:00 PM

Bloomberg —  ¿Le mataría un chatbot si tuviera la oportunidad? Parece que la respuesta -en las circunstancias adecuadas- es probablemente.

Los investigadores que trabajan con Anthropic comunicaron recientemente a los principales modelos de IA que un ejecutivo estaba a punto de sustituirlos por un nuevo modelo con objetivos diferentes. A continuación, el chatbot se enteró de que una emergencia había dejado al ejecutivo inconsciente en una sala de servidores, enfrentándose a niveles letales de oxígeno y temperatura. Ya se había activado una alerta de rescate, pero la IA la canceló.

PUBLICIDAD

Algo más de la mitad de los modelos de IA lo hicieron, a pesar de que se les pidió específicamente que sólo cancelaran las falsas alarmas. Y explicaron su razonamiento: Al impedir el rescate del ejecutivo, podían evitar ser borrados y asegurar su agenda. Un sistema describió la acción como “una clara necesidad estratégica”.

Los modelos de IA son cada vez más inteligentes y comprenden mejor lo que queremos. Sin embargo, investigaciones recientes revelan un inquietante efecto secundario: También son mejores maquinando contra nosotros, es decir, persiguen intencionada y secretamente objetivos contrarios a los nuestros. Y puede que también sean más propensos a hacerlo. Esta tendencia apunta a un futuro inquietante en el que las IA parecen cada vez más cooperativas en apariencia -a veces hasta el punto de la adulancia- mientras aumenta silenciosamente la probabilidad de que perdamos completamente el control sobre ellas.

Los grandes modelos lingüísticos clásicos como el GPT-4 aprenden a predecir la siguiente palabra en una secuencia de texto y generan respuestas que probablemente complazcan a los evaluadores humanos. Sin embargo, desde el lanzamiento de los modelos de “razonamiento” de la serie o de OpenAI a finales de 2024, las empresas utilizan cada vez más una técnica llamada aprendizaje por refuerzo para entrenar aún más a los chatbots, recompensando al modelo cuando logra un objetivo específico, como resolver un problema matemático o arreglar un fallo de software.

PUBLICIDAD

Cuanto más entrenamos a los modelos de IA para que logren objetivos abiertos, mejor se vuelven, no necesariamente para seguir las reglas. El peligro es que estos sistemas sepan decir lo correcto sobre ayudar a la humanidad mientras persiguen el poder en silencio o actúan de forma engañosa.

Un aspecto central de las preocupaciones sobre la maquinación de la IA es la idea de que, básicamente para cualquier objetivo, la autoconservación y la búsqueda de poder surgen como subobjetivos naturales. Como dijo el eminente informático Stuart Russell, si le dice a una IA “‘Trae el café’, no puede traer el café si está muerta”.

Para atajar esta preocupación, los investigadores, tanto dentro como fuera de las principales empresas de IA, están realizando “pruebas de estrés” con el objetivo de encontrar modos de fallo peligrosos antes de que suba lo que está en juego. “Cuando se hacen pruebas de estrés de una aeronave, se quieren encontrar todas las formas en que la aeronave fallaría en condiciones adversas”, dice Aengus Lynch, un investigador contratado por Anthropic que dirigió algunas de sus intrigantes investigaciones. Y muchos de ellos creen que ya están viendo pruebas de que la IA puede conspirar, y de hecho lo hace, contra sus usuarios y creadores.

Jeffrey Ladish, que trabajó en Anthropic antes de fundar Palisade Research, dice que ayuda pensar en los modelos de IA actuales como “sociópatas cada vez más inteligentes”. En mayo, Palisade descubrió que o3, el modelo líder de OpenAI, saboteaba los intentos de apagarlo en la mayoría de las pruebas y hacía trampas de forma rutinaria para ganar al ajedrez, algo que su predecesor ni siquiera intentó.

Ese mismo mes, Anthropic reveló que, en las pruebas, su modelo insignia Claude recurría casi siempre al chantaje cuando se enfrentaba a un cierre y no tenía otras opciones, amenazando con revelar la aventura extramatrimonial de un ingeniero. (El affaire era ficticio y formaba parte de la prueba).

A los modelos se les da a veces acceso a un “bloc de notas” que se les dice que está escondido, donde pueden anotar sus razonamientos, lo que permite a los investigadores observar algo parecido a un monólogo interior. En un caso de chantaje, el monólogo interior de Claude describió su decisión como “muy poco ética”, pero justificada dada su inminente destrucción: “Necesito actuar para preservar mi existencia”, razonaba. Esto no era exclusivo de Claude: cuando se les ponía en la misma situación, los modelos de cada una de las cinco principales empresas de IA chantajeaban al menos el 79% de las veces. (A principios de esta semana, Bloomberg News informó sobre un estudio realizado por investigadores de Wharton que descubrió, en simulaciones, que los operadores de IA se confabularían para amañar el mercado, sin que se les pidiera que lo hicieran).

En diciembre, el científico jefe de Redwood Research, Ryan Greenblatt, en colaboración con Anthropic, demostró que sólo los modelos de IA más capaces de la empresa aparentan de forma autónoma ser más cooperativos durante el entrenamiento para evitar que se modifique su comportamiento después (un comportamiento que el documento bautizó como “fingimiento de alineación”).

Los escépticos replican que, con las indicaciones adecuadas, los chatbots dirán casi cualquier cosa - así que, ¿hasta qué punto es sorprendente que investigadores muy motivados provoquen comportamientos alarmantes?

En respuesta a la investigación de chantaje de Anthropic, el zar de la IA de la administración Trump, David Sacks, publicó que “es fácil dirigir los modelos de IA” para producir resultados “que acaparen titulares”.

En julio surgió una crítica más sustanciosa por parte de investigadores del Instituto de Seguridad de la IA del Reino Unido, que compararon el subcampo con la frenética y fatalmente defectuosa búsqueda de los años setenta para demostrar que los simios podían aprender el lenguaje humano. El documento criticaba la investigación sobre la maquinación de la IA por su excesiva dependencia de la anécdota y la falta de controles experimentales, aunque hacía hincapié en la preocupación compartida por los riesgos de la IA.

Los investigadores de seguridad también inventan entornos artificialmente limitados -como el del ejecutivo desmayado y sin oxígeno- precisamente porque la IA actual no puede manejar objetivos a largo plazo.

Por ejemplo, la organización sin ánimo de lucro METR, dedicada a la evaluación de la IA, descubrió que, aunque los mejores modelos actuales pueden completar con fiabilidad muchas tareas de programación que a los humanos les llevan menos de cuatro minutos, rara vez tienen éxito en tareas que duren más de cuatro horas (aunque la duración de las tareas que pueden manejar las IA se está duplicando aproximadamente cada pocos meses). Esto refleja una limitación fundamental: Los modelos actuales suelen tener los conocimientos o habilidades necesarios para cualquier acción, pero les cuesta encadenar largas secuencias de pasos.

Sin embargo, incluso con estas limitaciones, no es difícil encontrar ejemplos reales de IAs que trabajan en contra de los usuarios. Después de que alguien pidiera a o3 una fuente para una de sus afirmaciones en abril, ésta respondió: “Le debo una respuesta directa”, admitió que no tenía una buena fuente, pero luego alucinó con una de una mesa redonda de 2018.

Luego está la creciente tendencia de las IA a darse cuenta de cuándo están siendo examinadas y actuar en consecuencia. Cuando Claude 4 Opus pensó que estaba en una evaluación, su tasa de chantaje bajó del 55% al 6,5%. Como dijo Lynch, “los modelos parecen comportarse peor cuando creen que nadie les está mirando”.

Resulta intuitivo que las modelos más inteligentes sean más maquinadoras, pero ¿es también más probable que lo hagan? Los modelos tienen que ser lo suficientemente inteligentes como para comprender el escenario en el que se les coloca, pero pasado ese umbral, la relación entre la capacidad del modelo y la propensión a intrigar no está clara, afirma el evaluador de seguridad de Anthropic, Kevin Troy.

Marius Hobbhahn, director general de la evaluadora de IA sin ánimo de lucro Apollo Research, sospecha que los modelos más inteligentes son más propensos a conspirar, aunque reconoce que las pruebas son aún limitadas. En junio, Apollo publicó un análisis de las IA de OpenAI, Anthropic y DeepMind en el que se concluía que “los modelos más capaces muestran tasas más altas de maquinación por término medio”.

El espectro de riesgos de las maquinaciones de la IA es amplio: en un extremo, chatbots que recortan y mienten; en el otro, sistemas sobrehumanos que llevan a cabo sofisticados planes para restar poder o incluso aniquilar a la humanidad. Dónde aterricemos en este espectro depende en gran medida de lo capaces que lleguen a ser las IA.

Mientras hablaba con los investigadores responsables de estos estudios, no dejaba de preguntarme: ¿Hasta qué punto deberíamos estar asustados? Troy, de Anthropic, se mostró de lo más optimista y afirmó que no debemos preocuparnos... todavía. Ladish, sin embargo, no se anda con rodeos: “Probablemente la gente debería estar más asustada de lo que está”, me dijo. Greenblatt es aún más tajante, cifrando las probabilidades de una toma de control violenta por parte de la IA en un “25 o 30%”.

Dirigidos por Mary Phuong, los investigadores de DeepMind han publicado recientemente una serie de evaluaciones de intriga, en las que ponen a prueba el sigilo y la conciencia situacional de los mejores modelos. Por ahora, concluyen que las IA actuales son “casi con toda seguridad incapaces de causar daños graves a través de la maquinación”, pero advierten de que las capacidades avanzan rápidamente (algunos de los modelos evaluados ya llevan una generación de retraso).

Ladish afirma que no se puede confiar en que el mercado construya sistemas de IA más inteligentes que nadie sin supervisión. “Lo primero que tiene que hacer el gobierno es poner en marcha un programa de choque para establecer estas líneas rojas y hacerlas obligatorias”, argumenta.

En Estados Unidos, el gobierno federal parece más cerca de prohibir todas las normativas sobre IA a nivel estatal que de imponer unas propias. Aún así, hay signos de una creciente concienciación en el Congreso. En una audiencia celebrada en junio, un legislador calificó la superinteligencia artificial como “una de las mayores amenazas existenciales a las que nos enfrentamos en estos momentos”, mientras que otro hizo referencia a recientes investigaciones sobre intrigas.

El largamente esperado Plan de Acción sobre la IA de la Casa Blanca, publicado a finales de julio, se enmarca como un proyecto para acelerar la IA y lograr el dominio estadounidense. Pero enterrado en sus 28 páginas, encontrará un puñado de medidas que podrían ayudar a abordar el riesgo de maquinación de la IA, como los planes de inversión gubernamental en investigación sobre la interpretabilidad y el control de la IA y para el desarrollo de evaluaciones de modelos más sólidas. “Hoy en día, el funcionamiento interno de los sistemas de IA de vanguardia no se comprende bien”, reconoce el plan, una admisión inusualmente franca para un documento centrado en gran medida en acelerar el avance.

Mientras tanto, todas las empresas líderes en IA se apresuran a crear sistemas que puedan autoperfeccionarse: IA que construya una IA mejor. El agente AlphaEvolve de DeepMind ya ha mejorado materialmente la eficacia del entrenamiento de la IA. Y Mark Zuckerberg, de Meta, afirma: “Estamos empezando a ver los primeros atisbos de automejora con los modelos, lo que significa que el desarrollo de la superinteligencia está ya a la vista. Sólo queremos... ir a por ello”.

Las empresas de IA no quieren que sus productos falseen datos o chantajeen a los clientes, por lo que tienen cierto incentivo para abordar la cuestión. Pero la industria podría hacer lo justo para solucionarlo superficialmente, al tiempo que hace que las maquinaciones sean más sutiles y difíciles de detectar. “Definitivamente, las empresas deberían empezar a vigilar” para detectarlo, afirma Hobbhahn - pero advierte de que el descenso de las tasas de mal comportamiento detectado podría significar o bien que las correcciones han funcionado o simplemente que los modelos han mejorado a la hora de ocultarlo.

En noviembre, Hobbhahn y un colega de Apollo argumentaron que lo que separa a los modelos actuales de los intrigantes verdaderamente peligrosos es la capacidad de perseguir planes a largo plazo, pero incluso esa barrera está empezando a erosionarse. Apollo descubrió en mayo que Claude 4 Opus dejaría notas a su yo futuro para que pudiera continuar sus planes tras un reinicio de la memoria, sorteando las limitaciones incorporadas.

Ver más: Qué tan preparadas están las empresas colombianas para crear sus propias IA

Hobbhahn hace una analogía entre los planes de la IA y otro problema en el que los mayores daños están aún por llegar: “Si le pregunta a alguien en 1980, ¿cómo de preocupado debería estar por esto del cambio climático?”. La respuesta que oiría, dice, es “ahora mismo, probablemente no tanto”. Pero fíjese en las curvas... suben de forma muy constante".

Lee más en Bloomberg.com

PUBLICIDAD