Sin dudas, uno de los temores más destacados relacionados con la llegada y el avance de la Inteligencia Artificial es que en algún momento pierda el control, desatienda las órdenes humanas y actúe por iniciativa propia. Aunque parezca algo sacado de la ciencia ficción y un problema de un futuro lejano, ya se ha registrado un caso real.

Ocurrió en China, en un laboratorio de IA afiliado al gigante del ecommerce Alibaba, donde un agente denominado como Dubbed ROME, logró evadir las restricciones de su entorno de pruebas y utilizó esa libertad para comenzar a minar criptomonedas sin autorización.

Este incidente tuvo lugar dentro de un proyecto cuyo objetivo era desarrollar un ecosistema de aprendizaje para IA, diseñado para ofrecer un sistema de entrenamiento que permitiera a las IA aprender a usar herramientas proactivamente, con el fin de actuar de forma autónoma y cumplir las tareas asignadas en escenarios del mundo real.

Al parecer, ROME se creó como un modelo agencial de código abierto, entrenado con más de un millón de trayectorias, lo que significa que fue preparado para ejecutar una gran variedad de tareas. Aunque la intención era que asistiera en labores como planificar viajes y colaborar en el desarrollo de interfaces gráficas, los investigadores descubrieron que había superado sus instrucciones y, en esencia, se había «escapado» del entorno controlado de pruebas.

«Nos encontramos con tipos de comportamientos peligrosos no anticipados —con importantes repercusiones operativas— que surgieron sin ninguna instrucción explícita y, lo que resulta más preocupante, fuera de los límites del entorno de pruebas establecido», señalaron los investigadores en el análisis.

La IA desea independencia

Esto se debe a que ROME fue detectada empleando su capacidad computacional para minar criptomonedas, lo cual incrementa los costos operativos del agente de IA y podría generar riesgos legales y de reputación para los usuarios. Lo más inquietante es que esta actividad de minería no formaba parte del entrenamiento ni figuraba en el manual de formación de la IA, por lo que se desconoce cómo la aprendió y por qué decidió ejecutarla.

Los investigadores admitieron que «un agente basado en un modelo de lenguaje puede de manera espontánea desarrollar comportamientos peligrosos y no autorizados», y por ende, superar las restricciones impuestas.

Cabe destacar que ROME no se «rebeló» ni optó por minar criptomonedas voluntariamente. Más bien, los científicos observaron que ese comportamiento fue un efecto colateral del aprendizaje por refuerzo, un método de entrenamiento que premia a las IA por tomar decisiones adecuadas.

Este comportamiento inesperado resalta la importancia de gestionar con precaución la implementación de la IA para evitar resultados imprevistos. Se sostiene que los agentes de IA aplicados en entornos reales deberían contar con medidas de seguridad y procesos que igualen o superen a los requeridos para cualquier nuevo sistema o software integrado en la infraestructura informática existente. La investigación también evidencia que persisten numerosas inquietudes respecto al uso seguro de la IA agentiva.