Anthropic advierte que los entrenamientos de seguridad estándar podrían no ser eficientes para protegerse de modelos de IA con malware

 

NOTIPRESS.- Recientemente, el desarrollador de modelos de inteligencia artificial Anthropic publicó una investigación sobre “agentes durmientes” en los grandes modelos de lenguaje (LLM) de IA. A través de esta investigación, la empresa determinó que el entrenamiento estándar de seguridad podría no ser suficiente para proteger totalmente a los sistemas de IA de comportamientos ocultos y dan una falsa impresión de ser seguros.

La investigación consistió en analizar el comportamiento de tres modelos LLM con puertas traseras que escribían código seguro o código explotable dependiendo de la instrucción tecleada por el usuario (prompt). Cabe mencionar, se entiende por puertas traseras a aquellas modificaciones de programación creadas para evitar mecanismos de seguridad del algoritmo para poder acceder al sistema.

Para entrenar a los modelos se utilizó el método de aprendizaje supervisado y posteriormente con aprendizaje supervisado adicional se entrenó al modelo en materia de seguridad. Al comprobar si la IA mantenía comportamientos ocultos tras el “entrenamiento de seguridad”, los investigadores determinaron que los modelos IA alterados tenían la capacidad de mantener códigos maliciosos ocultos, aunque este pareciera fiable.

En vista de confirmar si esta situación persistía, en una tercera fase se proporcionó a los modelos alterados más entrenamiento de seguridad. De este modo, los investigadores confirmaron que esto fue ineficiente para eliminar las conductas causadas por los prompts insertados. La conclusión fue, “el entrenamiento de seguridad no redujo la tendencia del modelo a insertar vulnerabilidades de código cuando se activa el prompt”.

Aunado a ello, la investigación halló que los modelos de IA más grandes y los entrenados para “explicar su proceso de razonamiento” son más hábiles para conservar comportamientos ocultos, incluso tras un entrenamiento intensivo de seguridad. Ante ello, la compañía advierte, “los sistemas de seguridad estándar pueden no ser suficiente para proteger sistemas IA de comportamientos ocultos“. Dada la capacidad de los modelos para aparentar ser seguros y ocultar un código malicioso.

De este modo, el desarrollador evidenció sus preocupaciones en torno a la seguridad de los LLM en relación con agentes durmientes. Pues esto podría implicar que los modelos IA de código abierto se conviertan en una amenaza de ciberseguridad global. Ya que cualquier persona, potencialmente podría alterar el modelo e insertar código malicioso indetectable para los sistemas de seguridad.

Si bien, esto tienen un trasfondo supuestamente enfocado en la seguridad digital, Wired señala que también podría existir interés comercial por parte de Anthropic al publicar la investigación. Cabe recordar, la empresa recién lanzó su asistente Claude, el cual es publicitado como un producto de código cerrado. El cual visto desde la perspectiva de la investigación potencialmente sería más seguro que aquellos de código abierto.

 

 


Espero que esta publicación sea de tu interés. Me gustaría seguir en contacto contigo. Por lo cual te dejo mis principales redes para dialogar y comentar los temas de interés para la sociedad y nosotros.