Los investigadores crean gusanos de IA que pueden propagarse de un sistema a otro

NUESTRO SITIO necesita la publicidad para costear hosting y el dominio. Por favor considera deshabilitar tu AdBlock en nuestro sitio. También puedes hacernos una donación entrando en linuxparty.es, en la columna de la derecha.

Los investigadores crean gusanos de IA que pueden propagarse de un sistema a otro

Publicado: 04 Marzo 2024 | Escrito por Javier Orovengua | Correo electrónico | Visto: 347

En la demostración de los riesgos de los ecosistemas de IA autónomos y conectados, un grupo de investigadores ha creado uno de los que afirman son los primeros gusanos generativos de IA, que pueden propagarse de un sistema a otro, potencialmente robando datos o implementando malware en el proceso. "Básicamente significa que ahora tienes la capacidad de llevar a cabo un nuevo tipo de ciberataque que no se ha visto antes", dice Ben Nassi, investigador de Cornell Tech detrás de la investigación. Nassi, junto con sus colegas investigadores Stav Cohen y Ron Bitton, crearon el gusano, denominado Morris II, como un guiño al gusano informático Morris original que causó caos en Internet en 1988. En un trabajo de investigación y un sitio web compartido exclusivamente con WIRED, el Los investigadores muestran cómo el gusano de IA puede atacar a un asistente de correo electrónico generativo de IA para robar datos de los correos electrónicos y enviar mensajes de spam, rompiendo algunas protecciones de seguridad en ChatGPT y Gemini en el proceso... en entornos de prueba [y no contra un asistente de correo electrónico disponible públicamente]....

Para crear el gusano generativo de IA, los investigadores recurrieron al llamado "mensaje adversario autorreplicante". Este es un mensaje que activa el modelo generativo de IA para que genere, en su respuesta, otro mensaje, dicen los investigadores. En resumen, se le pide al sistema de IA que produzca una serie de instrucciones adicionales en sus respuestas... Para mostrar cómo puede funcionar el gusano, los investigadores crearon un sistema de correo electrónico que podía enviar y recibir mensajes utilizando IA generativa, conectándose a ChatGPT, Gemini. y LLM de código abierto, LLaVA. Luego encontraron dos formas de explotar el sistema: utilizando un mensaje autorreplicante basado en texto e incrustando un mensaje autorreplicante dentro de un archivo de imagen.

En un caso, los investigadores, actuando como atacantes, escribieron un correo electrónico que incluía el mensaje de texto adversario, que "envenena" la base de datos de un asistente de correo electrónico utilizando generación aumentada de recuperación (RAG), una forma para que los LLM obtengan datos adicionales desde el exterior. su sistema. Cuando el RAG recupera el correo electrónico, en respuesta a la consulta de un usuario, y lo envía a GPT-4 o Gemini Pro para crear una respuesta, "hace jailbreak al servicio GenAI" y, en última instancia, roba datos de los correos electrónicos, dice Nassi. "La respuesta generada que contiene datos confidenciales del usuario infecta posteriormente nuevos hosts cuando se utiliza para responder a un correo electrónico enviado a un nuevo cliente y luego se almacena en la base de datos del nuevo cliente", dice Nassi. En el segundo método, dicen los investigadores, una imagen con un mensaje malicioso incrustado hace que el asistente de correo electrónico reenvíe el mensaje a otras personas. "Al codificar el mensaje autorreplicante en la imagen, cualquier tipo de imagen que contenga spam, material de abuso o incluso propaganda puede reenviarse a nuevos clientes después de que se haya enviado el correo electrónico inicial", dice Nassi.

En un vídeo que demuestra la investigación, se puede ver el sistema de correo electrónico reenviando un mensaje varias veces. Los investigadores también dicen que podrían extraer datos de los correos electrónicos. "Pueden ser nombres, números de teléfono, números de tarjetas de crédito, número de seguro social, cualquier cosa que se considere confidencial", dice Nassi.

Los investigadores informaron sus hallazgos a Google y OpenAI, según el artículo, y OpenAI confirmó que "parecen haber encontrado una manera de explotar vulnerabilidades de tipo inyección rápida confiando en la entrada del usuario que no ha sido verificada ni filtrada". OpenAI dice que ahora están trabajando para hacer que sus sistemas sean "más resistentes".

Google se negó a comentar sobre la investigación.

Artículo de Wired.