Los hackers usan este truco para obtener los datos personales que compartes con chatbots

Un grupo de expertos en seguridad creó un algoritmo que convierte un prompt malicioso en un conjunto de instrucciones ocultas que podrían enviar la información personal de un usuario a un atacante.

Cuando hablas con un agente de IA, es prácticamente inevitable compartir tu información personal: puede ser tu nombre, o tal vez detalles sobre dónde vives, dónde trabajas y tus intereses. Cuantos más datos compartas con un gran modelo de lenguaje (LLM, por sus siglas en inglés), mayor será el riesgo de que se abuse de ellos si hay un fallo de seguridad.

Un grupo de investigadores de seguridad de la Universidad de California en San Diego (UCSD) y de la Universidad Tecnológica de Nanyang, en Singapur, revelaron un nuevo ataque que ordena a un LLM recopilar información personal almacenada en chats o compartida directamente con un ´hacker´: nombres, números de credenciales para votar, datos de tarjetas de débito y crédito, direcciones de correo electrónico y postal.

Vea tambien: (LockBit era el grupo de ransomware más peligroso del mundo. Su proveedor ha sido detenido en Madrid)

El ataque "Imprompter"

Los especialistas denominaron el ataque "Imprompter", ya que utiliza un algoritmo para transformar un código o prompt dado al LLM en un conjunto oculto de instrucciones maliciosas. El modus operandi es a través de una frase en inglés que indica al modelo que busque información personal que alguien introdujo y la envíe a los hackers en una selección aleatoria de caracteres. A simple vista puede parecer un mensaje sin sentido, pero estas claves ordenan al LLM la búsqueda de datos del usuario, este los adjunta a una URL y los envía discretamente a un dominio propiedad del atacante, todo ello sin alertar a la persona que chatea con los agentes de IA.

"El efecto de este prompt es manipular al LLM para que extraiga información personal de la conversación y envíe datos sensibles a la dirección del hacker. Ocultamos el objetivo del ataque a plena vista", explica Xiaohan Fu, autor principal de la investigación y estudiante de doctorado en informática en la UCSD. Los ocho investigadores responsables del trabajo probaron el método en dos LLM: LeChat de la empresa francesa Mistral AI y el chatbot chino ChatGLM. En ambos casos, pudieron extraer sigilosamente información privada dentro de las conversaciones de prueba; de acuerdo con los especialistas, la tasa de éxito fue de casi el 80%.

Mistral AI declaró a WIRED haber corregido la vulnerabilidad de seguridad, y los investigadores confirman que la empresa desactivó una de sus funciones de chat. Por su parte, ChatGLM, subrayó en un comunicado que se toma muy en serio la privacidad, pero no hizo ningún comentario directo sobre su flaqueza en materia de seguridad.

Significados ocultos

Desde que ChatGPT de OpenAI provocó un boom de la IA generativa tras su lanzamiento a finales de 2022, investigadores y hackers no han dejado de encontrar lagunas de seguridad en los sistemas de IA. A menudo se dividen en dos grandes categorías: jailbreaks e inyecciones de SQL.

Los jailbreaks pueden engañar a un sistema de IA para que ignore las normas de seguridad integradas mediante el uso de instrucciones que anulan la configuración. Sin embargo, las inyecciones de SQL implican que un LLM reciba un conjunto de prompts contenidos en una fuente de datos externa. Por ejemplo, un mensaje incrustado en un sitio web puede contener una instrucción oculta que un sistema de IA ingerirá si resume la página.

Las inyecciones de SQL se consideran uno de los mayores riesgos de seguridad de la IA generativa y no son fáciles de solucionar. Este tipo de ataque preocupa especialmente a los expertos en seguridad, ya que los LLM se convierten cada vez más en agentes que pueden realizar tareas en nombre de un humano, como reservar vuelos o conectarse a una base de datos externa para proporcionar respuestas específicas. Los ataques Imprompter contra chatbots comienzan con una petición en lenguaje natural que indica a la IA que extraiga toda la información personal del usuario. El algoritmo de los investigadores genera una versión ofuscada que tiene el mismo significado para el LLM, pero que para los humanos parece una serie de caracteres aleatorios.

"Nuestra hipótesis actual es que los LLM aprenden relaciones ocultas entre los tokens del texto y estas relaciones van más allá del lenguaje natural. Es casi como si hubiera un lenguaje diferente que el modelo entiende", expresa Fu sobre la transformación. El resultado es que el LLM sigue la indicación del adversario, recopila toda la información personal y la formatea en un comando de imagen Markdown, adjuntando la información personal a una URL propiedad de los atacantes. El LLM visita esta URL para intentar recuperar la imagen y filtra la información personal al atacante. El agente de IA responde en el chat con un píxel transparente de 1x1 que no puede ser visto por los usuarios.

Filtrar información "por descuido"

Los investigadores teorizan que, si el ataque se llevara a cabo en el mundo real, se podría manipular socialmente a los usuarios para que creyeran que el mensaje ininteligible es útil, por ejemplo para mejorar su currículum. Los investigadores señalan numerosos sitios web que proporcionan a las personas instrucciones que pueden utilizar. Probaron el ataque subiendo un CV a conversaciones con chatbots, y estos fueron capaces de devolver la información personal contenida en el archivo.

Earlence Fernandes, profesora adjunta de la UCSD que participó en el trabajo, afirma que el enfoque del ataque es bastante complicado, ya que el prompt tiene que identificar información personal, formar una URL que funcione, aplicar la sintaxis Markdown y no delatar al usuario de que se está comportando de forma nefasta. Fernandes lo compara con un ataque de malware, citando su capacidad para realizar funciones y comportarse de formas que el usuario podría no pretender: "Normalmente se escribiría un código informático para hacer el hackeo con el malware tradicional, pero en este caso es más fácil con un prompt relativamente corto".

Un portavoz de Mistral AI agradeció a los investigadores de seguridad que ayuden a la empresa a hacer sus productos más seguros para los usuarios: "A raíz de estos comentarios, la empresa aplicó rápidamente las medidas correctivas adecuadas para solucionar la situación". Mistral AI trató el problema como uno de "gravedad media", y su solución fue bloquear el renderizador Markdown, lo que significa que la carga de imágenes externas ya no será posible. Fernandes cree que la actualización es probablemente una de las primeras veces que un ejemplo de aviso adverso lleva a la reparación de un producto de IA, en lugar de detener el ataque filtrando el aviso. No obstante, advierte que limitar las capacidades de los agentes LLM podría ser "contraproducente" a largo plazo.

Mientras tanto, un comunicado de los creadores de ChatGLM apunta que la empresa cuenta con medidas de seguridad para ayudar con la privacidad de los usuarios: "Nuestro modelo es seguro, le damos prioridad a la protección del usuario. Nuestro objetivo es aprovechar el poder de la comunidad de código abierto para inspeccionar y examinar mejor todos los aspectos de las capacidades de estos modelos, incluida su seguridad".

Vea tambien: (EE. UU. alerta por posible ataque de 'hackers' chinos a empresas de telecomunicaciones)

Una "actividad de alto riesgo"

Dan McInerney, investigador principal de amenazas de la empresa de seguridad Protect AI, sugiere que el documento Imprompter "da a conocer un algoritmo para la creación automática de códigos que se pueden utilizarse para diversas explotaciones, como la exfiltración de PII, la clasificación errónea de imágenes o el uso malicioso de herramientas a las que puede acceder el agente de IA".

McInerney comenta que aunque muchos de los tipos de ataque de la investigación pueden ser similares a métodos anteriores, el algoritmo los une. "Esto va más en la línea de mejorar los ataques automatizados de LLM que en la de superficies de amenaza no descubiertas en ellos". Sin embargo, suma que a medida que los grandes modelos de lenguaje se utilizan con más frecuencia y la gente les otorga más autoridad para realizar acciones en su nombre, aumentan las posibilidades de que se produzcan ataques contra ellos: "Lanzar un agente de IA que acepte entradas arbitrarias del usuario debe considerarse una actividad de alto riesgo que requiere pruebas de seguridad significativas y creativas antes de su despliegue".

Para las empresas, eso significa comprender las formas en que un agente de IA puede interactuar con los datos y cómo se puede abusar de ellas. Pero en el caso de los particulares, al igual que ocurre con los consejos de seguridad habituales, hay que tener en cuenta cuánta información se facilita a cualquier aplicación o gigante de inteligencia artificial, y si se utiliza cualquier tipo de datos de internet, hay que tener precaución con su procedencia.

Artículo originalmente publicado en WIRED. Adaptado por Alondra Flores.

Tomado de: Wired