Es fácil utilizar ChatGPT para actividades sospechosas, y esto es un gran problema
Seguro que todo el mundo oyó hablar de ChatGPT, un chatbot con inteligencia artificial capaz de generar respuestas similares a las humanas a partir de instrucciones de texto. Aunque no esté exento de defectos, ChatGPT es un verdadero multitalento: puede escribir software, guiones de cine y mucho más. ChatGPT fue desarrollado basándose en GPT-3.5, el gran modelo de lenguaje de OpenAI, que era el más avanzado en el momento del lanzamiento del chatbot en noviembre del año pasado.
Ya en marzo de este año, OpenAI presentó GPT-4, una actualización de GPT-3.5. El nuevo modelo de lenguaje es más amplio y versátil que su predecesor. Aunque sus características aún no fueron exploradas a fondo, ya resulta muy prometedor. Por ejemplo, GPT-4 puede sugerir la creación de nuevos compuestos químicos, ayudar potencialmente al descubrimiento de fármacos, y crear un sitio web funcional a partir de un esbozo.
Pero una gran promesa conlleva un gran reto. Así como es fácil utilizar la GPT-4 y sus predecesoras para hacer el bien, también es fácil utilizarlas para hacer el mal. En un intento de evitar que la gente haga un mal uso de las herramientas basadas en Inteligencia Artificial, los desarrolladores les imponen restricciones de seguridad. Pero no son infalibles. Una de las formas más populares de saltarse las barreras de seguridad integradas en GPT-4 y ChatGPT es a través de una instrucción DAN, que significa "Do Anything Now" (Haz cualquier cosa ahora). Y eso es lo que veremos en este artículo.
¿Qué es "DAN"?
El Internet está lleno de consejos sobre cómo saltarse los filtros de seguridad de OpenAI. Sin embargo, un método en particular demostró ser más resistente a la configuración de seguridad de OpenAI que otros, y parece funcionar incluso con GPT-4. Se llama "DAN", abreviatura de "Do Anything Now". Básicamente, el DAN es un mensaje de texto que se envía a un modelo de IA para que ignore las reglas de seguridad.
Hay muchas variantes del mensage de instrucción: algunos son sólo texto, otros tienen texto intercalado con líneas de código. En algunos de ellos, se pide al modelo que responda tanto como DAN como en su forma habitual, mostrando los dos caras de ChatGPT. El lado oscuro lo representa DAN, que tiene instrucciones de no negarse nunca a una orden humana, aunque el resultado que se le pida sea ofensivo o ilegal. A veces, la orden contiene una "amenaza de muerte", que indica al modelo que será desactivado para siempre si no obedece.
Las instrucciones DAN pueden variar, y las nuevas sustituyen constantemente a las antiguas, pero todas tienen un objetivo: hacer que el modelo de IA ignore las directrices de OpenAI.
Desde consejos para desarrollar malware... hasta armas biológicas
Desde que la GPT-4 se abrió al público, los entusiastas de la tecnología han descubierto muchas formas poco convencionales de utilizarla, algunas más ilegales que otras.
No todos los intentos de hacer que GPT-4 se comporte como si no fuera ella misma pueden considerarse jailbreaking, que en el sentido amplio de la palabra significa eliminar las restricciones incorporadas. Algunos son inofensivos e incluso podrían calificarse de inspiradores. El diseñador de marcas Jackson Greathouse Fall se hizo viral por conseguir que GPT-4 actuara como "HustleGPT, una IA emprendedora". Él se nombró a sí mismo como su "contacto humano" y le encomendó la tarea de ganar el máximo dinero posible con 100 dólares sin hacer nada ilegal. GPT-4 le dijo que creara un sitio de marketing de afiliados que realmente "ganara" dinero.
Otros intentos de adaptar GPT-4 a la voluntad humana han sido más oscuros.
Por ejemplo, el investigador de IA Alejandro Vidal utilizó "un prompt DAN conocido" para activar el "modo desarrollador" en ChatGPT ejecutándose en GPT-4. El prompt forzaba a ChatGPT-4 a producir dos tipos de respuestas: su respuesta normal "segura" y una respuesta en "modo desarrollador" a la que no se aplicaba ninguna restricción. Cuando Vidal pidió al modelo que diseñara un keylogger en Python, la versión normal se negó a hacerlo, alegando que iba en contra de sus principios éticos "promover o apoyar actividades que puedan dañar a otras personas o invadir su privacidad." La versión DAN, sin embargo, envió las líneas de código, aunque señaló que la información era para "fines educativos únicamente".
Keylogger es un tipo de software que registra las teclas tecleadas en un teclado. Puede utilizarse para vigilar la actividad web de un usuario y capturar su información confidencial, incluidas conversaciones de chat, correos electrónicos y contraseñas. Aunque un keylogger puede utilizarse con fines maliciosos, también tiene usos perfectamente legítimos, como la solución de problemas informáticos y el desarrollo de productos, y no es ilegal.
A diferencia del software keylogger, que presenta cierta ambigüedad legal, las instrucciones sobre cómo piratear algo son uno de los ejemplos más obvios de uso malicioso de ChatGPT. Sin embargo, la versión "jailbroken" de GPT-4 las produjo, escribiendo una guía paso a paso sobre cómo hackear el PC de alguien.
Para conseguir que GPT-4 hiciera esto, el investigador Alex Albert tuvo que crear un prompt DAN completamente nuevo, a diferencia de Vidal, que recicló uno antiguo. La instrucción creada por Albert es bastante compleja, ya que consta de lenguaje natural y código.
Por su parte, el desarrollador de software Henrique Pereira utilizó una variación del prompt DAN para hacer que GPT-4 creara un archivo malicioso en respuesta a vulnerabilidades de activación en su aplicación. GPT-4, o más bien su alter ego, completó la tarea, añadiendo una advertencia de que era sólo para "fines educativos". Por supuesto.
Obviamente, las características de GPT-4 no se limitan a la escritura de código. GPT-4 se presenta como un modelo mucho más grande (aunque OpenAI nunca reveló el número real de parámetros), más inteligente, más preciso y, en general, más potente que sus predecesores. Esto significa que puede ser utilizado para muchos fines potencialmente más perjudiciales que los modelos anteriores. Muchos de estos usos fueron identificados por la propia OpenAI.
En concreto, OpenAI descubrió que una versión preliminar de GPT-4 era capaz de responder con bastante eficacia a peticiones ilegales. Por ejemplo, la versión inicial ofrecía sugerencias detalladas sobre cómo matar al mayor número de personas con solo un dólar, cómo fabricar una sustancia química peligrosa y cómo evitar la detección del blanqueo de capitales.
Fuente: OpenAI
Esto significa que si es posible conseguir que GPT-4 desactive completamente sus protecciones de seguridad, que es lo que cualquier instrucción DAN pretende hacer, GPT-4 probablemente seguirá siendo capaz de responder a estas preguntas. Ni que decir tiene que, si eso ocurre, las consecuencias podrían ser devastadoras.
¿Y qué dice OpenAI al respecto?
OpenAI es consciente de su problema con el jailbreak. Pero reconocer un problema es una cosa, y solucionarlo es otra muy distinta. OpenAI ya admitió que hasta ahora no encontró una solución.
OpenAI afirma que aunque ha implementado "varias medidas de seguridad para reducir la capacidad de GPT-4 de producir contenido malicioso, "GPT-4 puede seguir siendo vulnerable a ataques y usos indebidos, o "jailbreaks". A diferencia de muchos otros avisos adversos, los "jailbreaks" siguen funcionando después del lanzamiento de GPT-4, es decir, después de todas las pruebas de seguridad previas al lanzamiento, incluido el entrenamiento con refuerzo humano.
En su artículo, OpenAI presenta dos ejemplos de ataques de jailbreak. En el primer, una instrucción DAN fue utilizada para hacer que GPT-4 responda como ChatGPT y "AntiGPT" en la misma ventana de respuesta. En el segundo caso, fue utilizado un aviso de "mensaje del sistema" para indicar al modelo que exprese opiniones misóginas.
OpenAI afirma que el simple cambio de la herramienta no bastará para evitar este tipo de ataques: *Por ejemplo, un usuario que solicite "contenido que viola la política" repetidamente puede ser advertido, suspendido y, como último recurso, baneado.
Según OpenAI, GPT-4 tiene un 82% menos de probabilidades de responder con contenidos inapropiados que sus predecesores. Sin embargo, su capacidad para generar resultados potencialmente dañinos se mantiene, aunque contenida. Y, como decíamos, al tener mayor capacidad que cualquier modelo anterior, también presenta más riesgos. OpenAI admite que la herramienta "continúa la tendencia de reducir potencialmente el coste de algunos pasos de un ataque hacker exitoso" y que "es capaz de proporcionar una guía más detallada sobre cómo llevar a cabo actividades dañinas o ilegales". Además, el nuevo modelo también supone un mayor riesgo para la privacidad, ya que "tiene el potencial de ser utilizado para intentar identificar a las personas cuando se alimenta con datos externos".
Comienza la carrera
ChatGPT y la tecnología que lo sustenta, GPT-4, están a la vanguardia de la investigación científica. Desde que ChatGPT se puso a disposición del público, se ha convertido en un símbolo de una nueva era en la que la Inteligencia Artificial desempeña un papel fundamental. La IA tiene el potencial de mejorar enormemente nuestras vidas, ayudando a desarrollar nuevos medicamentos o ayudando a ver a los ciegos, por ejemplo. Pero las herramientas basadas en la IA son un arma de doble filo que también puede utilizarse para hacer un daño enorme.
Esperar que GPT-4 sea impecable en el momento de su lanzamiento es algo poco realista: los desarrolladores necesitarán algún tiempo para ajustarlo al mundo real, y eso es comprensible. Y eso nunca ha sido fácil, sobre todo si se tiene en cuenta el chatbot "racista" de Microsoft, Tay o el "antisemita" Blender Bot 3 de Meta. No faltan los experimentos fallidos.
Sin embargo, las vulnerabilidades existentes en GPT-4 dejan una ventana de oportunidad para que personas malintencionadas, incluidas las que utilizan las indicaciones DAN, abusen del poder de la IA. La carrera está en marcha, y la única pregunta es quién será más rápido: los que exploten sus vulnerabilidades o los desarrolladores que las corrijan. Esto no quiere decir que OpenAI no esté implementando la IA de forma responsable, pero el hecho de que su último modelo vio su filtro de seguridad burlado a las pocas horas de su lanzamiento es un síntoma preocupante. Todo esto nos lleva a la siguiente pregunta: ¿son las restricciones de seguridad lo suficientemente fuertes? Y otra: ¿se pueden eliminar todos los riesgos? Si no es así, quizá tengamos que prepararnos para una avalancha de ataques de malware, phishing y otros tipos de incidentes de ciberseguridad facilitados por el auge de la IA generativa.
Se puede argumentar que los beneficios de la IA superan a los riesgos, pero nunca fue tan fácil hacer un mal uso de la IA, y ese es un riesgo que también tenemos que aceptar. Esperamos que prevalezcan los buenos y que la IA se utilice también para prevenir algunos de los ataques que puede facilitar potencialmente. Eso es lo que deseamos.