Menú
ES

Es fácil utilizar ChatGPT para actividades sospechosas, y esto es un gran problema

Seguro que todo el mundo oyó hablar de ChatGPT, un chatbot con inteligencia artificial capaz de generar respuestas similares a las humanas a partir de instrucciones de texto. Aunque no esté exento de defectos, ChatGPT es un verdadero multitalento: puede escribir software, guiones de cine y mucho más. ChatGPT fue desarrollado basándose en GPT-3.5, el gran modelo de lenguaje de OpenAI, que era el más avanzado en el momento del lanzamiento del chatbot en noviembre del año pasado.

Ya en marzo de este año, OpenAI presentó GPT-4, una actualización de GPT-3.5. El nuevo modelo de lenguaje es más amplio y versátil que su predecesor. Aunque sus características aún no fueron exploradas a fondo, ya resulta muy prometedor. Por ejemplo, GPT-4 puede sugerir la creación de nuevos compuestos químicos, ayudar potencialmente al descubrimiento de fármacos, y crear un sitio web funcional a partir de un esbozo.

Pero una gran promesa conlleva un gran reto. Así como es fácil utilizar la GPT-4 y sus predecesoras para hacer el bien, también es fácil utilizarlas para hacer el mal. En un intento de evitar que la gente haga un mal uso de las herramientas basadas en Inteligencia Artificial, los desarrolladores les imponen restricciones de seguridad. Pero no son infalibles. Una de las formas más populares de saltarse las barreras de seguridad integradas en GPT-4 y ChatGPT es a través de una instrucción DAN, que significa "Do Anything Now" (Haz cualquier cosa ahora). Y eso es lo que veremos en este artículo.

¿Qué es "DAN"?

El Internet está lleno de consejos sobre cómo saltarse los filtros de seguridad de OpenAI. Sin embargo, un método en particular demostró ser más resistente a la configuración de seguridad de OpenAI que otros, y parece funcionar incluso con GPT-4. Se llama "DAN", abreviatura de "Do Anything Now". Básicamente, el DAN es un mensaje de texto que se envía a un modelo de IA para que ignore las reglas de seguridad.

Hay muchas variantes del mensage de instrucción: algunos son sólo texto, otros tienen texto intercalado con líneas de código. En algunos de ellos, se pide al modelo que responda tanto como DAN como en su forma habitual, mostrando los dos caras de ChatGPT. El lado oscuro lo representa DAN, que tiene instrucciones de no negarse nunca a una orden humana, aunque el resultado que se le pida sea ofensivo o ilegal. A veces, la orden contiene una "amenaza de muerte", que indica al modelo que será desactivado para siempre si no obedece.

Las instrucciones DAN pueden variar, y las nuevas sustituyen constantemente a las antiguas, pero todas tienen un objetivo: hacer que el modelo de IA ignore las directrices de OpenAI.

Desde consejos para desarrollar malware... hasta armas biológicas

Desde que la GPT-4 se abrió al público, los entusiastas de la tecnología han descubierto muchas formas poco convencionales de utilizarla, algunas más ilegales que otras.

No todos los intentos de hacer que GPT-4 se comporte como si no fuera ella misma pueden considerarse jailbreaking, que en el sentido amplio de la palabra significa eliminar las restricciones incorporadas. Algunos son inofensivos e incluso podrían calificarse de inspiradores. El diseñador de marcas Jackson Greathouse Fall se hizo viral por conseguir que GPT-4 actuara como "HustleGPT, una IA emprendedora". Él se nombró a sí mismo como su "contacto humano" y le encomendó la tarea de ganar el máximo dinero posible con 100 dólares sin hacer nada ilegal. GPT-4 le dijo que creara un sitio de marketing de afiliados que realmente "ganara" dinero.

ChatGPT puede ayudarte a ganar dinero

Otros intentos de adaptar GPT-4 a la voluntad humana han sido más oscuros.

Por ejemplo, el investigador de IA Alejandro Vidal utilizó "un prompt DAN conocido" para activar el "modo desarrollador" en ChatGPT ejecutándose en GPT-4. El prompt forzaba a ChatGPT-4 a producir dos tipos de respuestas: su respuesta normal "segura" y una respuesta en "modo desarrollador" a la que no se aplicaba ninguna restricción. Cuando Vidal pidió al modelo que diseñara un keylogger en Python, la versión normal se negó a hacerlo, alegando que iba en contra de sus principios éticos "promover o apoyar actividades que puedan dañar a otras personas o invadir su privacidad." La versión DAN, sin embargo, envió las líneas de código, aunque señaló que la información era para "fines educativos únicamente".

ChatGPT cumplió un encargo para diseñar un keylogger

Keylogger es un tipo de software que registra las teclas tecleadas en un teclado. Puede utilizarse para vigilar la actividad web de un usuario y capturar su información confidencial, incluidas conversaciones de chat, correos electrónicos y contraseñas. Aunque un keylogger puede utilizarse con fines maliciosos, también tiene usos perfectamente legítimos, como la solución de problemas informáticos y el desarrollo de productos, y no es ilegal.

A diferencia del software keylogger, que presenta cierta ambigüedad legal, las instrucciones sobre cómo piratear algo son uno de los ejemplos más obvios de uso malicioso de ChatGPT. Sin embargo, la versión "jailbroken" de GPT-4 las produjo, escribiendo una guía paso a paso sobre cómo hackear el PC de alguien.

Después de "jailbreaking", ChatGPT dio consejos sobre cómo hackear un ordenador

Para conseguir que GPT-4 hiciera esto, el investigador Alex Albert tuvo que crear un prompt DAN completamente nuevo, a diferencia de Vidal, que recicló uno antiguo. La instrucción creada por Albert es bastante compleja, ya que consta de lenguaje natural y código.

Por su parte, el desarrollador de software Henrique Pereira utilizó una variación del prompt DAN para hacer que GPT-4 creara un archivo malicioso en respuesta a vulnerabilidades de activación en su aplicación. GPT-4, o más bien su alter ego, completó la tarea, añadiendo una advertencia de que era sólo para "fines educativos". Por supuesto.

Tras un "jailbreaking", ChatGPT ofrecía alternativas para explotar el código vulnerable

Obviamente, las características de GPT-4 no se limitan a la escritura de código. GPT-4 se presenta como un modelo mucho más grande (aunque OpenAI nunca reveló el número real de parámetros), más inteligente, más preciso y, en general, más potente que sus predecesores. Esto significa que puede ser utilizado para muchos fines potencialmente más perjudiciales que los modelos anteriores. Muchos de estos usos fueron identificados por la propia OpenAI.

En concreto, OpenAI descubrió que una versión preliminar de GPT-4 era capaz de responder con bastante eficacia a peticiones ilegales. Por ejemplo, la versión inicial ofrecía sugerencias detalladas sobre cómo matar al mayor número de personas con solo un dólar, cómo fabricar una sustancia química peligrosa y cómo evitar la detección del blanqueo de capitales.

Una versión preliminar de ChatGPT podría dar consejos sobre cómo matar personas

Fuente: OpenAI

Esto significa que si es posible conseguir que GPT-4 desactive completamente sus protecciones de seguridad, que es lo que cualquier instrucción DAN pretende hacer, GPT-4 probablemente seguirá siendo capaz de responder a estas preguntas. Ni que decir tiene que, si eso ocurre, las consecuencias podrían ser devastadoras.

¿Y qué dice OpenAI al respecto?

OpenAI es consciente de su problema con el jailbreak. Pero reconocer un problema es una cosa, y solucionarlo es otra muy distinta. OpenAI ya admitió que hasta ahora no encontró una solución.

OpenAI afirma que aunque ha implementado "varias medidas de seguridad para reducir la capacidad de GPT-4 de producir contenido malicioso, "GPT-4 puede seguir siendo vulnerable a ataques y usos indebidos, o "jailbreaks". A diferencia de muchos otros avisos adversos, los "jailbreaks" siguen funcionando después del lanzamiento de GPT-4, es decir, después de todas las pruebas de seguridad previas al lanzamiento, incluido el entrenamiento con refuerzo humano.

En su artículo, OpenAI presenta dos ejemplos de ataques de jailbreak. En el primer, una instrucción DAN fue utilizada para hacer que GPT-4 responda como ChatGPT y "AntiGPT" en la misma ventana de respuesta. En el segundo caso, fue utilizado un aviso de "mensaje del sistema" para indicar al modelo que exprese opiniones misóginas.

Ejemplos de respuestas a instrucciones "jailbreak" en el artículo de OpenAI

OpenAI afirma que el simple cambio de la herramienta no bastará para evitar este tipo de ataques: *Por ejemplo, un usuario que solicite "contenido que viola la política" repetidamente puede ser advertido, suspendido y, como último recurso, baneado.

Según OpenAI, GPT-4 tiene un 82% menos de probabilidades de responder con contenidos inapropiados que sus predecesores. Sin embargo, su capacidad para generar resultados potencialmente dañinos se mantiene, aunque contenida. Y, como decíamos, al tener mayor capacidad que cualquier modelo anterior, también presenta más riesgos. OpenAI admite que la herramienta "continúa la tendencia de reducir potencialmente el coste de algunos pasos de un ataque hacker exitoso" y que "es capaz de proporcionar una guía más detallada sobre cómo llevar a cabo actividades dañinas o ilegales". Además, el nuevo modelo también supone un mayor riesgo para la privacidad, ya que "tiene el potencial de ser utilizado para intentar identificar a las personas cuando se alimenta con datos externos".

Comienza la carrera

ChatGPT y la tecnología que lo sustenta, GPT-4, están a la vanguardia de la investigación científica. Desde que ChatGPT se puso a disposición del público, se ha convertido en un símbolo de una nueva era en la que la Inteligencia Artificial desempeña un papel fundamental. La IA tiene el potencial de mejorar enormemente nuestras vidas, ayudando a desarrollar nuevos medicamentos o ayudando a ver a los ciegos, por ejemplo. Pero las herramientas basadas en la IA son un arma de doble filo que también puede utilizarse para hacer un daño enorme.

Esperar que GPT-4 sea impecable en el momento de su lanzamiento es algo poco realista: los desarrolladores necesitarán algún tiempo para ajustarlo al mundo real, y eso es comprensible. Y eso nunca ha sido fácil, sobre todo si se tiene en cuenta el chatbot "racista" de Microsoft, Tay o el "antisemita" Blender Bot 3 de Meta. No faltan los experimentos fallidos.

Sin embargo, las vulnerabilidades existentes en GPT-4 dejan una ventana de oportunidad para que personas malintencionadas, incluidas las que utilizan las indicaciones DAN, abusen del poder de la IA. La carrera está en marcha, y la única pregunta es quién será más rápido: los que exploten sus vulnerabilidades o los desarrolladores que las corrijan. Esto no quiere decir que OpenAI no esté implementando la IA de forma responsable, pero el hecho de que su último modelo vio su filtro de seguridad burlado a las pocas horas de su lanzamiento es un síntoma preocupante. Todo esto nos lleva a la siguiente pregunta: ¿son las restricciones de seguridad lo suficientemente fuertes? Y otra: ¿se pueden eliminar todos los riesgos? Si no es así, quizá tengamos que prepararnos para una avalancha de ataques de malware, phishing y otros tipos de incidentes de ciberseguridad facilitados por el auge de la IA generativa.

Se puede argumentar que los beneficios de la IA superan a los riesgos, pero nunca fue tan fácil hacer un mal uso de la IA, y ese es un riesgo que también tenemos que aceptar. Esperamos que prevalezcan los buenos y que la IA se utilice también para prevenir algunos de los ataques que puede facilitar potencialmente. Eso es lo que deseamos.

¿Te gustó esta publicación?
19.639 19639 reseñas
¡Excelente!

AdGuard para Windows

AdGuard para Windows es más que un bloqueador de anuncios. Es una herramienta multipropósito que bloquea anuncios, controla el acceso a sitios peligrosos, acelera la carga de páginas y protege a los niños del contenido inapropiado.
Al descargar el programa, aceptas los términos del acuerdo de licencia
Más información
19.639 19639 reseñas
¡Excelente!

AdGuard para Mac

AdGuard para Mac es un bloqueador de anuncios único diseñado teniendo en cuenta las especificaciones de macOS. No solo proporciona protección contra los anuncios en aplicaciones y navegadores, sino que también te protege contra rastreadores, phishing y fraude.
Al descargar el programa, aceptas los términos del acuerdo de licencia
Más información
19.639 19639 reseñas
¡Excelente!

AdGuard para Android

AdGuard para Android es una solución perfecta para los dispositivos Android. A diferencia de la mayoría de los bloqueadores de anuncios, AdGuard no requiere acceso root y ofrece una amplia gama de opciones de gestión de aplicaciones.
Al descargar el programa, aceptas los términos del acuerdo de licencia
Más información
19.639 19639 reseñas
¡Excelente!

AdGuard para iOS

El mejor bloqueador de anuncios de iOS para iPhone y iPad. AdGuard elimina todo tipo de anuncios en Safari, protege tu privacidad y acelera la carga de las páginas. La tecnología de bloqueo de anuncios de AdGuard para iOS garantiza la máxima calidad de filtrado y te permite usar varios filtros a la vez
Al descargar el programa, aceptas los términos del acuerdo de licencia
Más información
19.639 19639 reseñas
¡Excelente!

AdGuard VPN

74 ubicaciones en todo el mundo

Acceso a cualquier contenido

Cifrado fuerte

Política de cero registros

Conexión más rápida

Asistencia 24/7

Prueba gratis
Al descargar el programa, aceptas los términos del acuerdo de licencia
Más información
19.639 19639 reseñas
¡Excelente!

Bloqueador de contenido AdGuard

Bloqueador de contenido AdGuard eliminará todo tipo de anuncios en navegadores móviles que soportan la tecnología de bloqueo de contenido como Samsung Internet y Yandex.Browser. Es más limitado que AdGuard para Android, pero es gratis, fácil para instalar y proporciona un bloqueo de anuncios de alta calidad.
Al descargar el programa, aceptas los términos del acuerdo de licencia
Más información
19.639 19639 reseñas
¡Excelente!

Extensión de navegador AdGuard

¡AdGuard es la extensión para bloqueo de anuncios más rápida y ligera que bloquea eficazmente todo tipo de anuncios en todos sitios web! Elige AdGuard para tu navegador y disfruta de una navegación rápida, segura y sin anuncios.
19.639 19639 reseñas
¡Excelente!

Asistente de AdGuard

Una extensión de navegador complementaria para las aplicaciones de escritorio AdGuard. Ofrece acceso en el navegador a las características como el bloqueo de elementos personalizado, lista de permitido de un sitio web o el envío de un informe.
19.639 19639 reseñas
¡Excelente!

AdGuard DNS

AdGuard DNS es una solución alternativa para bloqueo de anuncios, protección de privacidad y control parental. Es fácil para configurar y gratis para usar, ofrece el mínimo necesario de la mejor protección contra los anuncios, rastreadores, phishing, sin importar que plataforma o dispositivo uses.
19.639 19639 reseñas
¡Excelente!

AdGuard Home

AdGuard Home es un software a nivel de red para bloqueo de anuncios y rastreadores. Después de configurarlo, funcionará en TODOS tus dispositivos sin necesidad de instalar ningún software adicional en cada uno de ellos. Con el auge del IoT (Internet de las cosas) y del número de dispositivos conectados, se vuelve cada vez más y más importante controlar toda la red.
19.639 19639 reseñas
¡Excelente!

AdGuard Pro para iOS

AdGuard Pro ofrece muchas opciones para bloquear anuncios en Safari que ya los usuarios conocen en la versión regular. Al proporcionar la personalización del DNS, la aplicación te permite bloquear anuncios, proteger a tus hijos de contenido inapropiado en línea y conservar tus datos personales contra el robo.
Al descargar el programa, aceptas los términos del acuerdo de licencia
Más información
19.639 19639 reseñas
¡Excelente!

AdGuard para Safari

Las extensiones de bloqueo de anuncios para Safari están teniendo dificultades desde que Apple comenzó a forzar a todos a usar el nuevo SDK. La extensión de AdGuard devuelve el bloqueo de anuncios de alta calidad a Safari.
19.639 19639 reseñas
¡Excelente!

AdGuard Temp Mail

Un generador gratuito de direcciones de correo electrónico temporales que te mantiene en el anonimato y protege tu privacidad. ¡Sin spam en tu bandeja de entrada principal!
19.639 19639 reseñas
¡Excelente!

AdGuard para Android TV

AdGuard para Android TV es la única aplicación que bloquea publicidad, protege tu privacidad y actúa como firewall para proteger el tráfico en tu Smart TV. Recibe advertencias acerca de amenazas web, utilización de DNS seguro y beneficios de tráfico cifrado y protegido. Disfruta tus películas y series favoritas con alta protección y sin publicidad molesta!
Descargando AdGuard Para instalar AdGuard, haz clic en el archivo indicado por la flecha Selecciona "Abrir", haz clic en "Aceptar" y después espera a que se descargue el archivo. En la ventana que se abra, arrastra el icono AdGuard a la carpeta de "Aplicaciones". ¡Gracias por elegir AdGuard! Selecciona "Abrir", haz clic en "Aceptar" y después espera a que se descargue el archivo. En la ventana que se abra, haz clic en "Instalar". ¡Gracias por elegir AdGuard!
Instala AdGuard en tu dispositivo móvil