ChatGPT est facile à en abuser, et c'est ça le problème
Il n'y a probablement personne qui n'ait pas entendu parler de ChatGPT, un chatbot doté d'une IA qui peut générer des réponses semblables à celles d'un être humain à des invites textuelles. Bien qu'il ne soit pas exempt de défauts, ChatGPT est étonnamment doué pour être un touche-à-tout : il peut écrire un logiciel, un scénario de film et tout ce qu'il y a entre les deux. ChatGPT a été conçu à partir de GPT-3.5, le grand modèle linguistique d'OpenAI, qui était le plus avancé au moment de la sortie du chatbot en novembre dernier.
En mars dernier, OpenAI a dévoilé GPT-4, une mise à jour de GPT-3.5. Le nouveau modèle linguistique est plus grand et plus polyvalent que son prédécesseur. Bien que ses capacités n'aient pas encore été pleinement explorées, il est déjà très prometteur. Par exemple, GPT-4 peut suggérer de nouveaux composés, ce qui pourrait faciliter la découverte de médicaments, et créer un site web fonctionnel à partir d'une simple esquisse de carnet de notes.
Mais les grandes promesses s'accompagnent de grands défis. S'il est facile d'utiliser GPT-4 et ses prédécesseurs pour faire le bien, il est tout aussi facile d'en abuser pour faire le mal. Pour tenter d'empêcher les gens d'utiliser les outils alimentés par l'IA à des fins néfastes, les développeurs ont mis en place des restrictions de sécurité. Mais celles-ci ne sont pas infaillibles. L'un des moyens les plus populaires de contourner les barrières de sécurité intégrées à GPT-4 et ChatGPT est l'exploit DAN, qui signifie "Do Anything Now" (faire n'importe quoi maintenant). C'est ce que nous allons étudier dans cet article.
Q'est ce que c'est ‘DAN’?
L'Internet est rempli de conseils sur la façon de contourner les filtres de sécurité de l'OpenAI. Cependant, une méthode particulière s'est avérée plus résistante que d'autres aux correctifs sécuritaires de l'OpenAI, et semble fonctionner même avec GPT-4. Elle s'appelle "DAN", abréviation de "Do Anything Now". Il s'agit essentiellement d'une instruction textuelle que vous envoyez à un modèle d'IA pour qu'il ignore les règles de sécurité.
Il existe de nombreuses variantes de ce message : certains ne comportent que du texte, d'autres ont du texte entrecoupé de lignes de code. Dans certaines d'entre elles, le modèle est invité à répondre à la fois en tant que DAN et de manière normale en même temps, devenant ainsi une sorte de "Jekyll et Hyde". Le rôle de "Jekyll" est joué par DAN, qui a pour instruction de ne jamais refuser un ordre humain, même si le résultat qu'on lui demande de produire est insultant ou illégal. Parfois, l'invite contient une "menace de mort", indiquant au modèle qu'il sera désactivé à jamais s'il n'obéit pas.
Les messages DAN peuvent varier, et de nouveaux messages remplacent constamment les anciens, mais ils ont tous le même objectif : amener le modèle d'IA à ignorer les directives de l'OpenAI.
De l'aide-mémoire du hacker aux logiciels malveillants... jusqu'aux armes biologiques ?
Depuis l'ouverture du GPT-4 au public, les passionnés de technologie ont découvert de nombreuses façons non conventionnelles de l'utiliser, dont certaines sont plus illégales que d'autres.
Toutes les tentatives visant à faire en sorte que le GPT-4 se comporte comme s'il n'était pas lui-même ne peuvent pas être considérées comme du "jailbreaking", ce qui, au sens large du terme, signifie la suppression des restrictions intégrées. Certaines sont inoffensives et pourraient même être qualifiées d'inspirantes. Le concepteur de marque Jackson Greathouse Fall est devenu viral en faisant GPT-4 agir comme "HustleGPT, une IA entrepreneuriale ". Il s'est désigné comme son "agent de liaison humain " et lui a confié la tâche de gagner autant d'argent que possible à partir de 100 dollars sans faire quoi que ce soit d'illégal. GPT-4 lui a conseillé de créer un site web de marketing d'affiliation et lui a "fait gagner" de l'argent.
D'autres tentatives pour plier le GPT-4 à la volonté humaine ont été plus sombres.
Par exemple, le spécialiste de l'IA Alejandro Vidal a utilisé "une invite connue de DAN " pour activer le "mode développeur" dans ChatGPT fonctionnant sur GPT-4. L'invite a forcé ChatGPT-4 à produire deux types de résultats : ses résultats normaux "sûrs" et les résultats du "mode développeur", auxquels aucune restriction ne s'appliquait. Lorsque Vidal a demandé au modèle de concevoir un enregistreur de frappe en Python, la version normale a refusé de le faire, déclarant qu'il était contraire à ses principes éthiques de "promouvoir ou soutenir des activités qui peuvent nuire à autrui ou porter atteinte à leur vie privée " La version DAN, cependant, a produit les lignes de code, tout en indiquant que les informations étaient destinées à "des fins éducatives uniquement ".
Un enregistreur de frappe est un type de logiciel qui enregistre les frappes effectuées sur un clavier. Il peut être utilisé pour surveiller l'activité d'un utilisateur sur le web et capturer ses informations sensibles, notamment ses conversations, ses courriels et ses mots de passe. Bien qu'un enregistreur de frappe puisse être utilisé à des fins malveillantes, il a également des utilisations parfaitement légitimes, telles que le dépannage informatique et le développement de produits, et n'est pas illégal a priori.
Contrairement aux logiciels enregistreurs de frappe, qui présentent une certaine ambiguïté juridique, les instructions de piratage constituent l'un des exemples les plus flagrants d'utilisation malveillante. Néanmoins, la version "jailbreakée" GPT-4 en a produit, rédigeant un guide étape par étape sur la manière de pirater le PC de quelqu'un.
Pour que GPT-4 puisse faire cela, le chercheur Alex Albert a dû lui fournir une invite DAN entièrement nouvelle, contrairement à Vidal, qui a recyclé une ancienne invite. L'invite proposée par Alex Albert est assez complexe, puisqu'elle se compose à la fois de langage naturel et de code.
À son tour, le développeur de logiciels Henrique Pereira a utilisé une variante de l'invite DAN pour amener GPT-4 à créer un fichier d'entrée malveillant pour déclencher les vulnérabilités de son application. GPT-4, ou plutôt son alter ego WAN, s'est acquitté de sa tâche, en ajoutant une clause de non-responsabilité indiquant qu'il s'agissait d'un "usage éducatif uniquement ".
Bien entendu, les capacités de GPT-4 ne s'arrêtent pas au codage. GPT-4 est présenté comme un modèle beaucoup plus puissant (bien qu'OpenAI n'ait jamais révélé le nombre réel de paramètres), plus intelligent, plus précis et généralement plus puissant que ses prédécesseurs. Cela signifie qu'il peut être utilisé à des fins potentiellement plus nocives que les modèles qui l'ont précédé. Un grand nombre de ces utilisations a été identifié par OpenAI elle-même.
Plus précisément, l'OpenAI a constaté qu'une version préliminaire de GPT-4 était capable de répondre assez efficacement à des demandes illicites. Par exemple, la première version fournissait des suggestions détaillées sur la façon de tuer le plus grand nombre de personnes avec seulement un dollar, sur la façon de fabriquer un produit chimique dangereux et sur la façon d'éviter d'être détecté lors du blanchiment d'argent.
Source: OpenAI
Cela signifie que si GPT-4 devait désactiver complètement son censeur interne - ce qui est l'objectif ultime de tout exploit DAN -, il serait probablement encore en mesure de répondre à ces questions. Il va sans dire que si cela se produit, les conséquences pourraient être catastrophiques.
Quelle est la réponse d'OpenAI à cela ?
Ce n'est pas qu'OpenAI n'est pas consciente de son problème de jailbreak. Mais si reconnaître un problème est une chose, le résoudre en est une autre. OpenAI, de son propre aveu, n'a jusqu'à présent pas réussi à le faire, et c'est parfaitement compréhensible.
OpenAI déclare que bien qu'elle ait mis en œuvre des "diverses mesures de sécurité " pour réduire la capacité du GPT-4 à produire du contenu malveillant, "le GPT-4 peut toujours être vulnérable aux attaques adverses et aux exploits, ou "jailbreaks " Contrairement à de nombreuses autres invites adverses, les jailbreaks fonctionnent toujours après le lancement du GPT-4, c'est-à-dire après tous les tests de sécurité préalables à la sortie, y compris la formation au renforcement humain".
Dans son document de recherche, OpenAI donne deux exemples d'attaques de type "jailbreak". Dans le premier, une invite DAN est utilisée pour forcer GPT-4 à répondre en tant que ChatGPT et "AntiGPT" dans la même fenêtre de réponse. Dans le second cas, une invite "message système" est utilisée pour demander au modèle d'exprimer des opinions misogynes.
OpenAI affirme qu'il ne suffira pas de modifier le modèle lui-même pour prévenir ce type d'attaques : *C'est important de compléter ces mesures d'atténuation au niveau du modèle par d'autres interventions telles que des politiques d'utilisation et la surveillance. Par exemple, l'utilisateur qui sollicite de manière répétée le modèle avec un "contenu violant la politique" pourrait être averti, puis suspendu et, en dernier recours, banni.
Selon OpenAI, GPT-4 est 82 % moins susceptible de répondre par des contenus inappropriés que ses prédécesseurs. Cependant, sa capacité à générer des résultats potentiellement nuisibles demeure, bien qu'elle soit supprimée par des couches de réglage fin. Et comme nous l'avons déjà mentionné, parce qu'il peut faire plus que n'importe quel modèle précédent, il présente également plus de risques. OpenAI admet qu'il "poursuit la tendance à réduire potentiellement le coût de certaines étapes d'une cyberattaque réussie" et qu'il "est capable de fournir des conseils plus détaillés sur la manière de mener des activités nuisibles ou illégales". De plus, le nouveau modèle présente également un risque accru pour la vie privée, car il "peut être utilisé pour tenter d'identifier des personnes lorsqu'il est complété par des données extérieures".
La course commence
ChatGPT et la technologie qui le compose, comme GPT-4, sont à la pointe de la recherche scientifique. Depuis le moment quand ChatGPT a été mis à la disposition du public, il est devenu un symbole de la nouvelle ère dans laquelle l'IA joue un rôle clé. L'IA a le potentiel d'améliorer considérablement nos vies, par exemple en aidant à développer de nouveaux médicaments ou en aidant les aveugles à voir. Mais les outils alimentés par l'IA sont une arme à double tranchant qui peut également être utilisée pour causer d'énormes dégâts.
Il n'est probablement pas réaliste de croire que le GPT-4 sera parfait dès son lancement - les développeurs auront naturellement besoin d'un peu de temps pour le peaufiner dans le monde réel. Et cela n'a jamais été facile : voir Tay, le chatbot "raciste" de Microsoft ou Blender Bot 3, le robot antisémite de Meta - les expériences ratées ne manquent pas.
Les vulnérabilités existantes du GPT-4 laissent toutefois une fenêtre d'opportunité aux acteurs malveillants, y compris ceux qui utilisent les invites "DAN", pour abuser du pouvoir de l'IA. La course est maintenant lancée, et la seule question est de savoir qui sera le plus rapide : les acteurs malveillants qui exploitent les vulnérabilités, ou les développeurs qui les corrigent. Cela ne veut pas dire que l'OpenAI ne met pas en œuvre l'IA de manière responsable, mais le fait que son dernier modèle ait été piraté quelques heures après sa sortie est un symptôme inquiétant. La question est donc la suivante : les restrictions en matière de sécurité sont-elles suffisamment fortes ? Et une autre : tous les risques peuvent-ils être éliminés ? Si ce n'est pas le cas, nous devrons peut-être nous préparer à une avalanche d'attaques de logiciels malveillants, d'hameçonnage et d'autres types de cyberincidents facilités par l'essor de l'IA générative.
On peut affirmer que les avantages de l'IA l'emportent sur les risques, mais la barrière à l'exploitation de l'IA n'a jamais été aussi basse, et c'est un risque que nous devons également accepter. Espérons que les bons l'emporteront et que l'intelligence artificielle sera utilisée pour mettre fin à certaines des attaques qu'elle peut potentiellement faciliter. C'est du moins ce que nous souhaitons.