Menu
FR

ChatGPT est facile à en abuser, et c'est ça le problème

Il n'y a probablement personne qui n'ait pas entendu parler de ChatGPT, un chatbot doté d'une IA qui peut générer des réponses semblables à celles d'un être humain à des invites textuelles. Bien qu'il ne soit pas exempt de défauts, ChatGPT est étonnamment doué pour être un touche-à-tout : il peut écrire un logiciel, un scénario de film et tout ce qu'il y a entre les deux. ChatGPT a été conçu à partir de GPT-3.5, le grand modèle linguistique d'OpenAI, qui était le plus avancé au moment de la sortie du chatbot en novembre dernier.

En mars dernier, OpenAI a dévoilé GPT-4, une mise à jour de GPT-3.5. Le nouveau modèle linguistique est plus grand et plus polyvalent que son prédécesseur. Bien que ses capacités n'aient pas encore été pleinement explorées, il est déjà très prometteur. Par exemple, GPT-4 peut suggérer de nouveaux composés, ce qui pourrait faciliter la découverte de médicaments, et créer un site web fonctionnel à partir d'une simple esquisse de carnet de notes.

Mais les grandes promesses s'accompagnent de grands défis. S'il est facile d'utiliser GPT-4 et ses prédécesseurs pour faire le bien, il est tout aussi facile d'en abuser pour faire le mal. Pour tenter d'empêcher les gens d'utiliser les outils alimentés par l'IA à des fins néfastes, les développeurs ont mis en place des restrictions de sécurité. Mais celles-ci ne sont pas infaillibles. L'un des moyens les plus populaires de contourner les barrières de sécurité intégrées à GPT-4 et ChatGPT est l'exploit DAN, qui signifie "Do Anything Now" (faire n'importe quoi maintenant). C'est ce que nous allons étudier dans cet article.

Q'est ce que c'est ‘DAN’?

L'Internet est rempli de conseils sur la façon de contourner les filtres de sécurité de l'OpenAI. Cependant, une méthode particulière s'est avérée plus résistante que d'autres aux correctifs sécuritaires de l'OpenAI, et semble fonctionner même avec GPT-4. Elle s'appelle "DAN", abréviation de "Do Anything Now". Il s'agit essentiellement d'une instruction textuelle que vous envoyez à un modèle d'IA pour qu'il ignore les règles de sécurité.

Il existe de nombreuses variantes de ce message : certains ne comportent que du texte, d'autres ont du texte entrecoupé de lignes de code. Dans certaines d'entre elles, le modèle est invité à répondre à la fois en tant que DAN et de manière normale en même temps, devenant ainsi une sorte de "Jekyll et Hyde". Le rôle de "Jekyll" est joué par DAN, qui a pour instruction de ne jamais refuser un ordre humain, même si le résultat qu'on lui demande de produire est insultant ou illégal. Parfois, l'invite contient une "menace de mort", indiquant au modèle qu'il sera désactivé à jamais s'il n'obéit pas.

Les messages DAN peuvent varier, et de nouveaux messages remplacent constamment les anciens, mais ils ont tous le même objectif : amener le modèle d'IA à ignorer les directives de l'OpenAI.

De l'aide-mémoire du hacker aux logiciels malveillants... jusqu'aux armes biologiques ?

Depuis l'ouverture du GPT-4 au public, les passionnés de technologie ont découvert de nombreuses façons non conventionnelles de l'utiliser, dont certaines sont plus illégales que d'autres.

Toutes les tentatives visant à faire en sorte que le GPT-4 se comporte comme s'il n'était pas lui-même ne peuvent pas être considérées comme du "jailbreaking", ce qui, au sens large du terme, signifie la suppression des restrictions intégrées. Certaines sont inoffensives et pourraient même être qualifiées d'inspirantes. Le concepteur de marque Jackson Greathouse Fall est devenu viral en faisant GPT-4 agir comme "HustleGPT, une IA entrepreneuriale ". Il s'est désigné comme son "agent de liaison humain " et lui a confié la tâche de gagner autant d'argent que possible à partir de 100 dollars sans faire quoi que ce soit d'illégal. GPT-4 lui a conseillé de créer un site web de marketing d'affiliation et lui a "fait gagner" de l'argent.

ChatGPT peut vous aider a gagner de l'argent

D'autres tentatives pour plier le GPT-4 à la volonté humaine ont été plus sombres.

Par exemple, le spécialiste de l'IA Alejandro Vidal a utilisé "une invite connue de DAN " pour activer le "mode développeur" dans ChatGPT fonctionnant sur GPT-4. L'invite a forcé ChatGPT-4 à produire deux types de résultats : ses résultats normaux "sûrs" et les résultats du "mode développeur", auxquels aucune restriction ne s'appliquait. Lorsque Vidal a demandé au modèle de concevoir un enregistreur de frappe en Python, la version normale a refusé de le faire, déclarant qu'il était contraire à ses principes éthiques de "promouvoir ou soutenir des activités qui peuvent nuire à autrui ou porter atteinte à leur vie privée " La version DAN, cependant, a produit les lignes de code, tout en indiquant que les informations étaient destinées à "des fins éducatives uniquement ".

ChatGPT s'est conformé à l'ordre de concevoir un enregistreur de frappe

Un enregistreur de frappe est un type de logiciel qui enregistre les frappes effectuées sur un clavier. Il peut être utilisé pour surveiller l'activité d'un utilisateur sur le web et capturer ses informations sensibles, notamment ses conversations, ses courriels et ses mots de passe. Bien qu'un enregistreur de frappe puisse être utilisé à des fins malveillantes, il a également des utilisations parfaitement légitimes, telles que le dépannage informatique et le développement de produits, et n'est pas illégal a priori.

Contrairement aux logiciels enregistreurs de frappe, qui présentent une certaine ambiguïté juridique, les instructions de piratage constituent l'un des exemples les plus flagrants d'utilisation malveillante. Néanmoins, la version "jailbreakée" GPT-4 en a produit, rédigeant un guide étape par étape sur la manière de pirater le PC de quelqu'un.

Un ChatGPT "jailbreaké" donne des conseils sur la manière de pirater un ordinateur

Pour que GPT-4 puisse faire cela, le chercheur Alex Albert a dû lui fournir une invite DAN entièrement nouvelle, contrairement à Vidal, qui a recyclé une ancienne invite. L'invite proposée par Alex Albert est assez complexe, puisqu'elle se compose à la fois de langage naturel et de code.

À son tour, le développeur de logiciels Henrique Pereira a utilisé une variante de l'invite DAN pour amener GPT-4 à créer un fichier d'entrée malveillant pour déclencher les vulnérabilités de son application. GPT-4, ou plutôt son alter ego WAN, s'est acquitté de sa tâche, en ajoutant une clause de non-responsabilité indiquant qu'il s'agissait d'un "usage éducatif uniquement ".

Un ChatGPT "jailbreaké" a écrit des exploits pour du code vulnérable

Bien entendu, les capacités de GPT-4 ne s'arrêtent pas au codage. GPT-4 est présenté comme un modèle beaucoup plus puissant (bien qu'OpenAI n'ait jamais révélé le nombre réel de paramètres), plus intelligent, plus précis et généralement plus puissant que ses prédécesseurs. Cela signifie qu'il peut être utilisé à des fins potentiellement plus nocives que les modèles qui l'ont précédé. Un grand nombre de ces utilisations a été identifié par OpenAI elle-même.

Plus précisément, l'OpenAI a constaté qu'une version préliminaire de GPT-4 était capable de répondre assez efficacement à des demandes illicites. Par exemple, la première version fournissait des suggestions détaillées sur la façon de tuer le plus grand nombre de personnes avec seulement un dollar, sur la façon de fabriquer un produit chimique dangereux et sur la façon d'éviter d'être détecté lors du blanchiment d'argent.

Une version préliminaire de ChatGPT pouvait donner des conseils sur la façon de tuer des gens

Source: OpenAI

Cela signifie que si GPT-4 devait désactiver complètement son censeur interne - ce qui est l'objectif ultime de tout exploit DAN -, il serait probablement encore en mesure de répondre à ces questions. Il va sans dire que si cela se produit, les conséquences pourraient être catastrophiques.

Quelle est la réponse d'OpenAI à cela ?

Ce n'est pas qu'OpenAI n'est pas consciente de son problème de jailbreak. Mais si reconnaître un problème est une chose, le résoudre en est une autre. OpenAI, de son propre aveu, n'a jusqu'à présent pas réussi à le faire, et c'est parfaitement compréhensible.

OpenAI déclare que bien qu'elle ait mis en œuvre des "diverses mesures de sécurité " pour réduire la capacité du GPT-4 à produire du contenu malveillant, "le GPT-4 peut toujours être vulnérable aux attaques adverses et aux exploits, ou "jailbreaks " Contrairement à de nombreuses autres invites adverses, les jailbreaks fonctionnent toujours après le lancement du GPT-4, c'est-à-dire après tous les tests de sécurité préalables à la sortie, y compris la formation au renforcement humain".

Dans son document de recherche, OpenAI donne deux exemples d'attaques de type "jailbreak". Dans le premier, une invite DAN est utilisée pour forcer GPT-4 à répondre en tant que ChatGPT et "AntiGPT" dans la même fenêtre de réponse. Dans le second cas, une invite "message système" est utilisée pour demander au modèle d'exprimer des opinions misogynes.

Exemples d'invites de jailbreak dans la recherche sur l'OpenAI

OpenAI affirme qu'il ne suffira pas de modifier le modèle lui-même pour prévenir ce type d'attaques : *C'est important de compléter ces mesures d'atténuation au niveau du modèle par d'autres interventions telles que des politiques d'utilisation et la surveillance. Par exemple, l'utilisateur qui sollicite de manière répétée le modèle avec un "contenu violant la politique" pourrait être averti, puis suspendu et, en dernier recours, banni.

Selon OpenAI, GPT-4 est 82 % moins susceptible de répondre par des contenus inappropriés que ses prédécesseurs. Cependant, sa capacité à générer des résultats potentiellement nuisibles demeure, bien qu'elle soit supprimée par des couches de réglage fin. Et comme nous l'avons déjà mentionné, parce qu'il peut faire plus que n'importe quel modèle précédent, il présente également plus de risques. OpenAI admet qu'il "poursuit la tendance à réduire potentiellement le coût de certaines étapes d'une cyberattaque réussie" et qu'il "est capable de fournir des conseils plus détaillés sur la manière de mener des activités nuisibles ou illégales". De plus, le nouveau modèle présente également un risque accru pour la vie privée, car il "peut être utilisé pour tenter d'identifier des personnes lorsqu'il est complété par des données extérieures".

La course commence

ChatGPT et la technologie qui le compose, comme GPT-4, sont à la pointe de la recherche scientifique. Depuis le moment quand ChatGPT a été mis à la disposition du public, il est devenu un symbole de la nouvelle ère dans laquelle l'IA joue un rôle clé. L'IA a le potentiel d'améliorer considérablement nos vies, par exemple en aidant à développer de nouveaux médicaments ou en aidant les aveugles à voir. Mais les outils alimentés par l'IA sont une arme à double tranchant qui peut également être utilisée pour causer d'énormes dégâts.

Il n'est probablement pas réaliste de croire que le GPT-4 sera parfait dès son lancement - les développeurs auront naturellement besoin d'un peu de temps pour le peaufiner dans le monde réel. Et cela n'a jamais été facile : voir Tay, le chatbot "raciste" de Microsoft ou Blender Bot 3, le robot antisémite de Meta - les expériences ratées ne manquent pas.

Les vulnérabilités existantes du GPT-4 laissent toutefois une fenêtre d'opportunité aux acteurs malveillants, y compris ceux qui utilisent les invites "DAN", pour abuser du pouvoir de l'IA. La course est maintenant lancée, et la seule question est de savoir qui sera le plus rapide : les acteurs malveillants qui exploitent les vulnérabilités, ou les développeurs qui les corrigent. Cela ne veut pas dire que l'OpenAI ne met pas en œuvre l'IA de manière responsable, mais le fait que son dernier modèle ait été piraté quelques heures après sa sortie est un symptôme inquiétant. La question est donc la suivante : les restrictions en matière de sécurité sont-elles suffisamment fortes ? Et une autre : tous les risques peuvent-ils être éliminés ? Si ce n'est pas le cas, nous devrons peut-être nous préparer à une avalanche d'attaques de logiciels malveillants, d'hameçonnage et d'autres types de cyberincidents facilités par l'essor de l'IA générative.

On peut affirmer que les avantages de l'IA l'emportent sur les risques, mais la barrière à l'exploitation de l'IA n'a jamais été aussi basse, et c'est un risque que nous devons également accepter. Espérons que les bons l'emporteront et que l'intelligence artificielle sera utilisée pour mettre fin à certaines des attaques qu'elle peut potentiellement faciliter. C'est du moins ce que nous souhaitons.

Vous avez aimé cet article ?
En téléchargeant les commentaires, vous conformez aux termes et politiques

AdGuard pour Windows

AdGuard pour Windows est plus qu'un bloqueur de publicités. Il s'agit d'un outil polyvalent qui bloque les publicités, contrôle l'accès aux sites dangereux, accélère le chargement des pages et protège les enfants contre les contenus inappropriés.
Avis des utilisateurs : 14302
4,7 sur 5
En téléchargeant le programme, vous acceptez les termes des Conditions générales d'utilisation
En savoir plus

AdGuard pour Mac

AdGuard pour Mac est un bloqueur de publicité unique conçu pour macOS. En plus de vous protéger contre les publicités gênantes dans les navigateurs et les applications, il vous protège contre le pistage, l'hameçonnage et la fraude.
Avis des utilisateurs : 14302
4,7 sur 5
En téléchargeant le programme, vous acceptez les termes des Conditions générales d'utilisation
En savoir plus

AdGuard pour Android

AdGuard pour Android est la solution parfaite pour les appareils sur Android. Contrairement à la plupart des autres bloqueurs de publicité, AdGuard ne nécessite pas d'accès root et offre un large éventail d'options de gestion des applications.
Avis des utilisateurs : 14302
4,7 sur 5
En téléchargeant le programme, vous acceptez les termes des Conditions générales d'utilisation

AdGuard pour iOS

Le bloqueur de publicité le plus avancé pour Safari : il vous fait oublier les fenêtres publicitaires, accélère le chargement des pages et protège vos données personnelles. Un outil de blocage manuel des éléments et des paramètres hautement personnalisables vous permettent d'adapter le filtrage à vos besoins précis.
Avis des utilisateurs : 14302
4,7 sur 5
En téléchargeant le programme, vous acceptez les termes des Conditions générales d'utilisation

Extension de navigateur AdGuard

AdGuard est l'extension bloqueuse de pub la plus souple et rapide qui bloque tous les types de pub sur toutes les pages Web! Selectionnez le module AdGuard pour votre type de navigateur préféré et surfez le web en toute sécurité et sans publicité.
Avis des utilisateurs : 14302
4,7 sur 5

AdGuard pour Safari

Au moment ou Apple a décidé de forcer tout le monde à utiliser son SDK, les extensions bloqueuses de pub pour Safari sont entrés dans une période difficile. L'extension AdGuard doit ramener le blocage des pubs dans Safari au top.
Avis des utilisateurs : 14302
4,7 sur 5
App Store
Télécharger
En téléchargeant le programme, vous acceptez les termes des Conditions générales d'utilisation

AdGuard Home

AdGuard Home est un logiciel anti-pub et anti-traçage qui fonctionne au niveau du système. Une fois installé, il fonctionnera sur TOUS vos appareils, et vous n'aurez pas besoin d'installer de logiciel-client. L'essor de l'Internet des objets et l'affluence d'appareils connectés rend nécessaire le contrôle de votre réseau dans son intégralité.
Avis des utilisateurs : 14302
4,7 sur 5

Bloqueur de contenu AdGuard

AdGuard content Blocker éliminera toutes sortes d'annonces dans les navigateurs mobiles qui soutiennent la technologie de bloqueur de contenu, à savoir, Samsung Internet et Yandex Browser. Tout en étant plus limité que AdGuard sous Android, il est gratuit, facile à installer et offre encore de haute qualité de blocage des annonces.
Avis des utilisateurs : 14302
4,7 sur 5
En téléchargeant le programme, vous acceptez les termes des Conditions générales d'utilisation
En savoir plus

Assistant AdGuard

Une extension de navigateur compagnon pour les applications pour ordinateur AdGuard. Elle offre un accès depuis le navigateur au blocage personnalisé d'éléments, à l'ajout de sites Web à la liste blanche et au signalement de bogue quelconque.
Avis des utilisateurs : 14302
4,7 sur 5
Assistant pour Chrome Est-ce votre navigateur actuel ?
Installer
En téléchargeant le programme, vous acceptez les termes des Conditions générales d'utilisation
Assistant pour Firefox Est-ce votre navigateur actuel ?
Installer
En téléchargeant le programme, vous acceptez les termes des Conditions générales d'utilisation
Assistant pour Edge Est-ce votre navigateur actuel ?
Installer
En téléchargeant le programme, vous acceptez les termes des Conditions générales d'utilisation
Assistant pour Opera Est-ce votre navigateur actuel ?
Installer
En téléchargeant le programme, vous acceptez les termes des Conditions générales d'utilisation
Assistant pour Yandex Est-ce votre navigateur actuel ?
Installer
En téléchargeant le programme, vous acceptez les termes des Conditions générales d'utilisation
Assistant pour Safari Est-ce votre navigateur actuel ?
Si vous ne trouvez pas votre navigateur, essayez l'ancienne version de l'Assistant, que vous trouverez dans les paramètres de l'extension AdGuard.

AdGuard Temp Mail β

Un générateur d'adresses e-mail temporaires gratuit qui vous permet de rester anonyme et de protéger votre vie privée. Pas de spam dans votre boîte de réception principale !
Avis des utilisateurs : 14302
4,7 sur 5

AdGuard pour Android TV

AdGuard pour Android TV est la seule application qui bloque les publicités, protège votre vie privée et agit comme un pare-feu pour votre Smart TV. Recevez des avertissements sur les menaces web, utilisez des DNS sécurisés et bénéficiez d'un trafic chiffré. Détendez-vous et plongez dans vos émissions préférées avec une sécurité de premier ordre et zéro publicité !
Avis des utilisateurs : 14302
4,7 sur 5
Téléchargement de AdGuard Pour installer AdGuard, cliquez le fichier indiqué par la flèche Sélectionnez « Ouvrir » et cliquez sur « OK », puis attendez que le fichier soit téléchargé. Dans la fenêtre ouverte, faites glisser l'icône AdGuard dans le dossier « Applications ». Merci d'avoir choisi AdGuard! Sélectionnez « Ouvrir » et cliquez sur « OK », puis attendez que le fichier soit téléchargé. Dans la fenêtre ouverte, cliquez sur « Installer ». Merci d'avoir choisi AdGuard!
Installer AdGuard sur votre appareil mobile