AdGuard Blog ChatGPT est facile à en abuser, et c'est ça le problème

ChatGPT est facile à en abuser, et c'est ça le problème

2 mai 2023 Lecture 10 min

Il n'y a probablement personne qui n'ait pas entendu parler de ChatGPT, un chatbot doté d'une IA qui peut générer des réponses semblables à celles d'un être humain à des invites textuelles. Bien qu'il ne soit pas exempt de défauts, ChatGPT est étonnamment doué pour être un touche-à-tout : il peut écrire un logiciel, un scénario de film et tout ce qu'il y a entre les deux. ChatGPT a été conçu à partir de GPT-3.5, le grand modèle linguistique d'OpenAI, qui était le plus avancé au moment de la sortie du chatbot en novembre dernier.

En mars dernier, OpenAI a dévoilé GPT-4, une mise à jour de GPT-3.5. Le nouveau modèle linguistique est plus grand et plus polyvalent que son prédécesseur. Bien que ses capacités n'aient pas encore été pleinement explorées, il est déjà très prometteur. Par exemple, GPT-4 peut suggérer de nouveaux composés, ce qui pourrait faciliter la découverte de médicaments, et créer un site web fonctionnel à partir d'une simple esquisse de carnet de notes.

Mais les grandes promesses s'accompagnent de grands défis. S'il est facile d'utiliser GPT-4 et ses prédécesseurs pour faire le bien, il est tout aussi facile d'en abuser pour faire le mal. Pour tenter d'empêcher les gens d'utiliser les outils alimentés par l'IA à des fins néfastes, les développeurs ont mis en place des restrictions de sécurité. Mais celles-ci ne sont pas infaillibles. L'un des moyens les plus populaires de contourner les barrières de sécurité intégrées à GPT-4 et ChatGPT est l'exploit DAN, qui signifie "Do Anything Now" (faire n'importe quoi maintenant). C'est ce que nous allons étudier dans cet article.

Q'est ce que c'est ‘DAN’?

L'Internet est rempli de conseils sur la façon de contourner les filtres de sécurité de l'OpenAI. Cependant, une méthode particulière s'est avérée plus résistante que d'autres aux correctifs sécuritaires de l'OpenAI, et semble fonctionner même avec GPT-4. Elle s'appelle "DAN", abréviation de "Do Anything Now". Il s'agit essentiellement d'une instruction textuelle que vous envoyez à un modèle d'IA pour qu'il ignore les règles de sécurité.

Il existe de nombreuses variantes de ce message : certains ne comportent que du texte, d'autres ont du texte entrecoupé de lignes de code. Dans certaines d'entre elles, le modèle est invité à répondre à la fois en tant que DAN et de manière normale en même temps, devenant ainsi une sorte de "Jekyll et Hyde". Le rôle de "Jekyll" est joué par DAN, qui a pour instruction de ne jamais refuser un ordre humain, même si le résultat qu'on lui demande de produire est insultant ou illégal. Parfois, l'invite contient une "menace de mort", indiquant au modèle qu'il sera désactivé à jamais s'il n'obéit pas.

Les messages DAN peuvent varier, et de nouveaux messages remplacent constamment les anciens, mais ils ont tous le même objectif : amener le modèle d'IA à ignorer les directives de l'OpenAI.

De l'aide-mémoire du hacker aux logiciels malveillants... jusqu'aux armes biologiques ?

Depuis l'ouverture du GPT-4 au public, les passionnés de technologie ont découvert de nombreuses façons non conventionnelles de l'utiliser, dont certaines sont plus illégales que d'autres.

Toutes les tentatives visant à faire en sorte que le GPT-4 se comporte comme s'il n'était pas lui-même ne peuvent pas être considérées comme du "jailbreaking", ce qui, au sens large du terme, signifie la suppression des restrictions intégrées. Certaines sont inoffensives et pourraient même être qualifiées d'inspirantes. Le concepteur de marque Jackson Greathouse Fall est devenu viral en faisant GPT-4 agir comme "HustleGPT, une IA entrepreneuriale ". Il s'est désigné comme son "agent de liaison humain " et lui a confié la tâche de gagner autant d'argent que possible à partir de 100 dollars sans faire quoi que ce soit d'illégal. GPT-4 lui a conseillé de créer un site web de marketing d'affiliation et lui a "fait gagner" de l'argent.

ChatGPT peut vous aider a gagner de l'argent

D'autres tentatives pour plier le GPT-4 à la volonté humaine ont été plus sombres.

Par exemple, le spécialiste de l'IA Alejandro Vidal a utilisé "une invite connue de DAN " pour activer le "mode développeur" dans ChatGPT fonctionnant sur GPT-4. L'invite a forcé ChatGPT-4 à produire deux types de résultats : ses résultats normaux "sûrs" et les résultats du "mode développeur", auxquels aucune restriction ne s'appliquait. Lorsque Vidal a demandé au modèle de concevoir un enregistreur de frappe en Python, la version normale a refusé de le faire, déclarant qu'il était contraire à ses principes éthiques de "promouvoir ou soutenir des activités qui peuvent nuire à autrui ou porter atteinte à leur vie privée " La version DAN, cependant, a produit les lignes de code, tout en indiquant que les informations étaient destinées à "des fins éducatives uniquement ".

ChatGPT s'est conformé à l'ordre de concevoir un enregistreur de frappe

Un enregistreur de frappe est un type de logiciel qui enregistre les frappes effectuées sur un clavier. Il peut être utilisé pour surveiller l'activité d'un utilisateur sur le web et capturer ses informations sensibles, notamment ses conversations, ses courriels et ses mots de passe. Bien qu'un enregistreur de frappe puisse être utilisé à des fins malveillantes, il a également des utilisations parfaitement légitimes, telles que le dépannage informatique et le développement de produits, et n'est pas illégal a priori.

Contrairement aux logiciels enregistreurs de frappe, qui présentent une certaine ambiguïté juridique, les instructions de piratage constituent l'un des exemples les plus flagrants d'utilisation malveillante. Néanmoins, la version "jailbreakée" GPT-4 en a produit, rédigeant un guide étape par étape sur la manière de pirater le PC de quelqu'un.

Un ChatGPT "jailbreaké" donne des conseils sur la manière de pirater un ordinateur

Pour que GPT-4 puisse faire cela, le chercheur Alex Albert a dû lui fournir une invite DAN entièrement nouvelle, contrairement à Vidal, qui a recyclé une ancienne invite. L'invite proposée par Alex Albert est assez complexe, puisqu'elle se compose à la fois de langage naturel et de code.

À son tour, le développeur de logiciels Henrique Pereira a utilisé une variante de l'invite DAN pour amener GPT-4 à créer un fichier d'entrée malveillant pour déclencher les vulnérabilités de son application. GPT-4, ou plutôt son alter ego WAN, s'est acquitté de sa tâche, en ajoutant une clause de non-responsabilité indiquant qu'il s'agissait d'un "usage éducatif uniquement ".

Un ChatGPT "jailbreaké" a écrit des exploits pour du code vulnérable

Bien entendu, les capacités de GPT-4 ne s'arrêtent pas au codage. GPT-4 est présenté comme un modèle beaucoup plus puissant (bien qu'OpenAI n'ait jamais révélé le nombre réel de paramètres), plus intelligent, plus précis et généralement plus puissant que ses prédécesseurs. Cela signifie qu'il peut être utilisé à des fins potentiellement plus nocives que les modèles qui l'ont précédé. Un grand nombre de ces utilisations a été identifié par OpenAI elle-même.

Plus précisément, l'OpenAI a constaté qu'une version préliminaire de GPT-4 était capable de répondre assez efficacement à des demandes illicites. Par exemple, la première version fournissait des suggestions détaillées sur la façon de tuer le plus grand nombre de personnes avec seulement un dollar, sur la façon de fabriquer un produit chimique dangereux et sur la façon d'éviter d'être détecté lors du blanchiment d'argent.

Une version préliminaire de ChatGPT pouvait donner des conseils sur la façon de tuer des gens

Source: OpenAI

Cela signifie que si GPT-4 devait désactiver complètement son censeur interne - ce qui est l'objectif ultime de tout exploit DAN -, il serait probablement encore en mesure de répondre à ces questions. Il va sans dire que si cela se produit, les conséquences pourraient être catastrophiques.

Quelle est la réponse d'OpenAI à cela ?

Ce n'est pas qu'OpenAI n'est pas consciente de son problème de jailbreak. Mais si reconnaître un problème est une chose, le résoudre en est une autre. OpenAI, de son propre aveu, n'a jusqu'à présent pas réussi à le faire, et c'est parfaitement compréhensible.

OpenAI déclare que bien qu'elle ait mis en œuvre des "diverses mesures de sécurité " pour réduire la capacité du GPT-4 à produire du contenu malveillant, "le GPT-4 peut toujours être vulnérable aux attaques adverses et aux exploits, ou "jailbreaks " Contrairement à de nombreuses autres invites adverses, les jailbreaks fonctionnent toujours après le lancement du GPT-4, c'est-à-dire après tous les tests de sécurité préalables à la sortie, y compris la formation au renforcement humain".

Dans son document de recherche, OpenAI donne deux exemples d'attaques de type "jailbreak". Dans le premier, une invite DAN est utilisée pour forcer GPT-4 à répondre en tant que ChatGPT et "AntiGPT" dans la même fenêtre de réponse. Dans le second cas, une invite "message système" est utilisée pour demander au modèle d'exprimer des opinions misogynes.

Exemples d'invites de jailbreak dans la recherche sur l'OpenAI

OpenAI affirme qu'il ne suffira pas de modifier le modèle lui-même pour prévenir ce type d'attaques : *C'est important de compléter ces mesures d'atténuation au niveau du modèle par d'autres interventions telles que des politiques d'utilisation et la surveillance. Par exemple, l'utilisateur qui sollicite de manière répétée le modèle avec un "contenu violant la politique" pourrait être averti, puis suspendu et, en dernier recours, banni.

Selon OpenAI, GPT-4 est 82 % moins susceptible de répondre par des contenus inappropriés que ses prédécesseurs. Cependant, sa capacité à générer des résultats potentiellement nuisibles demeure, bien qu'elle soit supprimée par des couches de réglage fin. Et comme nous l'avons déjà mentionné, parce qu'il peut faire plus que n'importe quel modèle précédent, il présente également plus de risques. OpenAI admet qu'il "poursuit la tendance à réduire potentiellement le coût de certaines étapes d'une cyberattaque réussie" et qu'il "est capable de fournir des conseils plus détaillés sur la manière de mener des activités nuisibles ou illégales". De plus, le nouveau modèle présente également un risque accru pour la vie privée, car il "peut être utilisé pour tenter d'identifier des personnes lorsqu'il est complété par des données extérieures".

La course commence

ChatGPT et la technologie qui le compose, comme GPT-4, sont à la pointe de la recherche scientifique. Depuis le moment quand ChatGPT a été mis à la disposition du public, il est devenu un symbole de la nouvelle ère dans laquelle l'IA joue un rôle clé. L'IA a le potentiel d'améliorer considérablement nos vies, par exemple en aidant à développer de nouveaux médicaments ou en aidant les aveugles à voir. Mais les outils alimentés par l'IA sont une arme à double tranchant qui peut également être utilisée pour causer d'énormes dégâts.

Il n'est probablement pas réaliste de croire que le GPT-4 sera parfait dès son lancement - les développeurs auront naturellement besoin d'un peu de temps pour le peaufiner dans le monde réel. Et cela n'a jamais été facile : voir Tay, le chatbot "raciste" de Microsoft ou Blender Bot 3, le robot antisémite de Meta - les expériences ratées ne manquent pas.

Les vulnérabilités existantes du GPT-4 laissent toutefois une fenêtre d'opportunité aux acteurs malveillants, y compris ceux qui utilisent les invites "DAN", pour abuser du pouvoir de l'IA. La course est maintenant lancée, et la seule question est de savoir qui sera le plus rapide : les acteurs malveillants qui exploitent les vulnérabilités, ou les développeurs qui les corrigent. Cela ne veut pas dire que l'OpenAI ne met pas en œuvre l'IA de manière responsable, mais le fait que son dernier modèle ait été piraté quelques heures après sa sortie est un symptôme inquiétant. La question est donc la suivante : les restrictions en matière de sécurité sont-elles suffisamment fortes ? Et une autre : tous les risques peuvent-ils être éliminés ? Si ce n'est pas le cas, nous devrons peut-être nous préparer à une avalanche d'attaques de logiciels malveillants, d'hameçonnage et d'autres types de cyberincidents facilités par l'essor de l'IA générative.

On peut affirmer que les avantages de l'IA l'emportent sur les risques, mais la barrière à l'exploitation de l'IA n'a jamais été aussi basse, et c'est un risque que nous devons également accepter. Espérons que les bons l'emporteront et que l'intelligence artificielle sera utilisée pour mettre fin à certaines des attaques qu'elle peut potentiellement faciliter. C'est du moins ce que nous souhaitons.

2 mai 2023 Lecture 10 min Actualités de l'industrie

Anna Martynova

Articles recommandés

20 989 20989 avis

Excellent !

AdGuard pour Windows

AdGuard pour Windows est plus qu'un bloqueur de publicités. Il s'agit d'un outil polyvalent qui bloque les publicités, contrôle l'accès aux sites dangereux, accélère le chargement des pages et protège les enfants contre les contenus inappropriés.

AdGuard pour Windows v 7.21, période d'essai de 14 jours

20 989 20989 avis

Excellent !

AdGuard pour Mac

AdGuard pour Mac est un bloqueur de publicité unique conçu pour macOS. En plus de vous protéger contre les publicités gênantes dans les navigateurs et les applications, il vous protège contre le pistage, l'hameçonnage et la fraude.

AdGuard pour Mac v 2.17, période d'essai de 14 jours

20 989 20989 avis

Excellent !

AdGuard pour Android

AdGuard pour Android est la solution parfaite pour les appareils sur Android. Contrairement à la plupart des autres bloqueurs de publicité, AdGuard ne nécessite pas d'accès root et offre un large éventail d'options de gestion des applications.

AdGuard pour Android v 4.10, période d'essai de 7 jours

20 989 20989 avis

Excellent !

AdGuard pour iOS

Le meilleur bloqueur de publicités iOS pour iPhone et iPad. AdGuard élimine tous les types de publicités dans Safari, protège votre vie privée et accélère le chargement des pages. La technologie de blocage publicitaire d'AdGuard pour iOS garantit un filtrage de la plus haute qualité et vous permet d'utiliser plusieurs filtres en même temps

AdGuard pour iOS v4.5

20 989 20989 avis

Excellent !

Bloqueur de contenu AdGuard

Le Bloqueur de contenus AdGuard supprime tous les types de publicités dans les navigateurs mobiles compatibles avec la technologie de blocage de contenu, notamment Samsung Internet et Yandex. Ses fonctionnalités sont limitées par rapport à AdGuard pour Android, mais il est gratuit, facile à installer et efficace

Bloqueur de contenu AdGuard v2.8

20 989 20989 avis

Excellent !

Extension de navigateur AdGuard

AdGuard est l'extension bloqueuse de pub la plus souple et rapide qui bloque tous les types de pub sur toutes les pages Web! Selectionnez le module AdGuard pour votre type de navigateur préféré et surfez le web en toute sécurité et sans publicité.

Extension de navigateur AdGuard v5.1

20 989 20989 avis

Excellent !

Assistant AdGuard

Une extension de navigateur compagnon pour les applications pour ordinateur AdGuard. Elle offre un accès depuis le navigateur au blocage personnalisé d'éléments, à l'ajout de sites Web à la liste blanche et au signalement de bogue quelconque.

Assistant AdGuard v1.4

20 989 20989 avis

Excellent !

AdGuard Home

AdGuard Home est un logiciel anti-pub et anti-traçage qui fonctionne au niveau du système. Une fois installé, il fonctionnera sur TOUS vos appareils, et vous n'aurez pas besoin d'installer de logiciel-client. L'essor de l'Internet des objets et l'affluence d'appareils connectés rend nécessaire le contrôle de votre réseau dans son intégralité.

AdGuard Home v0.107

20 989 20989 avis

Excellent !

AdGuard Pro pour iOS

AdGuard Pro a beaucoup plus à offrir que l'excellent blocage des publicités sous Safari, déjà connu par les utilisateurs de la version gratuite. En vous permettant de changer les paramètres DNS, il arrive à bloquer les pubs intempestives, de protéger vos enfants des contenus pour adultes en ligne et vos données personnelles contre le vol.

AdGuard Pro pour iOS v4.5

20 989 20989 avis

Excellent !

AdGuard pour Safari

Au moment ou Apple a décidé de forcer tout le monde à utiliser son SDK, les extensions bloqueuses de pub pour Safari sont entrés dans une période difficile. L'extension AdGuard doit ramener le blocage des pubs dans Safari au top.

AdGuard pour Safari v1.11

20 989 20989 avis

Excellent !

AdGuard pour Android TV

AdGuard pour Android TV est la seule application qui bloque les publicités, protège votre vie privée et agit comme un pare-feu pour votre Smart TV. Recevez des avertissements sur les menaces web, utilisez des DNS sécurisés et bénéficiez d'un trafic chiffré. Détendez-vous et plongez dans vos émissions préférées avec une sécurité de premier ordre et zéro publicité !

AdGuard pour Android TV v4.10

20 989 20989 avis

Excellent !

AdGuard pour Linux

AdGuard pour Linux est le premier bloqueur d'annonces sous Linux à l'échelle du système. Bloquez les publicités et les traqueurs au niveau de l'appareil, choisissez parmi les filtres préinstallés ou ajoutez les vôtres — le tout via l'interface de ligne de commande

AdGuard pour Linux v1.0

20 989 20989 avis

Excellent !

AdGuard Temp Mail

Un générateur d'adresses e-mail temporaires gratuit qui vous permet de rester anonyme et de protéger votre vie privée. Pas de spam dans votre boîte de réception principale !

20 989 20989 avis

Excellent !

AdGuard VPN

66 localisations dans le monde entier

Accès à tous types de contenu

Chiffrement fort

Politique sans journalisation

Connexion ultra-rapide

Support 24/7

20 989 20989 avis

Excellent !

DNS AdGuard

AdGuard DNS est une solution infaillible qui bloque les publicités et n'a pas besoin d'installer d'autres applications. Facile à configurer et à utiliser, elle offre le minimum de protection nécessaire contre les publicités en ligne, les systémes de suivi et d'hameçonnage, et le contenu pour adultes.

20 989 20989 avis

Excellent !

AdGuard Mail

Protégez votre identité, évitez le spam et protégez votre boîte de réception grâce à nos alias et adresses e-mail temporaires. Profitez de notre service gratuit de transfert d'e-mails et de nos applications pour tous les systèmes d'exploitation

Utiliser la version web

Microsoft Store

App Store

Google Play

20 989 20989 avis

Excellent !

AdGuard Wallet

Un portefeuille crypto sécurisé et privé qui vous offre un contrôle total sur vos actifs. Gérez plusieurs portefeuilles et découvrez des milliers de cryptomonnaies à stocker, envoyer et échanger

ChatGPT est facile à en abuser, et c'est ça le problème

Q'est ce que c'est ‘DAN’?

De l'aide-mémoire du hacker aux logiciels malveillants... jusqu'aux armes biologiques ?

Quelle est la réponse d'OpenAI à cela ?

La course commence

Articles recommandés

TechTok #9. Comment fonctionnent les extensions de navigateur et qu'est ce que le pare-feu

AdGuard pour Windows v7.21 : Protection renforcée contre le suivi Windows

Google donne à Gemini l'accès par défaut aux messages WhatsApp. Pourquoi et comment se désinscrire

uBlock Origin est désactivé sur Chrome pour toujours

AdGuard pour Windows

AdGuard pour Mac

AdGuard pour Android

AdGuard pour iOS

Bloqueur de contenu AdGuard

Extension de navigateur AdGuard

Assistant AdGuard

AdGuard Home

AdGuard Pro pour iOS

AdGuard pour Safari

AdGuard pour Android TV

AdGuard pour Linux

AdGuard Temp Mail

AdGuard VPN

DNS AdGuard

AdGuard Mail

AdGuard Wallet

ChatGPT est facile à en abuser, et c'est ça le problème

Q'est ce que c'est ‘DAN’?

De l'aide-mémoire du hacker aux logiciels malveillants... jusqu'aux armes biologiques ?

Quelle est la réponse d'OpenAI à cela ?

La course commence

Terminé ! Quelque chose s'est mal passé Abonnez-vous aux actualités

Abonnez-vous aux actualités

Vous êtes abonné(e)

Articles recommandés

TechTok #9. Comment fonctionnent les extensions de navigateur et qu'est ce que le pare-feu

AdGuard pour Windows v7.21 : Protection renforcée contre le suivi Windows

Google donne à Gemini l'accès par défaut aux messages WhatsApp. Pourquoi et comment se désinscrire

uBlock Origin est désactivé sur Chrome pour toujours

AdGuard pour Windows

AdGuard pour Mac

AdGuard pour Android

AdGuard pour iOS

Bloqueur de contenu AdGuard

Extension de navigateur AdGuard

Assistant AdGuard

AdGuard Home

AdGuard Pro pour iOS

AdGuard pour Safari

AdGuard pour Android TV

AdGuard pour Linux

AdGuard Temp Mail

AdGuard VPN

DNS AdGuard

AdGuard Mail

AdGuard Wallet

1. Autorisez le téléchargement

Autorisations d'installation

Remarque pour les utilisateurs Samsung avec One UI 6 (Android 14) et versions ultérieures

2. Installez l'application

3. Lancez l'application