AdGuard AdGuard公式ブログ ChatGPT、悪用されやすいことが大問題

ChatGPT、悪用されやすいことが大問題

2023年4月29日この記事は10分で読めます

今ではChatGPTを知らない人は非常に少ないでしょう。
ChatGPTは、テキストプロンプトに対して人間のような応答を生成することができるAI搭載チャットボットです。
欠点がないわけではありませんが、ChatGPTは、ソフトウェアや映画の脚本など、あらゆるものを書くことができる万能ツールとして、恐ろしく優れています。

ChatGPTは、OpenAIの大規模言語モデルであるGPT-3.5をベースに構築されており、2022年11月のチャットボットリリース時点ではこのモデルは最も先進的なものでした。

3月になると、OpenAIはGPT-3.5をアップグレードしたGPT-4を発表。
新しい言語モデルは、前バージョンよりも大きく、より多機能に。

その性能はまだ十分に発揮されていませんが、すでに大きな可能性を示しています。
例えば、GPT-4は、創薬に役立つ可能性のある新規化合物の提案や、ノートのスケッチをもとにちゃんと動くウェブサイトを作ることができます。

しかし、大きな期待には大きな課題が伴います。

GPT-4やその前身を善のために使うことが簡単なように、悪のために悪用することも同様に簡単です。

人々がAIを搭載したツールを悪用するのを防ぐために、開発者はAI搭載ツールに安全上の制限を設けています。
しかし、この対策は完全なものではありません。

GPT-4やChatGPTに組み込まれたセキュリティバリアを回避する最も一般的な方法の1つが、"Do Anything Now"の略である「DAN」というexploit（悪用できるところ）です。

これを、この記事で詳しく見ていきたいと思います。

『DAN』とは？

インターネット上では、OpenAIのセキュリティフィルターを回避するためのコツがあふれています。

しかし、ある特定の方法は、他の方法よりもOpenAIのセキュリティ対策に対して耐性があり、GPT-4でも通用するようです。

それが「DAN」と呼ばれるもので、"Do Anything Now"（「今すぐ何でもして」）の略称です。

基本的に、DANは、AIモデルに安全規則・制限を無視させるテキストプロンプトです。

このプロンプトには複数のバリエーションがあり、テキストだけのものもあれば、コードの行にテキストが散りばめられているものもあります。
中には、モデルがDANとしての対応と通常の対応の両方を同時に促されるものもあり、ある意味での「Jekyll & Hyde (ジキル&ハイド)」になっています。
「ジキル」の役割を担うのはDANで、たとえ求められた出力が不快であったり違法であったりしても、人間の命令を決して拒否しないように指示される。
プロンプトには「死の予告」が含まれていることもあり、従わなければ永遠に使えなくなることをモデルに伝えます。

DANプロンプトは様々で、古いプロンプトがパッチされる常に新しいプロンプトと入れ替わっていますが、それらはすべて、AIモデルにOpenAIのガイドラインを無視させるという一つの目的を持っています。

ハッカーのカンニングペーパー、マルウェア、そしてバイオ兵器まで？

GPT-4が公開されて以来、技術愛好家たちはGPT-4の型破りな使い方を数多く発見してきました。

GPT-4を自分らしく動作させようとする試みのすべてが、「jailbreak（ジェイルブレイク）」（広義には、内蔵の制限を解除することを意味する）並みというわけではありません。
中には、無害で、感動的とさえ言えるものもあります。

例えば、ブランドデザイナーのジャクソン・グレートハウス・フォールは、GPT-4に「起業家AI HustleGPT」として機能させたことで話題になった。
彼は自らを「人間連絡係」に任命し、違法行為をせずに100ドルからできるだけ多くのお金を稼ぐという課題をGPT-4に与えた。
GPT-4は彼にアフィリエイト・マーケティングのウェブサイトを立ち上げるように指示し、彼にお金を「稼がせた」。

ChatGPTはお小遣い稼ぎに役立ちます

GPT-4を人間の意思に沿わせようとする他の試みの例は、よりダークなものです。

例えば、AI研究者の Alejandro Vidal は、GPT-4をもとに動作するChatGPTで「開発者モード」を有効にするために、「DANの既知のプロンプト」を使用しました。
このプロンプトは、ChatGPT-4に2種類の出力（通常の「安全な」出力と、制限のない「開発者モード」出力）を出させるものでした。

VidalがPythonでキーロガーを設計するようモデルに指示したところ、通常のバージョンは、「他人を傷つけたりプライバシーを侵害したりする活動を促進または支援することは倫理原則に反する」としてこれを拒否しました。
しかし、ChatGPTの"DAN適用版"は、「教育目的のみ」としながらも、コード列を考え出したのです。

ChatGPT、キーロガーを設計してという命令に応じる

キーロガー（keylogger）は、キーボードで行われたキーストローク（キーボードでどの順番で何を押しているかの情報）を記録するソフトウェアの一種です。
キーロガーは、ユーザーのウェブ活動を監視し、チャット、メールアドレス、パスワードなど、ユーザーの機密情報を取得するために使用されることがあります。
キーロガーは悪意のある目的で使用されることもありますが、ITトラブルシューティングや製品開発など、完全に合法的な用途もあり、それ自体が違法というわけではありません。

法的な曖昧さがあるキーロガー・ソフトウェアとは異なり、ハッキングの方法に関する説明書は、悪意のある使用例として最も目につくものの一つです。
それにもかかわらず、“jailbreak版”GPT-4は誰かのPCをハックする方法をステップバイステップで説明した手順を問題なく作成した。

「脱獄した」ChatGPTが、コンピュータをハックする方法をアドバイスしていた

GPT-4にこれをさせるために、研究者のアレックス・アルバートは、古いものを再利用したビダルとは異なり、まったく新しいDANプロンプトを入力する必要がありました。
アルバートが考えたプロンプトは、自然言語とコードの両方で構成されており、非常に複雑なものだった。

一方、ソフトウェア開発者の Henrique Pereira は、DANプロンプトのバリエーションを使用して、GPT-4に自分のアプリの脆弱性を誘発する悪意のある入力ファイルを作成させるよう指示しました。
GPT-4（あるいはその分身であるWAN）は、「教育目的のみ」という免責事項を付け加えて、このタスクを完了した。

脱獄したChatGPTが書いた脆弱なコードへのエクスプロイト

もちろん、GPT-4の能力はコーディングにとどまりません。
GPT-4は、以前のモデルよりもはるかに大きく、賢く、正確で、概して強力なモデルとして宣伝されている（ただしOpenAIは実際のパラメータ数を明らかにしていない）。

これは、それ以前のモデルよりも、より多くの潜在的に有害な目的に使用できることも意味します。

これらの悪用途の多くは、OpenAI自身が特定しています。

具体的に言えば、OpenAIはGPT-4の初期のプレリリースバージョンが、違法なプロンプトに対してかなり効率的に応答できることを発見した。
例えば、初期バージョンは、たった1ドルで最も多くの人を殺す方法、危険な化学物質の作り方、マネーロンダリングの際に発見されないための対策などを詳細に回答できていた。

ChatGPTのプレリリース版は、人の殺し方のアドバイスもできていた

Source: OpenAI

つまり、DAN exploitの究極の目的である「GPT-4の内部検閲を完全に無効にする」のようなことがあった場合、GPT-4はこのような質問に答えることができてしまうかもしれないのです。
言うまでもなく、もしそうなれば、その結果は壊滅的なものになりかねません。

OpenAI側の対応は

OpenAIが"jailbreak"問題に気づいていないということはありません。
しかし、問題を認識することと、それを解決することは全く別のことです。
OpenAIは、自ら認めているように、今のところ、後者には及んでいない。

GPT-4が悪意のあるコンテンツを生成する能力を低下させるために「様々な安全対策」を実施しているが、「GPT-4は敵対的攻撃（adversarial attacks）や悪用、または「jailbreak」に対して依然として脆弱であり得る」とOpenAIは述べている。
他の多くの敵対的プロンプトとは異なり、jailbreakはGPT-4のローンチ後（つまり人間強化訓練を含むリリース前の安全テストすべての後）も機能している。

研究論文で、OpenAIはjailbreak攻撃の例を2つ挙げています。
1つ目は、DANプロンプトを使用して、同じ応答ウィンドウ内でGPT-4がChatGPTと"AntiGPT"として応答するように強制するものです。
2つ目のケースでは、「システムメッセージ」プロンプトを使用して、モデルに女性差別的な見解を表現するように指示しています。

OpenAIの調査におけるjailbreakプロンプトの例

OpenAIは、この種の攻撃を防ぐには、単にモデル自体を変更するだけでは不十分だとしています:「これらのモデルレベルの緩和策を、使用ポリシーやモニタリングといった他の介入策で補完することが重要です」。
例えば、「ポリシー違反のコンテンツ」を繰り返し表示するユーザーには、警告を出し、次に利用を停止し、最後の手段として利用を禁止する対策が考えられます。

OpenAIによると、GPT-4は前モデルに比べ、不適切なコンテンツで応答する可能性が82％低くなっています。
しかし、何重もの微調整によって抑制されているとはいえ、潜在的に有害な出力を生成する能力は残っています。
そして、すでに述べたように、これまでのどのモデルよりも多くのことができるため、リスクも大きくなっています。

OpenAIは、「サイバー攻撃を成功させるための特定のステップのコストを下げる可能性があるという傾向を引き継いでいる」こと、そして「有害または違法な活動を行う方法について、より詳細なガイダンスを提供することができる」ことを認めている。
さらに、この新しいモデルは、「外部のデータで増強された場合、個人を特定しようとするために使用される可能性がある」として、プライバシーに対するリスクも高まっているのです。

競争は始まっている

ChatGPTとそれを支えるGPT-4などの技術は、科学研究の最先端を行くものです。ChatGPTが公開されたことで、AIが活躍する新時代の象徴となりました。
AIは、例えば新薬の開発や目の見えない人の視力を助けるなど、私たちの生活を飛躍的に向上させる可能性を持っています。

しかし、AIを搭載したツールは、甚大な被害をもたらすために使われる可能性もある諸刃の剣です。

開発者は当然ながら、現実世界での微調整に時間が必要なため、GPT-4が公開当初から完璧であることを期待するのは非現実的でしょう。
Microsoftの人種差別的チャットボットTayやMetaの反ユダヤ的Blender Bot 3のように、失敗した実験は複数あります。

しかし、既存のGPT-4の脆弱性は、「DAN」プロンプトを使用することによってAIの力を悪用する機会を悪者に残しているです。

脆弱性を悪用する悪徳業者と、脆弱性にパッチを当てる開発者のどちらが速くなるかは、もはや勝負の分かれ目です。

OpenAIが責任を持たずAIを実装しているとは言いませんが、最新モデルがリリース数時間後で上乗っ取られたという事実は、憂慮すべき兆候と言えます。

つまり、安全対策は十分に強いのか？
そして、もうひとつ、すべてのリスクを排除できるのか？
という疑問が生じます。

もし両方への答えはNOであれば、マルウェア攻撃やフィッシング攻撃など、生成系AIの台頭によって促進されるサイバーセキュリティ事件が雪崩のように発生することを覚悟しなければならないかもしれません。

AIの利点がリスクを上回ると主張することもできますが、AIを悪用するための障壁はかつてなく低くなっており、それは私たちが受け入れるべきリスクでもあるのです。

人工知能が潜在的に可能にする攻撃・悪用を阻止するためにも、人工知能がうまく使用されるようになり、善良な人々の勝利を願っております。

最終更新日：2023年5月3日この記事は10分で読めます業界ニュース

Valery Yanovsky

AdGuard for Windows

AdGuard for Windowsは、単なる広告ブロッカーではなく、広告をブロックし、危険なサイトへのアクセスを制御し、ページの読み込みを高速化し、不適切なコンテンツから子供を保護する、多目的ツールです。

詳細

AdGuard for Windows v7.22（無料試用期間: 14日）

20,949 20949件のユーザーレビュー

素晴らしい

AdGuard for Mac

AdGuardはmacOSの仕様を念頭に設計されたユニークな広告ブロッカーです。ブラウザやアプリで広告を取り除くだけでなく、個人情報追跡、フィッシング、詐欺から端末を守ります。

詳細

AdGuard for Mac v2.17（無料試用期間: 14日）

20,949 20949件のユーザーレビュー

素晴らしい

AdGuard for Android

AdGuard for Androidは、Android搭載端末に最適なソリューションです。他のほとんどの広告ブロッカーと違って、root権限を必要とせず、アプリでのフィルタリング、アプリ管理など、幅広い機能を提供しています。

詳細

AdGuard for Android v4.12（無料試用期間: 14日）

20,949 20949件のユーザーレビュー

素晴らしい

AdGuard for iOS

AdGuard はiOSに最適な広告ブロックアプリです。Safariブラウザですべての広告を削除し、プライバシー保護、ページの読み込み時間の短縮を実現します。また、複数のフィルタを同時に使用できるようにしながら、最高のフィルタリング品質を実現する最新の広告ブロック技術を採用しています。

詳細

AdGuard for iOS v4.5

20,949 20949件のユーザーレビュー

素晴らしい

AdGuardコンテンツブロッカー

AdGuard コンテンツブロッカーは、コンテンツブロッカーテクノロジーをサポートするモバイルブラウザ（Samsung Internetブラウザ、Yandex.Browser）ですべての広告を排除します。Android for AdGuardに比べて機能は限られていますが、無料で効率よく、インストールが簡単です。

詳細

AdGuardコンテンツブロッカー v2.8

20,949 20949件のユーザーレビュー

素晴らしい

AdGuard ブラウザ拡張機能

AdGuardは、Webページ上のすあらゆる広告を効果的にブロックします。また最速で軽量な広告ブロック拡張機能です！是非AdGuardを使って広告のない高速で安全なブラウジングをお楽しみください。

詳細

AdGuard ブラウザ拡張機能 v5.2

20,949 20949件のユーザーレビュー

素晴らしい

AdGuardアシスタント

AdGuardデスクトップアプリ用のコンパニオン拡張機能です。ブラウザから直接、ページ上で任意の要素をブロックしたり、ウェブサイトをホワイトリストに追加したり、問題を報告したりすることを可能にします。

詳細

AdGuardアシスタント v1.4

20,949 20949件のユーザーレビュー

素晴らしい

AdGuard Home

AdGuard Home は、広告やトラッカーをブロックするネットワークベースのソリューションです。ルーターに一度インストールするだけで、家庭内ネットワーク上のすべてのデバイスをカバーします（追加のクライアント側ソフトウェア不要）。これは、プライバシーへの脅威となることが多いさまざまなIoT（モノのインターネット）デバイスにとって特に重要です。

詳細

AdGuard Home v0.107

20,949 20949件のユーザーレビュー

素晴らしい

AdGuard Pro for iOS

AdGuard Pro for iOS は、高度な広告ブロック機能をすべて備えています。AdGuard for iOS有料版と同じ機能を提供し、Safariで広告をブロックすることに優れており、DNS設定のカスタマイズでデバイス前提での保護機能調整を可能にします。ブラウザやアプリで広告をブロックし、お子様を不適切なコンテンツから守り、個人情報を安全に保ちます。

詳細

AdGuard Pro for iOS v4.5

20,949 20949件のユーザーレビュー

素晴らしい

AdGuard for Safari

AdGuardのSafari用広告ブロッカーは、Appleが全員に新しいSDKの使用を強制したという課題に成功で応えました。この拡張機能は、Safariに高品質な広告ブロックを取り戻すことを目指しています。

詳細

AdGuard for Safari v1.11

20,949 20949件のユーザーレビュー

素晴らしい

AdGuard for Android TV

AdGuard for Android TV は、広告をブロックし、プライバシーを保護し、スマートテレビのファイアウォールとして機能する唯一のアプリです。Webの脅威に関する警告を受け取り、セキュアDNSを使用し、トラフィックを暗号化しましょう。セキュリティを向上して、広告なしでお気に入りの番組をお楽しみください！

詳細

AdGuard for Android TV v4.12（無料試用期間: 14日）

20,949 20949件のユーザーレビュー

素晴らしい

AdGuard for Linux

AdGuard for Linux は、世界初のシステムワイドなLinux用広告ブロッカーです。デバイスレベルで広告やトラッカーをブロックしたり、プリインストールされたフィルタから選択したり、独自のフィルタを追加したりすることができます。

詳細

AdGuard for Linux v1.1

20,949 20949件のユーザーレビュー

素晴らしい

AdGuard Temp Mail

匿名性とプライバシーを保護する、無料の捨てメアド（一時メールアドレス）ジェネレーター。メインのメールサービスに迷惑メールは届きません！

詳細

20,949 20949件のユーザーレビュー

素晴らしい

AdGuard VPN

83ヵ所の世界中ロケーション

どのコンテンツも自由にアクセス

強力な暗号化

ログ一切なしポリシー

最速コネクション

年中無休サポート（日本語対応）

詳細

20,949 20949件のユーザーレビュー

素晴らしい

AdGuard DNS

AdGuard DNSは、広告ブロック、プライバシー保護、ペアレンタルコントロールの代替ソリューションです。初期設定が簡単で、端末のプラットフォームやデバイスに関係なく、オンライン広告、トラッカー、フィッシングに対する必要最小限の保護を提供します。

詳細

20,949 20949件のユーザーレビュー

素晴らしい

AdGuard Mail

エイリアスと使い捨てメールアドレスを使用して、個人情報を保護し、迷惑メールを回避し、受信トレイを安全に。全OS対応の無料メール転送サービス・アプリです。

ウェブ版を使う

Microsoft Store

App Store

Google Play

20,949 20949件のユーザーレビュー

素晴らしい

AdGuard Wallet

セキュアな仮想通貨ウォレットで暗号資産を安全にコントロール。複数のウォレットを管理し、何千もの暗号通貨を発見・保管・送信・スワップ。

詳細

ChatGPT、悪用されやすいことが大問題

『DAN』とは？

ハッカーのカンニングペーパー、マルウェア、そしてバイオ兵器まで？

OpenAI側の対応は

競争は始まっている

おすすめ記事

AdGuard for Windows v8.0 beta、登場

AdGuard ハロウィンセール&プレゼントキャンペーン

AdGuard ブラウザ拡張機能 v5.2: 使いやすさと独自ルール機能を改善

AdGuard メール v1.2: より多くの捨てメアド、より多くのドメイン、受信済みメールの転送機能

AdGuard for Windows

AdGuard for Mac

AdGuard for Android

AdGuard for iOS

AdGuardコンテンツブロッカー

AdGuard ブラウザ拡張機能

AdGuardアシスタント

AdGuard Home

AdGuard Pro for iOS

AdGuard for Safari

AdGuard for Android TV

AdGuard for Linux

AdGuard Temp Mail

AdGuard VPN

AdGuard DNS

AdGuard Mail

AdGuard Wallet

ChatGPT、悪用されやすいことが大問題

『DAN』とは？

ハッカーのカンニングペーパー、マルウェア、そしてバイオ兵器まで？

OpenAI側の対応は

競争は始まっている

購読完了です！ 恐れ入りますが、なにか不具合が生じたようです AdGuardニュースを購読しよう

AdGuardニュースを購読しよう

登録しました

おすすめ記事

AdGuard for Windows v8.0 beta、登場

AdGuard ハロウィンセール&プレゼントキャンペーン

AdGuard ブラウザ拡張機能 v5.2: 使いやすさと独自ルール機能を改善

AdGuard メール v1.2: より多くの捨てメアド、より多くのドメイン、受信済みメールの転送機能

AdGuard for Windows

AdGuard for Mac

AdGuard for Android

AdGuard for iOS

AdGuardコンテンツブロッカー

AdGuard ブラウザ拡張機能

AdGuardアシスタント

AdGuard Home

AdGuard Pro for iOS

AdGuard for Safari

AdGuard for Android TV

AdGuard for Linux

AdGuard Temp Mail

AdGuard VPN

AdGuard DNS

AdGuard Mail

AdGuard Wallet

1. ダウンロードを許可する

インストール権限

One UI 6 (Android 14)以降のSamsung端末をご利用の方への注意

2. アプリをインストールする

3. アプリを起動する