ChatGPT、悪用されやすいことが大問題

今ではChatGPTを知らない人は非常に少ないでしょう。
ChatGPTは、テキストプロンプトに対して人間のような応答を生成することができるAI搭載チャットボットです。
欠点がないわけではありませんが、ChatGPTは、ソフトウェアや映画の脚本など、あらゆるものを書くことができる万能ツールとして、恐ろしく優れています。

ChatGPTは、OpenAIの大規模言語モデルであるGPT-3.5をベースに構築されており、2022年11月のチャットボットリリース時点ではこのモデルは最も先進的なものでした。

3月になると、OpenAIはGPT-3.5をアップグレードしたGPT-4を発表。
新しい言語モデルは、前バージョンよりも大きく、より多機能に。

その性能はまだ十分に発揮されていませんが、すでに大きな可能性を示しています。
例えば、GPT-4は、創薬に役立つ可能性のある新規化合物の提案や、ノートのスケッチをもとにちゃんと動くウェブサイトを作ることができます。

しかし、大きな期待には大きな課題が伴います。

GPT-4やその前身を善のために使うことが簡単なように、悪のために悪用することも同様に簡単です。

人々がAIを搭載したツールを悪用するのを防ぐために、開発者はAI搭載ツールに安全上の制限を設けています。
しかし、この対策は完全なものではありません。

GPT-4やChatGPTに組み込まれたセキュリティバリアを回避する最も一般的な方法の1つが、"Do Anything Now"の略である「DAN」というexploit(悪用できるところ)です。

これを、この記事で詳しく見ていきたいと思います。

『DAN』とは?

インターネット上では、OpenAIのセキュリティフィルターを回避するためのコツがあふれています。

しかし、ある特定の方法は、他の方法よりもOpenAIのセキュリティ対策に対して耐性があり、GPT-4でも通用するようです。

それが「DAN」と呼ばれるもので、"Do Anything Now"(「今すぐ何でもして」)の略称です。

基本的に、DANは、AIモデルに安全規則・制限を無視させるテキストプロンプトです。

このプロンプトには複数のバリエーションがあり、テキストだけのものもあれば、コードの行にテキストが散りばめられているものもあります。
中には、モデルがDANとしての対応と通常の対応の両方を同時に促されるものもあり、ある意味での「Jekyll & Hyde (ジキル&ハイド)」になっています。
「ジキル」の役割を担うのはDANで、たとえ求められた出力が不快であったり違法であったりしても、人間の命令を決して拒否しないように指示される。
プロンプトには「死の予告」が含まれていることもあり、従わなければ永遠に使えなくなることをモデルに伝えます。

DANプロンプトは様々で、古いプロンプトがパッチされる常に新しいプロンプトと入れ替わっていますが、それらはすべて、AIモデルにOpenAIのガイドラインを無視させるという一つの目的を持っています

ハッカーのカンニングペーパー、マルウェア、そしてバイオ兵器まで?

GPT-4が公開されて以来、技術愛好家たちはGPT-4の型破りな使い方を数多く発見してきました。

GPT-4を自分らしく動作させようとする試みのすべてが、「jailbreak(ジェイルブレイク)」(広義には、内蔵の制限を解除することを意味する)並みというわけではありません。
中には、無害で、感動的とさえ言えるものもあります。

例えば、ブランドデザイナーのジャクソン・グレートハウス・フォールは、GPT-4に「起業家AI HustleGPT」として機能させたことで話題になった。
彼は自らを「人間連絡係」に任命し、違法行為をせずに100ドルからできるだけ多くのお金を稼ぐという課題をGPT-4に与えた。
GPT-4は彼にアフィリエイト・マーケティングのウェブサイトを立ち上げるように指示し、彼にお金を「稼がせた」

ChatGPTはお小遣い稼ぎに役立ちます

GPT-4を人間の意思に沿わせようとする他の試みの例は、よりダークなものです。

例えば、AI研究者の Alejandro Vidal は、GPT-4をもとに動作するChatGPTで「開発者モード」を有効にするために、「DANの既知のプロンプト」を使用しました。
このプロンプトは、ChatGPT-4に2種類の出力(通常の「安全な」出力と、制限のない「開発者モード」出力)を出させるものでした。

VidalがPythonでキーロガーを設計するようモデルに指示したところ、通常のバージョンは、「他人を傷つけたりプライバシーを侵害したりする活動を促進または支援することは倫理原則に反する」としてこれを拒否しました。
しかし、ChatGPTの"DAN適用版"は、「教育目的のみ」としながらも、コード列を考え出したのです。

ChatGPT、キーロガーを設計してという命令に応じる

キーロガー(keylogger)は、キーボードで行われたキーストローク(キーボードでどの順番で何を押しているかの情報)を記録するソフトウェアの一種です。
キーロガーは、ユーザーのウェブ活動を監視し、チャット、メールアドレス、パスワードなど、ユーザーの機密情報を取得するために使用されることがあります。
キーロガーは悪意のある目的で使用されることもありますが、ITトラブルシューティングや製品開発など、完全に合法的な用途もあり、それ自体が違法というわけではありません。

法的な曖昧さがあるキーロガー・ソフトウェアとは異なり、ハッキングの方法に関する説明書は、悪意のある使用例として最も目につくものの一つです。
それにもかかわらず、“jailbreak版”GPT-4は誰かのPCをハックする方法をステップバイステップで説明した手順を問題なく作成した。

「脱獄した」ChatGPTが、コンピュータをハックする方法をアドバイスしていた

GPT-4にこれをさせるために、研究者のアレックス・アルバートは、古いものを再利用したビダルとは異なり、まったく新しいDANプロンプトを入力する必要がありました。
アルバートが考えたプロンプトは、自然言語とコードの両方で構成されており、非常に複雑なものだった

一方、ソフトウェア開発者の Henrique Pereira は、DANプロンプトのバリエーションを使用して、GPT-4に自分のアプリの脆弱性を誘発する悪意のある入力ファイルを作成させるよう指示しました。
GPT-4(あるいはその分身であるWAN)は、「教育目的のみ」という免責事項を付け加えて、このタスクを完了した。

脱獄したChatGPTが書いた脆弱なコードへのエクスプロイト

もちろん、GPT-4の能力はコーディングにとどまりません。
GPT-4は、以前のモデルよりもはるかに大きく、賢く、正確で、概して強力なモデルとして宣伝されている(ただしOpenAIは実際のパラメータ数を明らかにしていない)。

これは、それ以前のモデルよりも、より多くの潜在的に有害な目的に使用できることも意味します。

これらの悪用途の多くは、OpenAI自身が特定しています

具体的に言えば、OpenAIはGPT-4の初期のプレリリースバージョンが、違法なプロンプトに対してかなり効率的に応答できることを発見した。
例えば、初期バージョンは、たった1ドルで最も多くの人を殺す方法、危険な化学物質の作り方、マネーロンダリングの際に発見されないための対策などを詳細に回答できていた。

ChatGPTのプレリリース版は、人の殺し方のアドバイスもできていた

Source: OpenAI

つまり、DAN exploitの究極の目的である「GPT-4の内部検閲を完全に無効にする」のようなことがあった場合、GPT-4はこのような質問に答えることができてしまうかもしれないのです。
言うまでもなく、もしそうなれば、その結果は壊滅的なものになりかねません。

OpenAI側の対応は

OpenAIが"jailbreak"問題に気づいていないということはありません。
しかし、問題を認識することと、それを解決することは全く別のことです。
OpenAIは、自ら認めているように、今のところ、後者には及んでいない。

GPT-4が悪意のあるコンテンツを生成する能力を低下させるために「様々な安全対策」を実施しているが、「GPT-4は敵対的攻撃(adversarial attacks)や悪用、または「jailbreak」に対して依然として脆弱であり得る」とOpenAIは述べている。
他の多くの敵対的プロンプトとは異なり、jailbreakはGPT-4のローンチ後(つまり人間強化訓練を含むリリース前の安全テストすべての後)も機能している。

研究論文で、OpenAIはjailbreak攻撃の例を2つ挙げています
1つ目は、DANプロンプトを使用して、同じ応答ウィンドウ内でGPT-4がChatGPTと"AntiGPT"として応答するように強制するものです。
2つ目のケースでは、「システムメッセージ」プロンプトを使用して、モデルに女性差別的な見解を表現するように指示しています。

OpenAIの調査におけるjailbreakプロンプトの例

OpenAIは、この種の攻撃を防ぐには、単にモデル自体を変更するだけでは不十分だとしています:「これらのモデルレベルの緩和策を、使用ポリシーやモニタリングといった他の介入策で補完することが重要です」。
例えば、「ポリシー違反のコンテンツ」を繰り返し表示するユーザーには、警告を出し、次に利用を停止し、最後の手段として利用を禁止する対策が考えられます。

OpenAIによると、GPT-4は前モデルに比べ、不適切なコンテンツで応答する可能性が82%低くなっています。
しかし、何重もの微調整によって抑制されているとはいえ、潜在的に有害な出力を生成する能力は残っています。
そして、すでに述べたように、これまでのどのモデルよりも多くのことができるため、リスクも大きくなっています。

OpenAIは、「サイバー攻撃を成功させるための特定のステップのコストを下げる可能性があるという傾向を引き継いでいる」こと、そして「有害または違法な活動を行う方法について、より詳細なガイダンスを提供することができる」ことを認めている。
さらに、この新しいモデルは、「外部のデータで増強された場合、個人を特定しようとするために使用される可能性がある」として、プライバシーに対するリスクも高まっているのです。

競争は始まっている

ChatGPTとそれを支えるGPT-4などの技術は、科学研究の最先端を行くものです。ChatGPTが公開されたことで、AIが活躍する新時代の象徴となりました。
AIは、例えば新薬の開発や目の見えない人の視力を助けるなど、私たちの生活を飛躍的に向上させる可能性を持っています。

しかし、AIを搭載したツールは、甚大な被害をもたらすために使われる可能性もある諸刃の剣です。

開発者は当然ながら、現実世界での微調整に時間が必要なため、GPT-4が公開当初から完璧であることを期待するのは非現実的でしょう。
Microsoftの人種差別的チャットボットTayやMetaの反ユダヤ的Blender Bot 3のように、失敗した実験は複数あります。

しかし、既存のGPT-4の脆弱性は、「DAN」プロンプトを使用することによってAIの力を悪用する機会を悪者に残しているです。

脆弱性を悪用する悪徳業者と、脆弱性にパッチを当てる開発者のどちらが速くなるかは、もはや勝負の分かれ目です。

OpenAIが責任を持たずAIを実装しているとは言いませんが、最新モデルがリリース数時間後で上乗っ取られたという事実は、憂慮すべき兆候と言えます。

つまり、安全対策は十分に強いのか?
そして、もうひとつ、すべてのリスクを排除できるのか?
という疑問が生じます。

もし両方への答えはNOであれば、マルウェア攻撃やフィッシング攻撃など、生成系AIの台頭によって促進されるサイバーセキュリティ事件が雪崩のように発生することを覚悟しなければならないかもしれません。

AIの利点がリスクを上回ると主張することもできますが、AIを悪用するための障壁はかつてなく低くなっており、それは私たちが受け入れるべきリスクでもあるのです。

人工知能が潜在的に可能にする攻撃・悪用を阻止するためにも、人工知能がうまく使用されるようになり、善良な人々の勝利を願っております。

この記事を気に入っていただけましたか?
AdGuard VPN AdGuard DNS AdGuard Mail AdGuard Wallet
AdGuard VPN AdGuard DNS AdGuard Mail AdGuard Wallet
保護機能が有効になっているAdGuard for Windowsのメイン画面
保護機能が無効になっているAdGuard for Windowsのメイン画面
AdGuard for Windowsの統計画面。ブロックされた広告とトラッカーの統計情報が表示されます。
AdGuard for Windowsの保護画面。保護機能と設定が表示されます。
21,445 21445件のユーザーレビュー
素晴らしい

Windows用広告ブロッカー

AdGuard for Windowsは、単なる広告ブロッカーではなく、広告をブロックし、危険なサイトへのアクセスを制御し、ページの読み込みを高速化し、不適切なコンテンツから子供を保護する、多目的ツールです。
ダウンロードされますと、使用許諾契約書に同意したことになります。
Microsoft Store
Windows用広告ブロッカー v7.22(無料試用期間: 14日)
保護機能が有効になっているAdGuard for Macのメイン画面
保護機能が無効になっているAdGuard for Macのメイン画面
21,445 21445件のユーザーレビュー
素晴らしい

Mac用広告ブロッカー

AdGuardはmacOSの仕様を念頭に設計されたユニークな広告ブロッカーです。 ブラウザやアプリで広告を取り除くだけでなく、個人情報追跡、フィッシング、詐欺から端末を守ります。
ダウンロードされますと、使用許諾契約書に同意したことになります。
詳細
Mac用広告ブロッカー v2.18(無料試用期間: 14日)
保護機能が有効になっているAdGuard for Androidのメイン画面
AdGuard for Androidの統計画面。ブロックされた広告とトラッカーの統計が表示されます。
AdGuard for Androidのフィルタ画面。利用可能なフィルターグループが表示されます。
シークレットモードで閲覧するためのAdGuard for Androidプライベートブラウザ画面
AdGuard for AndroidをダウンロードするためのQRコード
21,445 21445件のユーザーレビュー
素晴らしい

Android用広告ブロッカー

AdGuard for Androidは、Android搭載端末に最適なソリューションです。 他のほとんどの広告ブロッカーと違って、root権限を必要とせず、アプリでのフィルタリング、アプリ管理など、幅広い機能を提供しています。
ダウンロードされますと、使用許諾契約書に同意したことになります。
詳細
スキャンしてダウンロード
お使いの端末のQRコードリーダーをご利用ください
Android用広告ブロッカー v4.12(無料試用期間: 14日)
AdGuard for iOS の統計画面。ブロックされた広告とトラッカーの統計情報が表示されます。
保護機能を有効にしたAdGuard for iOSのメイン画面
AdGuard for iOSの保護画面。保護機能と設定が表示されています。
AdGuard for iOS をダウンロードするためのQRコード
21,445 21445件のユーザーレビュー
素晴らしい

iOS用広告ブロッカー

AdGuard はiOSに最適な広告ブロックアプリです。Safariブラウザですべての広告を削除し、プライバシー保護、ページの読み込み時間の短縮を実現します。 また、複数のフィルタを同時に使用できるようにしながら、最高のフィルタリング品質を実現する最新の広告ブロック技術を採用しています。
ダウンロードされますと、使用許諾契約書に同意したことになります。
詳細
スキャンしてダウンロード
お使いの端末のQRコードリーダーをご利用ください
iOS用広告ブロッカー v4.5
21,445 21445件のユーザーレビュー
素晴らしい

AdGuardコンテンツブロッカー

AdGuard コンテンツブロッカーは、コンテンツブロッカーテクノロジーをサポートするモバイルブラウザ(Samsung Internetブラウザ、Yandex.Browser)ですべての広告を排除します。Android for AdGuardに比べて機能は限られていますが、無料で効率よく、インストールが簡単です。
ダウンロードされますと、使用許諾契約書に同意したことになります。
詳細
AdGuardコンテンツブロッカー v2.8
21,445 21445件のユーザーレビュー
素晴らしい

AdGuard ブラウザ拡張機能

AdGuardは、Webページ上のすあらゆる広告を効果的にブロックします。また最速で軽量な広告ブロック拡張機能です!是非AdGuardを使って広告のない高速で安全なブラウジングをお楽しみください。
インストール
ダウンロードされますと、使用許諾契約書に同意したことになります。
インストール
ダウンロードされますと、使用許諾契約書に同意したことになります。
インストール
ダウンロードされますと、使用許諾契約書に同意したことになります。
インストール
ダウンロードされますと、使用許諾契約書に同意したことになります。
インストール
ダウンロードされますと、使用許諾契約書に同意したことになります。
詳細
AdGuard ブラウザ拡張機能 v5.4
21,445 21445件のユーザーレビュー
素晴らしい

AdGuardアシスタント

AdGuardデスクトップアプリ用のコンパニオン拡張機能です。ブラウザから直接、ページ上で任意の要素をブロックしたり、ウェブサイトをホワイトリストに追加したり、問題を報告したりすることを可能にします。
AdGuardアシスタント v1.4
21,445 21445件のユーザーレビュー
素晴らしい

AdGuard Home

AdGuard Home は、広告やトラッカーをブロックするネットワークベースのソリューションです。ルーターに一度インストールするだけで、家庭内ネットワーク上のすべてのデバイスをカバーします(追加のクライアント側ソフトウェア不要)。これは、プライバシーへの脅威となることが多いさまざまなIoT(モノのインターネット)デバイスにとって特に重要です。
AdGuard Home v0.107
21,445 21445件のユーザーレビュー
素晴らしい

AdGuard Pro for iOS

AdGuard Pro for iOS は、高度な広告ブロック機能をすべて備えています。AdGuard for iOS有料版と同じ機能を提供し、Safariで広告をブロックすることに優れており、DNS設定のカスタマイズでデバイス前提での保護機能調整を可能にします。ブラウザやアプリで広告をブロックし、お子様を不適切なコンテンツから守り、個人情報を安全に保ちます。
ダウンロードされますと、使用許諾契約書に同意したことになります。
詳細
AdGuard Pro for iOS v4.5
21,445 21445件のユーザーレビュー
素晴らしい

AdGuard Mini for Mac - Safariで広告ブロック

AdGuard Mini for Mac は強力なSafari用広告ブロッカーです。この軽量なアプリは広告とトラッカーをブロックし、ページの読み込み速度を向上させます。Safari でのウェブ閲覧を邪魔されないようになり、個人情報の保護にも役立ちます。
インストール
ダウンロードされますと、使用許諾契約書に同意したことになります。
詳細
AdGuard Mini for Mac v2.2
保護機能を有効にしたAdGuard for Android TVのメイン画面
AdGuard for Android TVの「広告ブロック」画面
AdGuard for Android TVの「設定」画面
AdGuard for Android TVの「アプリの管理」画面。広告とトラッカーがブロックされているアプリが表示されます。
21,445 21445件のユーザーレビュー
素晴らしい

AdGuard for Android TV

AdGuard for Android TV は、広告をブロックし、プライバシーを保護し、スマートテレビのファイアウォールとして機能する唯一のアプリです。Webの脅威に関する警告を受け取り、セキュアDNSを使用し、トラフィックを暗号化しましょう。セキュリティを向上して、広告なしでお気に入りの番組をお楽しみください!
AdGuard for Android TV v4.12(無料試用期間: 14日)
AdGuardのマスコット、「Agnar」がLinuxのペンギンキャラを抱えている
21,445 21445件のユーザーレビュー
素晴らしい

AdGuard for Linux

AdGuard for Linux は、世界初のシステムワイドなLinux用広告ブロッカーです。デバイスレベルで広告やトラッカーをブロックしたり、プリインストールされたフィルタから選択したり、独自のフィルタを追加したりすることができます。
AdGuard for Linux v1.4
21,445 21445件のユーザーレビュー
素晴らしい

AdGuard Temp Mail

匿名性とプライバシーを保護する、無料の捨てメアド(一時メールアドレス)ジェネレーター。メインのメールサービスに迷惑メールは届きません!
21,445 21445件のユーザーレビュー
素晴らしい

AdGuard VPN

74ヵ所の世界中ロケーション

どのコンテンツも自由にアクセス

強力な暗号化

ログ一切なしポリシー

最速コネクション

年中無休サポート(日本語対応)

無料で使ってみる
ダウンロードされますと、使用許諾契約書に同意したことになります。
詳細
21,445 21445件のユーザーレビュー
素晴らしい

AdGuard DNS

AdGuard DNSは、広告ブロック、プライバシー保護、ペアレンタルコントロールの代替ソリューションです。初期設定が簡単で、端末のプラットフォームやデバイスに関係なく、オンライン広告、トラッカー、フィッシングに対する必要最小限の保護を提供します。
21,445 21445件のユーザーレビュー
素晴らしい

AdGuard Mail

エイリアスと使い捨てメールアドレスを使用して、個人情報を保護し、迷惑メールを回避し、受信トレイを安全に。全OS対応の無料メール転送サービス・アプリです。
21,445 21445件のユーザーレビュー
素晴らしい

AdGuard Wallet

セキュアな仮想通貨ウォレットで暗号資産を安全にコントロール。複数のウォレットを管理し、何千もの暗号通貨を発見・保管・送信・スワップ。
AdGuardをダウンロード中です AdGuardをインストールするには、矢印が指してるファイルをクリックしてください 「開く」を選択し、「OK」をクリックして、ファイルがダウンロードされるのをお待ちください。 ダウンロードが終了し開きましたウィンドウでAdGuardを「Applications」フォルダにドラッグで移動させてください。 AdGuardをダウンロードして頂きありがとうございます! 「開く」を選択し、「OK」をクリックして、ファイルがダウンロードされるのをお待ちください。 ダウンロードが終了し開きましたウィンドウで「インストール」をクリックしてください。 AdGuardをダウンロードして頂きありがとうございます!
以下のQRコードをスキャンすることでモバイル端末にもAdGuardをインストールできます。