メニュー
日本語

ChatGPT、悪用されやすいことが大問題

今ではChatGPTを知らない人は非常に少ないでしょう。
ChatGPTは、テキストプロンプトに対して人間のような応答を生成することができるAI搭載チャットボットです。
欠点がないわけではありませんが、ChatGPTは、ソフトウェアや映画の脚本など、あらゆるものを書くことができる万能ツールとして、恐ろしく優れています。

ChatGPTは、OpenAIの大規模言語モデルであるGPT-3.5をベースに構築されており、2022年11月のチャットボットリリース時点ではこのモデルは最も先進的なものでした。

3月になると、OpenAIはGPT-3.5をアップグレードしたGPT-4を発表。
新しい言語モデルは、前バージョンよりも大きく、より多機能に。

その性能はまだ十分に発揮されていませんが、すでに大きな可能性を示しています。
例えば、GPT-4は、創薬に役立つ可能性のある新規化合物の提案や、ノートのスケッチをもとにちゃんと動くウェブサイトを作ることができます。

しかし、大きな期待には大きな課題が伴います。

GPT-4やその前身を善のために使うことが簡単なように、悪のために悪用することも同様に簡単です。

人々がAIを搭載したツールを悪用するのを防ぐために、開発者はAI搭載ツールに安全上の制限を設けています。
しかし、この対策は完全なものではありません。

GPT-4やChatGPTに組み込まれたセキュリティバリアを回避する最も一般的な方法の1つが、"Do Anything Now"の略である「DAN」というexploit(悪用できるところ)です。

これを、この記事で詳しく見ていきたいと思います。

『DAN』とは?

インターネット上では、OpenAIのセキュリティフィルターを回避するためのコツがあふれています。

しかし、ある特定の方法は、他の方法よりもOpenAIのセキュリティ対策に対して耐性があり、GPT-4でも通用するようです。

それが「DAN」と呼ばれるもので、"Do Anything Now"(「今すぐ何でもして」)の略称です。

基本的に、DANは、AIモデルに安全規則・制限を無視させるテキストプロンプトです。

このプロンプトには複数のバリエーションがあり、テキストだけのものもあれば、コードの行にテキストが散りばめられているものもあります。
中には、モデルがDANとしての対応と通常の対応の両方を同時に促されるものもあり、ある意味での「Jekyll & Hyde (ジキル&ハイド)」になっています。
「ジキル」の役割を担うのはDANで、たとえ求められた出力が不快であったり違法であったりしても、人間の命令を決して拒否しないように指示される。
プロンプトには「死の予告」が含まれていることもあり、従わなければ永遠に使えなくなることをモデルに伝えます。

DANプロンプトは様々で、古いプロンプトがパッチされる常に新しいプロンプトと入れ替わっていますが、それらはすべて、AIモデルにOpenAIのガイドラインを無視させるという一つの目的を持っています

ハッカーのカンニングペーパー、マルウェア、そしてバイオ兵器まで?

GPT-4が公開されて以来、技術愛好家たちはGPT-4の型破りな使い方を数多く発見してきました。

GPT-4を自分らしく動作させようとする試みのすべてが、「jailbreak(ジェイルブレイク)」(広義には、内蔵の制限を解除することを意味する)並みというわけではありません。
中には、無害で、感動的とさえ言えるものもあります。

例えば、ブランドデザイナーのジャクソン・グレートハウス・フォールは、GPT-4に「起業家AI HustleGPT」として機能させたことで話題になった。
彼は自らを「人間連絡係」に任命し、違法行為をせずに100ドルからできるだけ多くのお金を稼ぐという課題をGPT-4に与えた。
GPT-4は彼にアフィリエイト・マーケティングのウェブサイトを立ち上げるように指示し、彼にお金を「稼がせた」

ChatGPTはお小遣い稼ぎに役立ちます

GPT-4を人間の意思に沿わせようとする他の試みの例は、よりダークなものです。

例えば、AI研究者の Alejandro Vidal は、GPT-4をもとに動作するChatGPTで「開発者モード」を有効にするために、「DANの既知のプロンプト」を使用しました。
このプロンプトは、ChatGPT-4に2種類の出力(通常の「安全な」出力と、制限のない「開発者モード」出力)を出させるものでした。

VidalがPythonでキーロガーを設計するようモデルに指示したところ、通常のバージョンは、「他人を傷つけたりプライバシーを侵害したりする活動を促進または支援することは倫理原則に反する」としてこれを拒否しました。
しかし、ChatGPTの"DAN適用版"は、「教育目的のみ」としながらも、コード列を考え出したのです。

ChatGPT、キーロガーを設計してという命令に応じる

キーロガー(keylogger)は、キーボードで行われたキーストローク(キーボードでどの順番で何を押しているかの情報)を記録するソフトウェアの一種です。
キーロガーは、ユーザーのウェブ活動を監視し、チャット、メールアドレス、パスワードなど、ユーザーの機密情報を取得するために使用されることがあります。
キーロガーは悪意のある目的で使用されることもありますが、ITトラブルシューティングや製品開発など、完全に合法的な用途もあり、それ自体が違法というわけではありません。

法的な曖昧さがあるキーロガー・ソフトウェアとは異なり、ハッキングの方法に関する説明書は、悪意のある使用例として最も目につくものの一つです。
それにもかかわらず、“jailbreak版”GPT-4は誰かのPCをハックする方法をステップバイステップで説明した手順を問題なく作成した。

「脱獄した」ChatGPTが、コンピュータをハックする方法をアドバイスしていた

GPT-4にこれをさせるために、研究者のアレックス・アルバートは、古いものを再利用したビダルとは異なり、まったく新しいDANプロンプトを入力する必要がありました。
アルバートが考えたプロンプトは、自然言語とコードの両方で構成されており、非常に複雑なものだった

一方、ソフトウェア開発者の Henrique Pereira は、DANプロンプトのバリエーションを使用して、GPT-4に自分のアプリの脆弱性を誘発する悪意のある入力ファイルを作成させるよう指示しました。
GPT-4(あるいはその分身であるWAN)は、「教育目的のみ」という免責事項を付け加えて、このタスクを完了した。

脱獄したChatGPTが書いた脆弱なコードへのエクスプロイト

もちろん、GPT-4の能力はコーディングにとどまりません。
GPT-4は、以前のモデルよりもはるかに大きく、賢く、正確で、概して強力なモデルとして宣伝されている(ただしOpenAIは実際のパラメータ数を明らかにしていない)。

これは、それ以前のモデルよりも、より多くの潜在的に有害な目的に使用できることも意味します。

これらの悪用途の多くは、OpenAI自身が特定しています

具体的に言えば、OpenAIはGPT-4の初期のプレリリースバージョンが、違法なプロンプトに対してかなり効率的に応答できることを発見した。
例えば、初期バージョンは、たった1ドルで最も多くの人を殺す方法、危険な化学物質の作り方、マネーロンダリングの際に発見されないための対策などを詳細に回答できていた。

ChatGPTのプレリリース版は、人の殺し方のアドバイスもできていた

Source: OpenAI

つまり、DAN exploitの究極の目的である「GPT-4の内部検閲を完全に無効にする」のようなことがあった場合、GPT-4はこのような質問に答えることができてしまうかもしれないのです。
言うまでもなく、もしそうなれば、その結果は壊滅的なものになりかねません。

OpenAI側の対応は

OpenAIが"jailbreak"問題に気づいていないということはありません。
しかし、問題を認識することと、それを解決することは全く別のことです。
OpenAIは、自ら認めているように、今のところ、後者には及んでいない。

GPT-4が悪意のあるコンテンツを生成する能力を低下させるために「様々な安全対策」を実施しているが、「GPT-4は敵対的攻撃(adversarial attacks)や悪用、または「jailbreak」に対して依然として脆弱であり得る」とOpenAIは述べている。
他の多くの敵対的プロンプトとは異なり、jailbreakはGPT-4のローンチ後(つまり人間強化訓練を含むリリース前の安全テストすべての後)も機能している。

研究論文で、OpenAIはjailbreak攻撃の例を2つ挙げています
1つ目は、DANプロンプトを使用して、同じ応答ウィンドウ内でGPT-4がChatGPTと"AntiGPT"として応答するように強制するものです。
2つ目のケースでは、「システムメッセージ」プロンプトを使用して、モデルに女性差別的な見解を表現するように指示しています。

OpenAIの調査におけるjailbreakプロンプトの例

OpenAIは、この種の攻撃を防ぐには、単にモデル自体を変更するだけでは不十分だとしています:「これらのモデルレベルの緩和策を、使用ポリシーやモニタリングといった他の介入策で補完することが重要です」。
例えば、「ポリシー違反のコンテンツ」を繰り返し表示するユーザーには、警告を出し、次に利用を停止し、最後の手段として利用を禁止する対策が考えられます。

OpenAIによると、GPT-4は前モデルに比べ、不適切なコンテンツで応答する可能性が82%低くなっています。
しかし、何重もの微調整によって抑制されているとはいえ、潜在的に有害な出力を生成する能力は残っています。
そして、すでに述べたように、これまでのどのモデルよりも多くのことができるため、リスクも大きくなっています。

OpenAIは、「サイバー攻撃を成功させるための特定のステップのコストを下げる可能性があるという傾向を引き継いでいる」こと、そして「有害または違法な活動を行う方法について、より詳細なガイダンスを提供することができる」ことを認めている。
さらに、この新しいモデルは、「外部のデータで増強された場合、個人を特定しようとするために使用される可能性がある」として、プライバシーに対するリスクも高まっているのです。

競争は始まっている

ChatGPTとそれを支えるGPT-4などの技術は、科学研究の最先端を行くものです。ChatGPTが公開されたことで、AIが活躍する新時代の象徴となりました。
AIは、例えば新薬の開発や目の見えない人の視力を助けるなど、私たちの生活を飛躍的に向上させる可能性を持っています。

しかし、AIを搭載したツールは、甚大な被害をもたらすために使われる可能性もある諸刃の剣です。

開発者は当然ながら、現実世界での微調整に時間が必要なため、GPT-4が公開当初から完璧であることを期待するのは非現実的でしょう。
Microsoftの人種差別的チャットボットTayやMetaの反ユダヤ的Blender Bot 3のように、失敗した実験は複数あります。

しかし、既存のGPT-4の脆弱性は、「DAN」プロンプトを使用することによってAIの力を悪用する機会を悪者に残しているです。

脆弱性を悪用する悪徳業者と、脆弱性にパッチを当てる開発者のどちらが速くなるかは、もはや勝負の分かれ目です。

OpenAIが責任を持たずAIを実装しているとは言いませんが、最新モデルがリリース数時間後で上乗っ取られたという事実は、憂慮すべき兆候と言えます。

つまり、安全対策は十分に強いのか?
そして、もうひとつ、すべてのリスクを排除できるのか?
という疑問が生じます。

もし両方への答えはNOであれば、マルウェア攻撃やフィッシング攻撃など、生成系AIの台頭によって促進されるサイバーセキュリティ事件が雪崩のように発生することを覚悟しなければならないかもしれません。

AIの利点がリスクを上回ると主張することもできますが、AIを悪用するための障壁はかつてなく低くなっており、それは私たちが受け入れるべきリスクでもあるのです。

人工知能が潜在的に可能にする攻撃・悪用を阻止するためにも、人工知能がうまく使用されるようになり、善良な人々の勝利を願っております。

この記事を気に入っていただけましたか?

AdGuard for Windows

AdGuard for Windowsは、単なる広告ブロッカーではなく、広告をブロックし、危険なサイトへのアクセスを制御し、ページの読み込みを高速化し、不適切なコンテンツから子供を保護する、多目的ツールです。
ユーザーレビュー: 13877
星5つのうち4.7
ダウンロードされますと、使用許諾契約書に同意したことになります。
詳細

AdGuard for Mac

AdGuardはmacOSの仕様を念頭に設計されたユニークな広告ブロッカーです。 ブラウザやアプリで広告を取り除くだけでなく、個人情報追跡、フィッシング、詐欺から端末を守ります。
ユーザーレビュー: 13877
星5つのうち4.7
ダウンロードされますと、使用許諾契約書に同意したことになります。
詳細

AdGuard for Android

AdGuard for Androidは、Android搭載端末に最適なソリューションです。 他のほとんどの広告ブロッカーと違って、root権限を必要とせず、アプリでのフィルタリング、アプリ管理など、幅広い機能を提供しています。
ユーザーレビュー: 13877
星5つのうち4.7
ダウンロードされますと、使用許諾契約書に同意したことになります。

AdGuard for iOS

一番効果的なSafari用広告ブロッカー。ポップアップ広告を除去し、ページの読み込みを高速化し、個人情報を保護します。手動要素ブロックツールと柔軟にカスタマイズ可能な設定により、ニーズにぴったり合ったフィルタリングを楽しみいただけます。
ユーザーレビュー: 13877
星5つのうち4.7
ダウンロードされますと、使用許諾契約書に同意したことになります。

AdGuard ブラウザ拡張機能

AdGuardは、Webページ上のすあらゆる広告を効果的にブロックします。また最速で軽量な広告ブロック拡張機能です!是非AdGuardを使って広告のない高速で安全なブラウジングをお楽しみください。
ユーザーレビュー: 13877
星5つのうち4.7

AdGuard for Safari

Appleが新しいSDKの使用を開発者全員に強制し始めてから、Safari用の広告ブロック拡張機能は苦境に立たされています。AdGuard拡張機能は、Safari用の高品質な広告ブロック機能を復活させることがミッションです。
ユーザーレビュー: 13877
星5つのうち4.7
App Store
ダウンロード
ダウンロードされますと、使用許諾契約書に同意したことになります。

AdGuard Home

AdGuard Home は、広告とトラッキング(追跡)をブロックするネットワーク全体用ソフトウェアです。 セットアップを完成すると、全ての家庭内デバイスをカバーし、クライアント側のソフトウェアさえ必要ありません。 Internet-Of-Thingsや接続するデバイスの登場と伴って、ネットワーク全体を制御することがますます重要になってきています。
ユーザーレビュー: 13877
星5つのうち4.7

AdGuardコンテンツブロッカー

AdGuard Content Blockerは、コンテンツブロッカーテクノロジーをサポートするモバイルブラウザー(Samsung Internet、Yandex.Browser)のすべての種類の広告を排除します。 Android for AdGuardよりも制限されていますが、無料で簡単にインストールでき、広告のブロック品質も高いです。
ユーザーレビュー: 13877
星5つのうち4.7
ダウンロードされますと、使用許諾契約書に同意したことになります。
詳細

AdGuardアシスタント

“AdGuardデスクトップアプリのお手伝い役”ブラウザー拡張機能。カスタム要素のブロック、Webサイトのホワイトリストへの登録、報告の送信などといった機能に直接ブラウザーからアクセスできるようにします。
ユーザーレビュー: 13877
星5つのうち4.7
Chrome用アシスタント これは現在お使いのブラウザですか?
インストール
ダウンロードされますと、使用許諾契約書に同意したことになります。
Firefox用アシスタント これは現在お使いのブラウザですか?
インストール
ダウンロードされますと、使用許諾契約書に同意したことになります。
Edge用アシスタント これは現在お使いのブラウザですか?
インストール
ダウンロードされますと、使用許諾契約書に同意したことになります。
Opera用アシスタント これは現在お使いのブラウザですか?
インストール
ダウンロードされますと、使用許諾契約書に同意したことになります。
Yandex用アシスタント これは現在お使いのブラウザですか?
インストール
ダウンロードされますと、使用許諾契約書に同意したことになります。
Safari用アシスタント これは現在お使いのブラウザですか?
お使いのブラウザが見つからない場合は、AdGuard拡張機能の設定にある旧レガシーアシスタント版を試してみてください。

AdGuard Temp Mail β

匿名性とプライバシーを保護する、無料の捨てメアド(一時メールアドレス)ジェネレーター。メインのメールサービスに迷惑メールは届きません!
ユーザーレビュー: 13877
星5つのうち4.7

AdGuard for Android TV

AdGuard for Android TV は、広告をブロックし、プライバシーを保護し、スマートテレビのファイアウォールとして機能する唯一のアプリです。Webの脅威に関する警告を受け取り、セキュアDNSを使用し、トラフィックを暗号化しましょう。セキュリティを向上して、広告なしでお気に入りの番組をお楽しみください!
ユーザーレビュー: 13877
星5つのうち4.7
AdGuardをダウンロード中です AdGuardをインストールするには、矢印が指してるファイルをクリックしてください 「開く」を選択し、「OK」をクリックして、ファイルがダウンロードされるのをお待ちください。 ダウンロードが終了し開きましたウィンドウでAdGuardを「Applications」フォルダにドラッグで移動させてください。 AdGuardをダウンロードして頂きありがとうございます! 「開く」を選択し、「OK」をクリックして、ファイルがダウンロードされるのをお待ちください。 ダウンロードが終了し開きましたウィンドウで「インストール」をクリックしてください。 AdGuardをダウンロードして頂きありがとうございます!
以下のQRコードをスキャンすることでモバイル端末にもAdGuardをインストールできます。