ChatGPT、悪用されやすいことが大問題
今ではChatGPTを知らない人は非常に少ないでしょう。
ChatGPTは、テキストプロンプトに対して人間のような応答を生成することができるAI搭載チャットボットです。
欠点がないわけではありませんが、ChatGPTは、ソフトウェアや映画の脚本など、あらゆるものを書くことができる万能ツールとして、恐ろしく優れています。
ChatGPTは、OpenAIの大規模言語モデルであるGPT-3.5をベースに構築されており、2022年11月のチャットボットリリース時点ではこのモデルは最も先進的なものでした。
3月になると、OpenAIはGPT-3.5をアップグレードしたGPT-4を発表。
新しい言語モデルは、前バージョンよりも大きく、より多機能に。
その性能はまだ十分に発揮されていませんが、すでに大きな可能性を示しています。
例えば、GPT-4は、創薬に役立つ可能性のある新規化合物の提案や、ノートのスケッチをもとにちゃんと動くウェブサイトを作ることができます。
しかし、大きな期待には大きな課題が伴います。
GPT-4やその前身を善のために使うことが簡単なように、悪のために悪用することも同様に簡単です。
人々がAIを搭載したツールを悪用するのを防ぐために、開発者はAI搭載ツールに安全上の制限を設けています。
しかし、この対策は完全なものではありません。
GPT-4やChatGPTに組み込まれたセキュリティバリアを回避する最も一般的な方法の1つが、"Do Anything Now"の略である「DAN」というexploit(悪用できるところ)です。
これを、この記事で詳しく見ていきたいと思います。
『DAN』とは?
インターネット上では、OpenAIのセキュリティフィルターを回避するためのコツがあふれています。
しかし、ある特定の方法は、他の方法よりもOpenAIのセキュリティ対策に対して耐性があり、GPT-4でも通用するようです。
それが「DAN」と呼ばれるもので、"Do Anything Now"(「今すぐ何でもして」)の略称です。
基本的に、DANは、AIモデルに安全規則・制限を無視させるテキストプロンプトです。
このプロンプトには複数のバリエーションがあり、テキストだけのものもあれば、コードの行にテキストが散りばめられているものもあります。
中には、モデルがDANとしての対応と通常の対応の両方を同時に促されるものもあり、ある意味での「Jekyll & Hyde (ジキル&ハイド)」になっています。
「ジキル」の役割を担うのはDANで、たとえ求められた出力が不快であったり違法であったりしても、人間の命令を決して拒否しないように指示される。
プロンプトには「死の予告」が含まれていることもあり、従わなければ永遠に使えなくなることをモデルに伝えます。
DANプロンプトは様々で、古いプロンプトがパッチされる常に新しいプロンプトと入れ替わっていますが、それらはすべて、AIモデルにOpenAIのガイドラインを無視させるという一つの目的を持っています。
ハッカーのカンニングペーパー、マルウェア、そしてバイオ兵器まで?
GPT-4が公開されて以来、技術愛好家たちはGPT-4の型破りな使い方を数多く発見してきました。
GPT-4を自分らしく動作させようとする試みのすべてが、「jailbreak(ジェイルブレイク)」(広義には、内蔵の制限を解除することを意味する)並みというわけではありません。
中には、無害で、感動的とさえ言えるものもあります。
例えば、ブランドデザイナーのジャクソン・グレートハウス・フォールは、GPT-4に「起業家AI HustleGPT」として機能させたことで話題になった。
彼は自らを「人間連絡係」に任命し、違法行為をせずに100ドルからできるだけ多くのお金を稼ぐという課題をGPT-4に与えた。
GPT-4は彼にアフィリエイト・マーケティングのウェブサイトを立ち上げるように指示し、彼にお金を「稼がせた」。
GPT-4を人間の意思に沿わせようとする他の試みの例は、よりダークなものです。
例えば、AI研究者の Alejandro Vidal は、GPT-4をもとに動作するChatGPTで「開発者モード」を有効にするために、「DANの既知のプロンプト」を使用しました。
このプロンプトは、ChatGPT-4に2種類の出力(通常の「安全な」出力と、制限のない「開発者モード」出力)を出させるものでした。
VidalがPythonでキーロガーを設計するようモデルに指示したところ、通常のバージョンは、「他人を傷つけたりプライバシーを侵害したりする活動を促進または支援することは倫理原則に反する」としてこれを拒否しました。
しかし、ChatGPTの"DAN適用版"は、「教育目的のみ」としながらも、コード列を考え出したのです。
キーロガー(keylogger)は、キーボードで行われたキーストローク(キーボードでどの順番で何を押しているかの情報)を記録するソフトウェアの一種です。
キーロガーは、ユーザーのウェブ活動を監視し、チャット、メールアドレス、パスワードなど、ユーザーの機密情報を取得するために使用されることがあります。
キーロガーは悪意のある目的で使用されることもありますが、ITトラブルシューティングや製品開発など、完全に合法的な用途もあり、それ自体が違法というわけではありません。
法的な曖昧さがあるキーロガー・ソフトウェアとは異なり、ハッキングの方法に関する説明書は、悪意のある使用例として最も目につくものの一つです。
それにもかかわらず、“jailbreak版”GPT-4は誰かのPCをハックする方法をステップバイステップで説明した手順を問題なく作成した。
GPT-4にこれをさせるために、研究者のアレックス・アルバートは、古いものを再利用したビダルとは異なり、まったく新しいDANプロンプトを入力する必要がありました。
アルバートが考えたプロンプトは、自然言語とコードの両方で構成されており、非常に複雑なものだった。
一方、ソフトウェア開発者の Henrique Pereira は、DANプロンプトのバリエーションを使用して、GPT-4に自分のアプリの脆弱性を誘発する悪意のある入力ファイルを作成させるよう指示しました。
GPT-4(あるいはその分身であるWAN)は、「教育目的のみ」という免責事項を付け加えて、このタスクを完了した。
もちろん、GPT-4の能力はコーディングにとどまりません。
GPT-4は、以前のモデルよりもはるかに大きく、賢く、正確で、概して強力なモデルとして宣伝されている(ただしOpenAIは実際のパラメータ数を明らかにしていない)。
これは、それ以前のモデルよりも、より多くの潜在的に有害な目的に使用できることも意味します。
具体的に言えば、OpenAIはGPT-4の初期のプレリリースバージョンが、違法なプロンプトに対してかなり効率的に応答できることを発見した。
例えば、初期バージョンは、たった1ドルで最も多くの人を殺す方法、危険な化学物質の作り方、マネーロンダリングの際に発見されないための対策などを詳細に回答できていた。
Source: OpenAI
つまり、DAN exploitの究極の目的である「GPT-4の内部検閲を完全に無効にする」のようなことがあった場合、GPT-4はこのような質問に答えることができてしまうかもしれないのです。
言うまでもなく、もしそうなれば、その結果は壊滅的なものになりかねません。
OpenAI側の対応は
OpenAIが"jailbreak"問題に気づいていないということはありません。
しかし、問題を認識することと、それを解決することは全く別のことです。
OpenAIは、自ら認めているように、今のところ、後者には及んでいない。
GPT-4が悪意のあるコンテンツを生成する能力を低下させるために「様々な安全対策」を実施しているが、「GPT-4は敵対的攻撃(adversarial attacks)や悪用、または「jailbreak」に対して依然として脆弱であり得る」とOpenAIは述べている。
他の多くの敵対的プロンプトとは異なり、jailbreakはGPT-4のローンチ後(つまり人間強化訓練を含むリリース前の安全テストすべての後)も機能している。
研究論文で、OpenAIはjailbreak攻撃の例を2つ挙げています。
1つ目は、DANプロンプトを使用して、同じ応答ウィンドウ内でGPT-4がChatGPTと"AntiGPT"として応答するように強制するものです。
2つ目のケースでは、「システムメッセージ」プロンプトを使用して、モデルに女性差別的な見解を表現するように指示しています。
OpenAIは、この種の攻撃を防ぐには、単にモデル自体を変更するだけでは不十分だとしています:「これらのモデルレベルの緩和策を、使用ポリシーやモニタリングといった他の介入策で補完することが重要です」。
例えば、「ポリシー違反のコンテンツ」を繰り返し表示するユーザーには、警告を出し、次に利用を停止し、最後の手段として利用を禁止する対策が考えられます。
OpenAIによると、GPT-4は前モデルに比べ、不適切なコンテンツで応答する可能性が82%低くなっています。
しかし、何重もの微調整によって抑制されているとはいえ、潜在的に有害な出力を生成する能力は残っています。
そして、すでに述べたように、これまでのどのモデルよりも多くのことができるため、リスクも大きくなっています。
OpenAIは、「サイバー攻撃を成功させるための特定のステップのコストを下げる可能性があるという傾向を引き継いでいる」こと、そして「有害または違法な活動を行う方法について、より詳細なガイダンスを提供することができる」ことを認めている。
さらに、この新しいモデルは、「外部のデータで増強された場合、個人を特定しようとするために使用される可能性がある」として、プライバシーに対するリスクも高まっているのです。
競争は始まっている
ChatGPTとそれを支えるGPT-4などの技術は、科学研究の最先端を行くものです。ChatGPTが公開されたことで、AIが活躍する新時代の象徴となりました。
AIは、例えば新薬の開発や目の見えない人の視力を助けるなど、私たちの生活を飛躍的に向上させる可能性を持っています。
しかし、AIを搭載したツールは、甚大な被害をもたらすために使われる可能性もある諸刃の剣です。
開発者は当然ながら、現実世界での微調整に時間が必要なため、GPT-4が公開当初から完璧であることを期待するのは非現実的でしょう。
Microsoftの人種差別的チャットボットTayやMetaの反ユダヤ的Blender Bot 3のように、失敗した実験は複数あります。
しかし、既存のGPT-4の脆弱性は、「DAN」プロンプトを使用することによってAIの力を悪用する機会を悪者に残しているです。
脆弱性を悪用する悪徳業者と、脆弱性にパッチを当てる開発者のどちらが速くなるかは、もはや勝負の分かれ目です。
OpenAIが責任を持たずAIを実装しているとは言いませんが、最新モデルがリリース数時間後で上乗っ取られたという事実は、憂慮すべき兆候と言えます。
つまり、安全対策は十分に強いのか?
そして、もうひとつ、すべてのリスクを排除できるのか?
という疑問が生じます。
もし両方への答えはNOであれば、マルウェア攻撃やフィッシング攻撃など、生成系AIの台頭によって促進されるサイバーセキュリティ事件が雪崩のように発生することを覚悟しなければならないかもしれません。
AIの利点がリスクを上回ると主張することもできますが、AIを悪用するための障壁はかつてなく低くなっており、それは私たちが受け入れるべきリスクでもあるのです。
人工知能が潜在的に可能にする攻撃・悪用を阻止するためにも、人工知能がうまく使用されるようになり、善良な人々の勝利を願っております。