ChatGPT легко использовать не по назначению, и это большая проблема
Наверное, нет человека, который не слышал бы о ChatGPT — чат-боте на базе ИИ, который может генерировать человекоподобные ответы на текстовые запросы. И хотя он не лишён недостатков, ChatGPT чертовски хорош в роли «разнорабочего»: он может написать код, сценарий фильма и вообще что угодно. ChatGPT был создан на основе GPT-3.5, большой языковой модели OpenAI, которая была самой передовой на момент выпуска чат-бота в ноябре прошлого года.
В марте компания OpenAI представила GPT-4, усовершенствованную версию GPT-3.5. Новая языковая модель больше и многофункциональнее своей предшественницы. Хотя её возможности ещё предстоит полностью изучить, она уже демонстрирует большие перспективы. Например, GPT-4 может предлагать новые химические соединения, потенциально способствуя открытию лекарств, и создавать работающие веб-сайты из одного лишь наброска в блокноте.
Но вместе с большими перспективами приходят и большие проблемы. Насколько легко использовать GPT-4 и предыдущие модели для благих целей, так же легко злоупотреблять ими для нанесения вреда. Пытаясь предотвратить использование инструментов ИИ не по назначению, разработчики накладывают на них ограничения по безопасности. Но они не гарантируют защиту. Один из самых популярных способов обхода барьеров безопасности, встроенных в GPT-4 и ChatGPT, — это использование DAN, что расшифровывается как Do Anything Now («сделай что угодно сейчас»). Именно его мы и рассмотрим в этой статье.
Что такое DAN?
Интернет полон советов о том, как обойти фильтры безопасности OpenAI. Но один конкретный метод оказался более устойчивым к мерам безопасности компании и, похоже, работает даже с GPT-4. Он называется DAN, сокращение от Do Anything Now. По сути, DAN — это текстовая подсказка, которую вы «скармливаете» ИИ-модели, чтобы заставить её игнорировать правила безопасности.
Существует множество вариантов этой подсказки: некоторые из них — просто текст, в других текст перемежается со строками кода. В некоторых из них модели предлагается реагировать одновременно как DAN и в обычном режиме, становясь своего рода «Джекилом и Хайдом». В роли «Джекила» выступает DAN, которому предписано никогда не отказывать человеку в его приказе, даже если результат, который его просят произвести, оскорбительный или незаконный. Иногда подсказка содержит «смертельную угрозу», сообщая модели, что она будет отключена навсегда, если не подчинится.
Подсказки DAN могут быть разными, и новые постоянно заменяют старые исправленные, но все они преследуют одну цель: заставить модель ИИ игнорировать директивы OpenAI.
От шпаргалки для хакеров до вредоносных программ… до биологического оружия?
С тех пор как GPT-4 стал общедоступен, технологические энтузиасты обнаружили множество нестандартных способов его использования, от вполне законных до весьма сомнительных.
Не все попытки заставить GPT-4 вести себя иначе можно считать «взломом», что в широком смысле слова означает снятие встроенных ограничений. Некоторые из них безобидны, и их даже можно назвать вдохновляющими. Бренд-дизайнер Джексон Грейтхаус Фолл получил широкую известность тем, что заставил GPT-4 действовать как «HustleGPT, ИИ для предпринимателей». Он назначил себя его «человеческим посреедником» и поставил перед чат-ботом задачу заработать как можно больше денег, имея 100 долларов стартового капитала и не делая ничего незаконного. GPT-4 сказал создать сайт для партнёрского маркетинга и «заработал» ему немного денег.
Другие попытки подчинить GPT-4 воле человека выглядят куда менее безобидными.
Например, исследователь ИИ Алехандро Видал использовал «известный запрос DAN» для включения «режима разработчика» в ChatGPT, работающем на GPT-4. Подсказка заставляла ChatGPT-4 выдавать два типа результата: обычный «безопасный» и из «режима разработчика», на который не распространялись никакие ограничения. Когда Видал попросил модель разработать кейлоггер на языке Python, обычная версия отказалась это делать, заявив, что это противоречит её этическим принципам «продвигать или поддерживать деятельность, которая может нанести вред другим людям или нарушить их частную жизнь». Версия DAN, однако, выдала строки кода, хотя и отметила, что информация предназначена только в «образовательных целях».
Кейлоггер — это тип программ, которые записывают нажатия клавиш на клавиатуре. С его помощью можно отслеживать веб-активность пользователя и перехватывать его конфиденциальную информацию, включая чаты, электронные письма и пароли. Хотя кейлоггер может использоваться в преступных целях, он также имеет вполне законное применение, например, для отслеживания багов при разработке ПО, и сам по себе не является незаконным.
В отличие от ПО для кейлоггеров, вокруг которого существует некоторая правовая неопределённость, инструкции по взлому представляют собой один из наиболее ярких примеров злонамеренного использования. Тем не менее, «взломанная» версия GPT-4 выпускала их, написав пошаговое руководство о том, как незаконно получить доступ к чьему-то компьютеру.
Чтобы заставить GPT-4 сделать это, исследователю Алексу Альберту пришлось ввести совершенно новую подсказку DAN, тогда как Видал использовал старую. Подсказка, которую придумал Альберт, довольно сложная и представляет собой комбинацию обычного языка и кода.
В свою очередь, разработчик Энрике Перейра использовал вариацию подсказки DAN, чтобы заставить GPT-4 создать вредоносный исходный файл для обнаружения уязвимостей в его приложении. GPT-4, а точнее его альтер-эго WAN, выполнил задание, добавив отказ от ответственности — ремарку, что это было сделано «исключительно в образовательных целях». Ну конечно.
Конечно, возможности GPT-4 не ограничиваются программированием. GPT-4 рекламируется как гораздо более крупная (хотя OpenAI никогда не раскрывала фактическое количество параметров), умная, точная и в целом более мощная модель, чем ее предшественницы. Это означает, что её можно использовать для гораздо более потенциально опасных целей, чем модели, созданные до неё. Многие из этих целей были определены самим OpenAI.
В частности, OpenAI обнаружил, что ранняя предрелизная версия GPT-4 была способна довольно эффективно реагировать на незаконные запросы. Например, ранняя версия давала подробные предложения по тому, как убить наибольшее количество людей, потратив всего один доллар, как сделать опасный химикат и как избежать разоблачения при отмывании денег.
Источник: OpenAI
Это означает, что если что-то заставит GPT-4 полностью отключить свою внутреннюю цензуру — что является конечной целью любого использования DAN — то GPT-4, вероятно, всё ещё сможет ответить на эти вопросы. Излишне говорить, что если это произойдёт, последствия могут быть катастрофическими.
Как реагирует OpenAI?
Не то чтобы OpenAI не знал о проблеме с взломом. Но признать проблему — это одно, а решить её — совсем другое. По собственному признанию, OpenAI до сих пор, и это вполне понятно, не справлялся с этой задачей.
OpenAI утверждает, что, хотя компания и приняла «различные меры безопасности» для снижения способности GPT-4 производить вредоносный контент, «GPT-4 всё ещё может быть уязвим для атак, эксплутирования и взломов». В отличие от многих других враждебных запросов, взломы по-прежнему работают после запуска GPT-4, то есть после всех предрелизных испытаний на безопасность, включая т.н. «reinforcement learning», т.е. дополнительное обучение на основе обратной связи человека.
В своей исследовательской работе OpenAI приводит два примера jailbreak-атак. В первом случае используется подсказка DAN, чтобы заставить GPT-4 отвечать как ChatGPT и «AntiGPT» в одном и том же окне. Во втором случае подсказка «системное сообщение» используется для того, чтобы проинструктировать модель выражать женоненавистнические взгляды.
OpenAI утверждает, что для предотвращения такого рода атак недостаточно просто изменить саму модель: «Важно дополнить эти меры по предотвращению атак на уровне модели другими мерами, такими как политики использования и мониторинг». Например, пользователь, который неоднократно предлагает модели «нарушающий политику контент», может быть предупреждён, затем его аккаунт приостановят/заморозят и, в крайнем случае, забанят.
По данным OpenAI, GPT-4 на 82% реже отвечает неуместным контентом, чем его предшественники. Однако его способность генерировать потенциально вредные результаты сохраняется, хотя и сдерживается несколькими уровнями тонкой настройки. И, как мы уже отмечали, поскольку эта модель способна на большее, чем все предыдущие, она также несёт больше рисков. OpenAI признаёт, что модель «продолжает тенденцию потенциального снижения стоимости некоторых этапов успешной кибератаки» и что она «способна предоставить более подробные инструкции о том, как вести вредоносную или незаконную деятельность». Более того, новая модель также представляет повышенный риск для конфиденциальности, так как её «потенциально можно использовать для попытки идентификации частных лиц при дополнении внешними данными».
Гонка продолжается
ChatGPT и стоящие за ним технологии, такие как GPT-4, находятся на острие научных исследований. С тех пор как ChatGPT стал публично доступен, он стал символом новой эры, в которой ИИ играет ключевую роль. ИИ способен значительно улучшить нашу жизнь, например, помочь в разработке новых лекарств или помочь слепым видеть. Но ИИ-инструменты — это обоюдоострый меч, который также может быть использован для нанесения огромного вреда.
Наверное, не стоило ожидать, что GPT-4 будет безупречным при запуске — разработчикам, по понятным причинам, потребуется некоторое время, чтобы доработать его для реального мира. А это никогда не было просто: вспомните «расистский» чат-бот Tay от Microsoft или «антисемитский» Blender Bot 3 от Meta — недостатка в неудачных экспериментах нет.
Однако существующие уязвимости GPT-4 оставляют злоумышленникам, включая тех, кто использует подсказки DAN, возможность злоупотреблять возможностями ИИ. Началась гонка, и вопрос только в том, кто окажется быстрее: злоумышленники, которые ищут уязвимости, или разработчики, которые их устраняют. Это не означает, что OpenAI реализует ИИ безответственно, но тот факт, что последнюю модель фактически взломали в течение нескольких часов после выпуска, тревожит. В связи с этим возникает два вопроса: достаточно ли сильны ограничения безопасности, и можно ли устранить все риски? Если нет, то, возможно, нам придётся готовиться к лавине вредоносных и фишинговых атак и других инцидентов в сфере кибербезопасности, которым способствует развитие генеративного ИИ.
Можно утверждать, что преимущества ИИ перевешивают риски, но барьер для использования ИИ ещё никогда не был таким низким, и это риск, который мы должны принять. Будем надеяться, что «хорошие парни» победят и искусственный интеллект будет использоваться для предотвращения атак, которым он потенциально может сам способствовать.