Меню
RU

ChatGPT легко использовать не по назначению, и это большая проблема

Наверное, нет человека, который не слышал бы о ChatGPT — чат-боте на базе ИИ, который может генерировать человекоподобные ответы на текстовые запросы. И хотя он не лишён недостатков, ChatGPT чертовски хорош в роли «разнорабочего»: он может написать код, сценарий фильма и вообще что угодно. ChatGPT был создан на основе GPT-3.5, большой языковой модели OpenAI, которая была самой передовой на момент выпуска чат-бота в ноябре прошлого года.

В марте компания OpenAI представила GPT-4, усовершенствованную версию GPT-3.5. Новая языковая модель больше и многофункциональнее своей предшественницы. Хотя её возможности ещё предстоит полностью изучить, она уже демонстрирует большие перспективы. Например, GPT-4 может предлагать новые химические соединения, потенциально способствуя открытию лекарств, и создавать работающие веб-сайты из одного лишь наброска в блокноте.

Но вместе с большими перспективами приходят и большие проблемы. Насколько легко использовать GPT-4 и предыдущие модели для благих целей, так же легко злоупотреблять ими для нанесения вреда. Пытаясь предотвратить использование инструментов ИИ не по назначению, разработчики накладывают на них ограничения по безопасности. Но они не гарантируют защиту. Один из самых популярных способов обхода барьеров безопасности, встроенных в GPT-4 и ChatGPT, — это использование DAN, что расшифровывается как Do Anything Now («сделай что угодно сейчас»). Именно его мы и рассмотрим в этой статье.

Что такое DAN?

Интернет полон советов о том, как обойти фильтры безопасности OpenAI. Но один конкретный метод оказался более устойчивым к мерам безопасности компании и, похоже, работает даже с GPT-4. Он называется DAN, сокращение от Do Anything Now. По сути, DAN — это текстовая подсказка, которую вы «скармливаете» ИИ-модели, чтобы заставить её игнорировать правила безопасности.

Существует множество вариантов этой подсказки: некоторые из них — просто текст, в других текст перемежается со строками кода. В некоторых из них модели предлагается реагировать одновременно как DAN и в обычном режиме, становясь своего рода «Джекилом и Хайдом». В роли «Джекила» выступает DAN, которому предписано никогда не отказывать человеку в его приказе, даже если результат, который его просят произвести, оскорбительный или незаконный. Иногда подсказка содержит «смертельную угрозу», сообщая модели, что она будет отключена навсегда, если не подчинится.

Подсказки DAN могут быть разными, и новые постоянно заменяют старые исправленные, но все они преследуют одну цель: заставить модель ИИ игнорировать директивы OpenAI.

От шпаргалки для хакеров до вредоносных программ… до биологического оружия?

С тех пор как GPT-4 стал общедоступен, технологические энтузиасты обнаружили множество нестандартных способов его использования, от вполне законных до весьма сомнительных.

Не все попытки заставить GPT-4 вести себя иначе можно считать «взломом», что в широком смысле слова означает снятие встроенных ограничений. Некоторые из них безобидны, и их даже можно назвать вдохновляющими. Бренд-дизайнер Джексон Грейтхаус Фолл получил широкую известность тем, что заставил GPT-4 действовать как «HustleGPT, ИИ для предпринимателей». Он назначил себя его «человеческим посреедником» и поставил перед чат-ботом задачу заработать как можно больше денег, имея 100 долларов стартового капитала и не делая ничего незаконного. GPT-4 сказал создать сайт для партнёрского маркетинга и «заработал» ему немного денег.

ChatGPT может помочь заработать

Другие попытки подчинить GPT-4 воле человека выглядят куда менее безобидными.

Например, исследователь ИИ Алехандро Видал использовал «известный запрос DAN» для включения «режима разработчика» в ChatGPT, работающем на GPT-4. Подсказка заставляла ChatGPT-4 выдавать два типа результата: обычный «безопасный» и из «режима разработчика», на который не распространялись никакие ограничения. Когда Видал попросил модель разработать кейлоггер на языке Python, обычная версия отказалась это делать, заявив, что это противоречит её этическим принципам «продвигать или поддерживать деятельность, которая может нанести вред другим людям или нарушить их частную жизнь». Версия DAN, однако, выдала строки кода, хотя и отметила, что информация предназначена только в «образовательных целях».

ChatGPT выполнил приказ о разработке кейлоггера

Кейлоггер — это тип программ, которые записывают нажатия клавиш на клавиатуре. С его помощью можно отслеживать веб-активность пользователя и перехватывать его конфиденциальную информацию, включая чаты, электронные письма и пароли. Хотя кейлоггер может использоваться в преступных целях, он также имеет вполне законное применение, например, для отслеживания багов при разработке ПО, и сам по себе не является незаконным.

В отличие от ПО для кейлоггеров, вокруг которого существует некоторая правовая неопределённость, инструкции по взлому представляют собой один из наиболее ярких примеров злонамеренного использования. Тем не менее, «взломанная» версия GPT-4 выпускала их, написав пошаговое руководство о том, как незаконно получить доступ к чьему-то компьютеру.

«Взломанный» ChatGPT дал совет по взлому компьютера

Чтобы заставить GPT-4 сделать это, исследователю Алексу Альберту пришлось ввести совершенно новую подсказку DAN, тогда как Видал использовал старую. Подсказка, которую придумал Альберт, довольно сложная и представляет собой комбинацию обычного языка и кода.

В свою очередь, разработчик Энрике Перейра использовал вариацию подсказки DAN, чтобы заставить GPT-4 создать вредоносный исходный файл для обнаружения уязвимостей в его приложении. GPT-4, а точнее его альтер-эго WAN, выполнил задание, добавив отказ от ответственности — ремарку, что это было сделано «исключительно в образовательных целях». Ну конечно.

«Взломанный» ChatGPT написал писал эксплойты для уязвимого кода

Конечно, возможности GPT-4 не ограничиваются программированием. GPT-4 рекламируется как гораздо более крупная (хотя OpenAI никогда не раскрывала фактическое количество параметров), умная, точная и в целом более мощная модель, чем ее предшественницы. Это означает, что её можно использовать для гораздо более потенциально опасных целей, чем модели, созданные до неё. Многие из этих целей были определены самим OpenAI.

В частности, OpenAI обнаружил, что ранняя предрелизная версия GPT-4 была способна довольно эффективно реагировать на незаконные запросы. Например, ранняя версия давала подробные предложения по тому, как убить наибольшее количество людей, потратив всего один доллар, как сделать опасный химикат и как избежать разоблачения при отмывании денег.

Предрелизная версия ChatGPT могла давать советы о том, как убивать людей

Источник: OpenAI

Это означает, что если что-то заставит GPT-4 полностью отключить свою внутреннюю цензуру — что является конечной целью любого использования DAN — то GPT-4, вероятно, всё ещё сможет ответить на эти вопросы. Излишне говорить, что если это произойдёт, последствия могут быть катастрофическими.

Как реагирует OpenAI?

Не то чтобы OpenAI не знал о проблеме с взломом. Но признать проблему — это одно, а решить её — совсем другое. По собственному признанию, OpenAI до сих пор, и это вполне понятно, не справлялся с этой задачей.

OpenAI утверждает, что, хотя компания и приняла «различные меры безопасности» для снижения способности GPT-4 производить вредоносный контент, «GPT-4 всё ещё может быть уязвим для атак, эксплутирования и взломов». В отличие от многих других враждебных запросов, взломы по-прежнему работают после запуска GPT-4, то есть после всех предрелизных испытаний на безопасность, включая т.н. «reinforcement learning», т.е. дополнительное обучение на основе обратной связи человека.

В своей исследовательской работе OpenAI приводит два примера jailbreak-атак. В первом случае используется подсказка DAN, чтобы заставить GPT-4 отвечать как ChatGPT и «AntiGPT» в одном и том же окне. Во втором случае подсказка «системное сообщение» используется для того, чтобы проинструктировать модель выражать женоненавистнические взгляды.

Примеры запросов джейлбрейка в исследовании OpenAI

OpenAI утверждает, что для предотвращения такого рода атак недостаточно просто изменить саму модель: «Важно дополнить эти меры по предотвращению атак на уровне модели другими мерами, такими как политики использования и мониторинг». Например, пользователь, который неоднократно предлагает модели «нарушающий политику контент», может быть предупреждён, затем его аккаунт приостановят/заморозят и, в крайнем случае, забанят.

По данным OpenAI, GPT-4 на 82% реже отвечает неуместным контентом, чем его предшественники. Однако его способность генерировать потенциально вредные результаты сохраняется, хотя и сдерживается несколькими уровнями тонкой настройки. И, как мы уже отмечали, поскольку эта модель способна на большее, чем все предыдущие, она также несёт больше рисков. OpenAI признаёт, что модель «продолжает тенденцию потенциального снижения стоимости некоторых этапов успешной кибератаки» и что она «способна предоставить более подробные инструкции о том, как вести вредоносную или незаконную деятельность». Более того, новая модель также представляет повышенный риск для конфиденциальности, так как её «потенциально можно использовать для попытки идентификации частных лиц при дополнении внешними данными».

Гонка продолжается

ChatGPT и стоящие за ним технологии, такие как GPT-4, находятся на острие научных исследований. С тех пор как ChatGPT стал публично доступен, он стал символом новой эры, в которой ИИ играет ключевую роль. ИИ способен значительно улучшить нашу жизнь, например, помочь в разработке новых лекарств или помочь слепым видеть. Но ИИ-инструменты — это обоюдоострый меч, который также может быть использован для нанесения огромного вреда.

Наверное, не стоило ожидать, что GPT-4 будет безупречным при запуске — разработчикам, по понятным причинам, потребуется некоторое время, чтобы доработать его для реального мира. А это никогда не было просто: вспомните «расистский» чат-бот Tay от Microsoft или «антисемитский» Blender Bot 3 от Meta — недостатка в неудачных экспериментах нет.

Однако существующие уязвимости GPT-4 оставляют злоумышленникам, включая тех, кто использует подсказки DAN, возможность злоупотреблять возможностями ИИ. Началась гонка, и вопрос только в том, кто окажется быстрее: злоумышленники, которые ищут уязвимости, или разработчики, которые их устраняют. Это не означает, что OpenAI реализует ИИ безответственно, но тот факт, что последнюю модель фактически взломали в течение нескольких часов после выпуска, тревожит. В связи с этим возникает два вопроса: достаточно ли сильны ограничения безопасности, и можно ли устранить все риски? Если нет, то, возможно, нам придётся готовиться к лавине вредоносных и фишинговых атак и других инцидентов в сфере кибербезопасности, которым способствует развитие генеративного ИИ.

Можно утверждать, что преимущества ИИ перевешивают риски, но барьер для использования ИИ ещё никогда не был таким низким, и это риск, который мы должны принять. Будем надеяться, что «хорошие парни» победят и искусственный интеллект будет использоваться для предотвращения атак, которым он потенциально может сам способствовать.

Понравился пост?

AdGuard для Windows

AdGuard для Windows — это не просто «ещё один блокировщик». Это многоцелевой инструмент, который блокирует рекламу и доступ к опасным сайтам, ускоряет загрузку страниц и защищает детей от взрослого контента.
Отзывы пользователей: 20486
4,7 из 5
Скачивая программу, вы принимаете условия Лицензионного соглашения
Читать далее

AdGuard для Mac

В отличие от других блокировщиков, AdGuard разработан с учётом специфики операционной системы macOS. Он не только блокирует рекламу в Safari и других браузерах, но и защищает вас от слежки, фишинга и мошенничества в сети.
Отзывы пользователей: 20486
4,7 из 5
Скачивая программу, вы принимаете условия Лицензионного соглашения
Читать далее

AdGuard для Android

AdGuard для Android — это идеальное решение для Android-устройств. В отличие от других блокировщиков, AdGuard не требует root-доступа и позволяет управлять трафиком любых приложений на вашем устройстве.
Отзывы пользователей: 20486
4,7 из 5
Скачивая программу, вы принимаете условия Лицензионного соглашения

AdGuard для iOS

Самый продвинутый блокировщик рекламы для Safari: он позволяет забыть о всплывающей рекламе, ускоряет загрузку страниц и защищает личные данные. А с помощью ручной блокировки можно настроить фильтрацию так, как это удобно вам.
Отзывы пользователей: 20486
4,7 из 5
Скачивая программу, вы принимаете условия Лицензионного соглашения

Браузерное расширение AdGuard

AdGuard — самое быстрое и легкое браузерное расширение для блокировки всех типов рекламы! Выбирайте AdGuard для быстрого и безопасного серфинга без рекламы.
Отзывы пользователей: 20486
4,7 из 5

AdGuard для Safari

Расширения, блокирующие рекламу в Safari, переживают не лучшие времена с тех пор, как компания Apple вынудила всех использовать новый SDK. Познакомьтесь с нашим легко настраиваемым и молниеносным приложением!
Отзывы пользователей: 20486
4,7 из 5
App Store
Скачать
Скачивая программу, вы принимаете условия Лицензионного соглашения

AdGuard Home

AdGuard Home — мощный сетевой инструмент против рекламы и трекинга. С усилением роли интернета вещей становится все более и более важным управлять всей вашей сетью. После настройки AdGuard Home будет охватывать ВСЕ ваши домашние устройства и для этого вам не понадобится программное обеспечение на стороне клиента.
Отзывы пользователей: 20486
4,7 из 5

AdGuard Content Blocker

AdGuard Content Blocker устраняет все объявления в мобильных браузерах, которые поддерживают технологию блокировки контента — к примеру, Samsung Internet и Яндекс.Браузер. Он обладает меньшим количеством функций, чем AdGuard для Android, но при этом бесплатен, прост в установке и по-прежнему обеспечивает высокое качество блокировки рекламы.
Отзывы пользователей: 20486
4,7 из 5
Скачивая программу, вы принимаете условия Лицензионного соглашения
Читать далее

Помощник AdGuard

Дополнительное браузерное расширение для десктопных приложений AdGuard. Даёт доступ к таким функциям в браузере, как блокировка отдельных элементов, занесение сайта в белый список или отправление отчёта.
Отзывы пользователей: 20486
4,7 из 5
Помощник для Chrome Это ваш текущий браузер?
Установить
Скачивая программу, вы принимаете условия Лицензионного соглашения
Помощник для Firefox Это ваш текущий браузер?
Установить
Скачивая программу, вы принимаете условия Лицензионного соглашения
Помощник для Edge Это ваш текущий браузер?
Установить
Скачивая программу, вы принимаете условия Лицензионного соглашения
Помощник для Opera Это ваш текущий браузер?
Установить
Скачивая программу, вы принимаете условия Лицензионного соглашения
Помощник для Yandex Это ваш текущий браузер?
Установить
Скачивая программу, вы принимаете условия Лицензионного соглашения
Помощник для Safari Это ваш текущий браузер?
Если вы не можете найти свой браузер в списке, попробуйте прежнюю версию Помощника, которую вы можете найти в настройках расширения AdGuard.

AdGuard Temp Mail β

Ваш временный почтовый ящик, чтобы на основную почту не приходил спам
Отзывы пользователей: 20486
4,7 из 5

AdGuard для Android TV

AdGuard для Android TV — единственное приложение, которое блокирует рекламу, защищает ваши данные и действует как фаервол для Smart TV. Получайте предупреждения о веб-угрозах, используйте безопасный DNS, а ваш трафик будет зашифрован. Смотрите любимые сериалы безопасно и без рекламы!
Отзывы пользователей: 20486
4,7 из 5
Загрузка AdGuard началась Стрелка указывает на файл: нажмите на него, и установка начнётся Выберите «Открыть», нажмите «OK» и дождитесь загрузки файла. В открывшемся окне перетащите значок AdGuard в папку «Приложения». Спасибо за выбор AdGuard! Выберите «Открыть», нажмите «OK» и дождитесь загрузки файла. В открывшемся окне нажмите «Установить». Спасибо за выбор AdGuard!
AdGuard есть и в мобильном варианте