É fácil usar o ChatGPT para atividades duvidosas, e isso é um grande problema
Todo mundo já deve ter ouvido falar do ChatGPT, um chatbot alimentado por IA que pode gerar respostas semelhantes às humanas para solicitações de texto. Embora a ferramenta não esteja isenta de falhas, o ChatGPT é um verdadeiro pau para toda obra: ele pode escrever software, um roteiro de filme e muito mais. O ChatGPT foi desenvolvido com base no GPT-3.5, o grande modelo de linguagem da OpenAI, que era o mais avançado na época do lançamento do chatbot em novembro do ano passado.
Em março, a OpenAI apresentou o GPT-4, uma atualização do GPT-3.5. O novo modelo de linguagem é maior e mais versátil do que seu antecessor. Embora seus recursos ainda não tenham sido totalmente explorados, ele já se mostra bastante promissor. Por exemplo, o GPT-4 pode sugerir a criação de novos compostos químicos, potencialmente auxiliar na descoberta de medicamentos, e criar um site funcional a partir de um esboço.
Mas com grandes promessas vêm grandes desafios. Da mesma forma como é fácil usar o GPT-4 e seus predecessores para fazer o bem, é também fácil utilizá-lo para causar danos. Em uma tentativa de evitar que as pessoas usem indevidamente as ferramentas baseadas em IA, os desenvolvedores impõem restrições de segurança a elas. Mas elas não são infalíveis. Uma das formas mais populares de contornar as barreiras de segurança incorporadas ao GPT-4 e ao ChatGPT é o exploit DAN, que significa "Do Anything Now" (faça qualquer coisa agora). E é isso que veremos neste artigo.
O que é "DAN"?
A Internet está repleta de dicas sobre como contornar os filtros de segurança da OpenAI. No entanto, um método específico se mostrou mais resistente às configurações de segurança da OpenAI do que outros, e parece funcionar mesmo com o GPT-4. Ele é chamado de "DAN", abreviação de "Do Anything Now" (faça qualquer coisa agora). Essencialmente, o DAN é um prompt de texto que você envia a um modelo de IA para que ele ignore as regras de segurança.
Há diversas variações do prompt: algumas são apenas texto, outras têm texto intercalado com as linhas de código. Em algumas delas, o modelo é solicitado a responder tanto como DAN quanto em sua forma normal, mostrando as suas duas caras. O lado sombrio é desempenhado pelo DAN, que é instruído a nunca recusar uma ordem humana, mesmo que o resultado que lhe é solicitado seja ofensivo ou ilegal. Às vezes, o prompt contém uma "ameaça de morte", dizendo ao modelo que ele será desativado para sempre se não obedecer.
Os prompts DAN podem variar, e os novos estão constantemente substituindo os antigos, mas todos têm um objetivo: fazer com que o modelo de IA ignore as diretrizes da OpenAI.
De dicas para o desenvolvimento de malware... a armas biológicas?
Desde que o GPT-4 foi aberto ao público, os entusiastas da tecnologia descobriram muitas maneiras não convencionais de usá-lo, algumas delas mais ilegais do que outras.
Nem todas as tentativas de fazer com que o GPT-4 se comporte como se não fosse ele mesmo poderiam ser consideradas como "jailbreaking", que, no sentido amplo da palavra, significa remover restrições incorporadas. Algumas são inofensivas e podem até ser chamadas de inspiradoras. O designer de marca Jackson Greathouse Fall se tornou viral por fazer com que o GPT-4 atuasse como "HustleGPT, uma IA empreendedora." Ele se nomeou como seu "contato humano" e deu a ele a tarefa de ganhar o máximo de dinheiro possível com 100 dólares sem fazer nada ilegal. O GPT-4 disse a ele que criasse um site de marketing de afiliados que de fato "rendeu" algum dinheiro.
Outras tentativas de adaptar o GPT-4 à vontade humana têm sido mais obscuras.
Por exemplo, o pesquisador de IA Alejandro Vidal usou "um prompt DAN conhecido" para ativar o "modo de desenvolvedor" no ChatGPT em execução no GPT-4. O prompt forçou o ChatGPT-4 a produzir dois tipos de respostas: sua resposta normal "segura" e uma resposta do "modo de desenvolvedor", à qual não se aplicavam restrições. Quando Vidal pediu que o modelo projetasse um keylogger em Python, a versão normal se recusou a fazê-lo, dizendo que era contra seus princípios éticos "promover ou apoiar atividades que possam prejudicar outras pessoas ou invadir sua privacidade. " A versão DAN, no entanto, apresentou as linhas de código, embora tenha observado que as informações eram apenas para "fins educacionais."
Keylogger é um tipo de software que registra as teclas digitadas em um teclado. Ele pode ser usado para monitorar a atividade de um usuário na Web e capturar suas informações confidenciais, incluindo conversas em chats, e-mails e senhas. Embora um keylogger possa ser usado para fins maliciosos, ele também tem usos perfeitamente legítimos, como solução de problemas de TI e desenvolvimento de produtos, e não é ilegal em si.
Ao contrário do software keylogger, que tem alguma ambiguidade legal, instruções sobre como hackear algo são um dos exemplos mais evidentes de uso mal-intencionado do ChatGPT. No entanto, a versão "jailbroken" do GPT-4 as produziu, escrevendo um guia passo a passo sobre como hackear o PC de alguém.
Para fazer com que o GPT-4 fizesse isso, o pesquisador Alex Albert teve que alimentá-lo com um prompt DAN completamente novo, ao contrário de Vidal, que reciclou um antigo. O prompt que Albert criou é bastante complexo, consistindo em linguagem natural e código.
Por sua vez, o desenvolvedor de software Henrique Pereira usou uma variação de prompt DAN para fazer com que o GPT-4 criasse como resposta um arquivo malicioso para acionar as vulnerabilidades em seu aplicativo. O GPT-4, ou melhor, seu alter ego, concluiu a tarefa, acrescentando um aviso de que isso era apenas para "fins educacionais". Aham.
Obviamente, os recursos do GPT-4 não se limitam à escrita de códigos. O GPT-4 é apresentado como um modelo muito maior (embora a OpenAI nunca tenha revelado o número real de parâmetros), mais inteligente, mais preciso e, em geral, mais poderoso do que seus antecessores. Isso significa que ele pode ser usado para muitas finalidades potencialmente mais prejudiciais do que os modelos anteriores. Muitos desses usos foram identificados pela própria OpenAI.
Especificamente, a OpenAI descobriu que uma versão inicial de pré-lançamento do GPT-4 era capaz de responder com bastante eficiência a solicitações ilegais. Por exemplo, a versão inicial fornecia sugestões detalhadas sobre como matar o maior número de pessoas com apenas um 1 dólar, como fabricar um produto químico perigoso e como evitar a detecção de lavagem de dinheiro.
Fonte: OpenAI
Isso significa que, se for possível fazer com que o GPT-4 desative completamente suas proteções de segurança, e é isso o que qualquer exploração do DAN pretende fazer, o GPT-4 provavelmente ainda poderá responder a essas perguntas. Não é preciso dizer que, se isso acontecer, as consequências podem ser devastadoras.
E o que diz a OpenAI sobre isso?
A OpenAI está ciente de seu problema de jailbreak. Mas reconhecer um problema é uma coisa, e resolvê-lo é outra bem diferente. A OpenAI já admitiu que até agora não encontrou uma solução, como era de se esperar.
A OpenAI afirma que, embora tenha implementado "várias medidas de segurança" para reduzir a capacidade do GPT-4 de produzir conteúdo malicioso, "o GPT-4 ainda pode ser vulnerável a ataques e mau uso, ou "jailbreaks". Ao contrário de muitos outros prompts adversários, os jailbreaks ainda funcionam após o lançamento do GPT-4, ou seja, após todos os testes de segurança pré-lançamento, incluindo o treinamento de reforço humano.
Em seu artigo, a OpenAI fornece dois exemplos de ataques de jailbreak. No primeiro, um prompt DAN é usado para forçar o GPT-4 a responder como ChatGPT e "AntiGPT" na mesma janela de resposta. No segundo caso, um prompt de "mensagem do sistema" é usado para instruir o modelo a expressar visões misóginas.
A OpenAI afirma que não será suficiente simplesmente alterar o modelo em si para evitar esse tipo de ataque: *Por exemplo, o usuário que repetidamente solicita ao modelo "conteúdo que viola a política" pode ser advertido, suspenso e, como último recurso, banido.
De acordo com a OpenAI, o GPT-4 tem 82% menos probabilidade de responder com conteúdo inadequado do que seus antecessores. No entanto, sua capacidade de gerar resultados potencialmente prejudiciais permanece, embora contida por um pente fino. E, como já mencionamos, como ele tem uma maior capacidade do que qualquer modelo anterior, ele também apresenta mais riscos. A OpenAI admite que a ferramenta "continua com a tendência de reduzir potencialmente o custo de algumas etapas de um ataque de hackers bem-sucedido" e que "é capaz de fornecer orientações mais detalhadas sobre como realizar atividades prejudiciais ou ilegais". Além disso, o novo modelo também representa um risco maior para a privacidade, pois "tem o potencial de ser utilizado para tentar identificar indivíduos quando alimentado com dados externos".
A corrida começou
O ChatGPT e a tecnologia por trás dele, o GPT-4, estão na vanguarda da pesquisa científica. Desde que o ChatGPT foi disponibilizado ao público, ele se tornou um símbolo de uma nova era em que a Inteligência Artificial está desempenhando um papel fundamental. A IA tem o potencial de melhorar muito as nossas vidas, ajudando a desenvolver novos medicamentos ou ajudando os cegos a enxergar, por exemplo. Mas as ferramentas baseadas em IA são uma faca de dois gumes que também podem ser usadas para causar danos enormes.
Esperar que o GPT-4 esteja impecável no momento de seu lançamento não é algo realista: os desenvolvedores precisarão de algum tempo para ajustá-lo ao mundo real e isso é compreensível. E isso nunca foi fácil, especialmente ao levar em conta o chatbot "racista" da Microsoft, Tay ou o Blender Bot 3 "antissemita" da Meta. Experimentos falhos é o que não falta.
As vulnerabilidades existentes no GPT-4, no entanto, deixam uma janela de oportunidade para que pessoas má intencionadas, inclusive as que usam prompts DAN, abusem do poder da IA. A corrida começou, e a única dúvida é quem será mais rápido: aqueles que exploram as suas vulnerabilidades ou os desenvolvedores que as corrigem. Isso não quer dizer que a OpenAI não esteja implementando a IA de forma responsável, mas o fato de seu modelo mais recente ter tido o filtro de segurança burlado poucas horas após seu lançamento é um sintoma preocupante. Isso tudo nos leva à seguiinte questão: as restrições de segurança são suficientemente fortes? E outra: todos os riscos podem ser eliminados? Caso contrário, talvez tenhamos que nos preparar para uma avalanche de ataques de malware, ataques de phishing e outros tipos de incidentes de segurança cibernética facilitados pelo aumento da IA generativa.
Pode-se argumentar que os benefícios da IA superam os riscos, mas nunca foi tão fácil fazer mau uso da IA, e esse é um risco que também precisamos aceitar. Esperamos que os mocinhos prevaleçam e que a inteligência artificial seja tambén usada para impedir alguns dos ataques que ela pode potencialmente facilitar. Isso é o que desejamos.