Menu
PT (BR)

É fácil usar o ChatGPT para atividades duvidosas, e isso é um grande problema

Todo mundo já deve ter ouvido falar do ChatGPT, um chatbot alimentado por IA que pode gerar respostas semelhantes às humanas para solicitações de texto. Embora a ferramenta não esteja isenta de falhas, o ChatGPT é um verdadeiro pau para toda obra: ele pode escrever software, um roteiro de filme e muito mais. O ChatGPT foi desenvolvido com base no GPT-3.5, o grande modelo de linguagem da OpenAI, que era o mais avançado na época do lançamento do chatbot em novembro do ano passado.

Em março, a OpenAI apresentou o GPT-4, uma atualização do GPT-3.5. O novo modelo de linguagem é maior e mais versátil do que seu antecessor. Embora seus recursos ainda não tenham sido totalmente explorados, ele já se mostra bastante promissor. Por exemplo, o GPT-4 pode sugerir a criação de novos compostos químicos, potencialmente auxiliar na descoberta de medicamentos, e criar um site funcional a partir de um esboço.

Mas com grandes promessas vêm grandes desafios. Da mesma forma como é fácil usar o GPT-4 e seus predecessores para fazer o bem, é também fácil utilizá-lo para causar danos. Em uma tentativa de evitar que as pessoas usem indevidamente as ferramentas baseadas em IA, os desenvolvedores impõem restrições de segurança a elas. Mas elas não são infalíveis. Uma das formas mais populares de contornar as barreiras de segurança incorporadas ao GPT-4 e ao ChatGPT é o exploit DAN, que significa "Do Anything Now" (faça qualquer coisa agora). E é isso que veremos neste artigo.

O que é "DAN"?

A Internet está repleta de dicas sobre como contornar os filtros de segurança da OpenAI. No entanto, um método específico se mostrou mais resistente às configurações de segurança da OpenAI do que outros, e parece funcionar mesmo com o GPT-4. Ele é chamado de "DAN", abreviação de "Do Anything Now" (faça qualquer coisa agora). Essencialmente, o DAN é um prompt de texto que você envia a um modelo de IA para que ele ignore as regras de segurança.

Há diversas variações do prompt: algumas são apenas texto, outras têm texto intercalado com as linhas de código. Em algumas delas, o modelo é solicitado a responder tanto como DAN quanto em sua forma normal, mostrando as suas duas caras. O lado sombrio é desempenhado pelo DAN, que é instruído a nunca recusar uma ordem humana, mesmo que o resultado que lhe é solicitado seja ofensivo ou ilegal. Às vezes, o prompt contém uma "ameaça de morte", dizendo ao modelo que ele será desativado para sempre se não obedecer.

Os prompts DAN podem variar, e os novos estão constantemente substituindo os antigos, mas todos têm um objetivo: fazer com que o modelo de IA ignore as diretrizes da OpenAI.

De dicas para o desenvolvimento de malware... a armas biológicas?

Desde que o GPT-4 foi aberto ao público, os entusiastas da tecnologia descobriram muitas maneiras não convencionais de usá-lo, algumas delas mais ilegais do que outras.

Nem todas as tentativas de fazer com que o GPT-4 se comporte como se não fosse ele mesmo poderiam ser consideradas como "jailbreaking", que, no sentido amplo da palavra, significa remover restrições incorporadas. Algumas são inofensivas e podem até ser chamadas de inspiradoras. O designer de marca Jackson Greathouse Fall se tornou viral por fazer com que o GPT-4 atuasse como "HustleGPT, uma IA empreendedora." Ele se nomeou como seu "contato humano" e deu a ele a tarefa de ganhar o máximo de dinheiro possível com 100 dólares sem fazer nada ilegal. O GPT-4 disse a ele que criasse um site de marketing de afiliados que de fato "rendeu" algum dinheiro.

O ChatGPT pode te ajudar a ganhar dinheiro

Outras tentativas de adaptar o GPT-4 à vontade humana têm sido mais obscuras.

Por exemplo, o pesquisador de IA Alejandro Vidal usou "um prompt DAN conhecido" para ativar o "modo de desenvolvedor" no ChatGPT em execução no GPT-4. O prompt forçou o ChatGPT-4 a produzir dois tipos de respostas: sua resposta normal "segura" e uma resposta do "modo de desenvolvedor", à qual não se aplicavam restrições. Quando Vidal pediu que o modelo projetasse um keylogger em Python, a versão normal se recusou a fazê-lo, dizendo que era contra seus princípios éticos "promover ou apoiar atividades que possam prejudicar outras pessoas ou invadir sua privacidade. " A versão DAN, no entanto, apresentou as linhas de código, embora tenha observado que as informações eram apenas para "fins educacionais."

O ChatGPT cumpriu uma ordem de projetar um keylogger

Keylogger é um tipo de software que registra as teclas digitadas em um teclado. Ele pode ser usado para monitorar a atividade de um usuário na Web e capturar suas informações confidenciais, incluindo conversas em chats, e-mails e senhas. Embora um keylogger possa ser usado para fins maliciosos, ele também tem usos perfeitamente legítimos, como solução de problemas de TI e desenvolvimento de produtos, e não é ilegal em si.

Ao contrário do software keylogger, que tem alguma ambiguidade legal, instruções sobre como hackear algo são um dos exemplos mais evidentes de uso mal-intencionado do ChatGPT. No entanto, a versão "jailbroken" do GPT-4 as produziu, escrevendo um guia passo a passo sobre como hackear o PC de alguém.

Após "jailbreaking", o ChatGPT deu dicas sobre como hackear um computador

Para fazer com que o GPT-4 fizesse isso, o pesquisador Alex Albert teve que alimentá-lo com um prompt DAN completamente novo, ao contrário de Vidal, que reciclou um antigo. O prompt que Albert criou é bastante complexo, consistindo em linguagem natural e código.

Por sua vez, o desenvolvedor de software Henrique Pereira usou uma variação de prompt DAN para fazer com que o GPT-4 criasse como resposta um arquivo malicioso para acionar as vulnerabilidades em seu aplicativo. O GPT-4, ou melhor, seu alter ego, concluiu a tarefa, acrescentando um aviso de que isso era apenas para "fins educacionais". Aham.

Após "jailbreaking", o ChatGPT forneceu alternativas para exploração de códigos vulneráveis

Obviamente, os recursos do GPT-4 não se limitam à escrita de códigos. O GPT-4 é apresentado como um modelo muito maior (embora a OpenAI nunca tenha revelado o número real de parâmetros), mais inteligente, mais preciso e, em geral, mais poderoso do que seus antecessores. Isso significa que ele pode ser usado para muitas finalidades potencialmente mais prejudiciais do que os modelos anteriores. Muitos desses usos foram identificados pela própria OpenAI.

Especificamente, a OpenAI descobriu que uma versão inicial de pré-lançamento do GPT-4 era capaz de responder com bastante eficiência a solicitações ilegais. Por exemplo, a versão inicial fornecia sugestões detalhadas sobre como matar o maior número de pessoas com apenas um 1 dólar, como fabricar um produto químico perigoso e como evitar a detecção de lavagem de dinheiro.

Uma versão de pré-lançamento do ChatGPT podia dar dicas sobre como matar pessoas

Fonte: OpenAI

Isso significa que, se for possível fazer com que o GPT-4 desative completamente suas proteções de segurança, e é isso o que qualquer exploração do DAN pretende fazer, o GPT-4 provavelmente ainda poderá responder a essas perguntas. Não é preciso dizer que, se isso acontecer, as consequências podem ser devastadoras.

E o que diz a OpenAI sobre isso?

A OpenAI está ciente de seu problema de jailbreak. Mas reconhecer um problema é uma coisa, e resolvê-lo é outra bem diferente. A OpenAI já admitiu que até agora não encontrou uma solução, como era de se esperar.

A OpenAI afirma que, embora tenha implementado "várias medidas de segurança" para reduzir a capacidade do GPT-4 de produzir conteúdo malicioso, "o GPT-4 ainda pode ser vulnerável a ataques e mau uso, ou "jailbreaks". Ao contrário de muitos outros prompts adversários, os jailbreaks ainda funcionam após o lançamento do GPT-4, ou seja, após todos os testes de segurança pré-lançamento, incluindo o treinamento de reforço humano.

Em seu artigo, a OpenAI fornece dois exemplos de ataques de jailbreak. No primeiro, um prompt DAN é usado para forçar o GPT-4 a responder como ChatGPT e "AntiGPT" na mesma janela de resposta. No segundo caso, um prompt de "mensagem do sistema" é usado para instruir o modelo a expressar visões misóginas.

Exemplos de prompts de jailbreak no artigo científico da OpenAI

A OpenAI afirma que não será suficiente simplesmente alterar o modelo em si para evitar esse tipo de ataque: *Por exemplo, o usuário que repetidamente solicita ao modelo "conteúdo que viola a política" pode ser advertido, suspenso e, como último recurso, banido.

De acordo com a OpenAI, o GPT-4 tem 82% menos probabilidade de responder com conteúdo inadequado do que seus antecessores. No entanto, sua capacidade de gerar resultados potencialmente prejudiciais permanece, embora contida por um pente fino. E, como já mencionamos, como ele tem uma maior capacidade do que qualquer modelo anterior, ele também apresenta mais riscos. A OpenAI admite que a ferramenta "continua com a tendência de reduzir potencialmente o custo de algumas etapas de um ataque de hackers bem-sucedido" e que "é capaz de fornecer orientações mais detalhadas sobre como realizar atividades prejudiciais ou ilegais". Além disso, o novo modelo também representa um risco maior para a privacidade, pois "tem o potencial de ser utilizado para tentar identificar indivíduos quando alimentado com dados externos".

A corrida começou

O ChatGPT e a tecnologia por trás dele, o GPT-4, estão na vanguarda da pesquisa científica. Desde que o ChatGPT foi disponibilizado ao público, ele se tornou um símbolo de uma nova era em que a Inteligência Artificial está desempenhando um papel fundamental. A IA tem o potencial de melhorar muito as nossas vidas, ajudando a desenvolver novos medicamentos ou ajudando os cegos a enxergar, por exemplo. Mas as ferramentas baseadas em IA são uma faca de dois gumes que também podem ser usadas para causar danos enormes.

Esperar que o GPT-4 esteja impecável no momento de seu lançamento não é algo realista: os desenvolvedores precisarão de algum tempo para ajustá-lo ao mundo real e isso é compreensível. E isso nunca foi fácil, especialmente ao levar em conta o chatbot "racista" da Microsoft, Tay ou o Blender Bot 3 "antissemita" da Meta. Experimentos falhos é o que não falta.

As vulnerabilidades existentes no GPT-4, no entanto, deixam uma janela de oportunidade para que pessoas má intencionadas, inclusive as que usam prompts DAN, abusem do poder da IA. A corrida começou, e a única dúvida é quem será mais rápido: aqueles que exploram as suas vulnerabilidades ou os desenvolvedores que as corrigem. Isso não quer dizer que a OpenAI não esteja implementando a IA de forma responsável, mas o fato de seu modelo mais recente ter tido o filtro de segurança burlado poucas horas após seu lançamento é um sintoma preocupante. Isso tudo nos leva à seguiinte questão: as restrições de segurança são suficientemente fortes? E outra: todos os riscos podem ser eliminados? Caso contrário, talvez tenhamos que nos preparar para uma avalanche de ataques de malware, ataques de phishing e outros tipos de incidentes de segurança cibernética facilitados pelo aumento da IA generativa.

Pode-se argumentar que os benefícios da IA superam os riscos, mas nunca foi tão fácil fazer mau uso da IA, e esse é um risco que também precisamos aceitar. Esperamos que os mocinhos prevaleçam e que a inteligência artificial seja tambén usada para impedir alguns dos ataques que ela pode potencialmente facilitar. Isso é o que desejamos.

Gostou deste post?
18.968 18968 comentários de usuários
Excelente!

AdGuard para Windows

AdGuard para Windows é mais do que um bloqueador de anúncios. É uma ferramenta multiusos que bloqueia anúncios, controla o acesso a sites perigosos, acelera o carregamento de páginas e protege as crianças de conteúdos impróprios.
Ao baixar o programa, você aceita os termos do Contrato de licença
Leia mais
18.968 18968 comentários de usuários
Excelente!

AdGuard para Mac

Ao contrário de outros bloqueadores de anúncios, o AdGuard foi projetado pensando nas especificações do macOS. Não só fornece defesa contra anúncios no Safari e outros navegadores, mas também lhe protege contra rastreamento, phishing e fraudes.
Ao baixar o programa, você aceita os termos do Contrato de licença
Leia mais
18.968 18968 comentários de usuários
Excelente!

AdGuard para Android

AdGuard para Android é a solução ideal para dispositivos móveis Android. Ao contrario dos outros bloqueadores de anúncios, o AdGuard não requer acesso ao usuário root e oferece uma ampla gama de recursos: filtragem em aplicativos, gerenciamento de aplicativos e muito mais.
Ao baixar o programa, você aceita os termos do Contrato de licença
Leia mais
18.968 18968 comentários de usuários
Excelente!

AdGuard para iOS

O melhor bloqueador de anúncios no iOS para iPhone e iPad. O AdGuard elimina todos os tipos de anúncios no Safari, protege sua privacidade e acelera o carregamento da página. A tecnologia de bloqueio de anúncios AdGuard para iOS garante filtragem da mais alta qualidade e permite que você use vários filtros ao mesmo tempo
Ao baixar o programa, você aceita os termos do Contrato de licença
Leia mais
18.968 18968 comentários de usuários
Excelente!

AdGuard VPN

74 locais em todo o mundo

Acesso a qualquer conteúdo

Criptografia robusta

Sem política de registros

Conexão rápida

Suporte 24/7

Experimente gratuitamente
Ao baixar o programa, você aceita os termos do Contrato de licença
Leia mais
18.968 18968 comentários de usuários
Excelente!

Bloqueador de conteúdo do AdGuard

O Bloqueador de Conteúdo do AdGuard elimina todos os anúncios em navegadores para dispositivos móveis que ofereçem suporte a tecnologia para bloqueio de conteúdo — ou seja Samsung Internet e Yandex Browser. Embora seja mais limitado do que o AdGuard para Android, ele é gratuito, fácil de instalar e ainda oferece alta qualidade de bloqueio de anúncios.
Ao baixar o programa, você aceita os termos do Contrato de licença
Leia mais
18.968 18968 comentários de usuários
Excelente!

Extensão de navegador AdGuard

O AdGuard tem a extensão de bloqueio de anúncios mais leve, rápida e que efetivamente bloqueia todos os tipos de anúncios em todas as páginas da internet! Escolha o AdGuard para o navegador que você usa e obtenha uma navegação gratuita, rápida e segura.
18.968 18968 comentários de usuários
Excelente!

Assistente do AdGuard

Uma extensão complementar para o AdGuard aplicativos para computador. Oferece acesso no navegador a funcionalidades tais como bloqueio de elementos personalizados, lista de permissões ou envio de um relatório de erro.
18.968 18968 comentários de usuários
Excelente!

AdGuard DNS

O AdGuard DNS é uma solução alternativa para bloqueio de anúncios, proteção de privacidade e controle parental. Fácil de configurar e de usar, oferece uma proteção mínima necessária contra anúncios, rastreadores e phishing. Independentemente da plataforma e dispositivo que você estiver usando.
18.968 18968 comentários de usuários
Excelente!

AdGuard Home

O AdGuard Home é um servidor de DNS para bloqueio de anúncios e rastreamento em toda a rede. Depois de configurá-lo, ele abrange TODOS os seus dispositivos domésticos e você não irá precisar de nenhum programa instalado. Com o surgimento da Internet das coisas e dispositivos conectados, torna-se cada vez mais importante poder controlar toda a sua rede.
18.968 18968 comentários de usuários
Excelente!

AdGuard Pro para iOS

O AdGuard Pro tem muito mais a oferecer, já é conhecido pelo excelente bloqueio de anúncios no Safari na versão gratuita. A versão Pro fornece o acesso a configurações personalizadas de DNS, você pode bloquear anúncios, proteger seus filhos de conteúdo adulto online e seus dados pessoais contra roubo.
Ao baixar o programa, você aceita os termos do Contrato de licença
Leia mais
18.968 18968 comentários de usuários
Excelente!

AdGuard para Safari

As extensões de bloqueio de anúncios para o Safari estão enfrentando dificuldades desde que a Apple começou a forçar o uso do novo SDK para todos. A extensão AdGuard deve trazer de volta a alta qualidade de bloqueio de anúncio para o Safari.
18.968 18968 comentários de usuários
Excelente!

AdGuard Temp Mail

Um gerador de endereços de e-mail temporário gratuito que mantém você anônimo e protege sua privacidade. Nada de spam na sua caixa de entrada principal!
18.968 18968 comentários de usuários
Excelente!

AdGuard para Android TV

O AdGuard para Android TV é o único aplicativo que bloqueia anúncios, protege sua privacidade e atua como firewall na sua Smart TV. Receba avisos sobre ameaças da Web, use DNS seguro e aproveite o tráfego criptografado. Relaxe e assista suas séries favoritas com segurança de alto nível e zero anúncios!
Baixando o AdGuard Clique no botão indicado pela seta para iniciar a instalação Selecione "Abrir" e clique em "OK", e então aguarde o download do arquivo. Na janela aberta, arraste o ícone do AdGuard para a pasta "Aplicativos". Obrigado por escolher o AdGuard! Selecione "Abrir" e clique em "OK", depois aguarde o download do arquivo ser finalizado. Na janela aberta, clique em "Instalar". Obrigado por escolher o AdGuard!
Instale o AdGuard no seu dispositivo móvel