AdGuard Blog É fácil usar o ChatGPT para atividades duvidosas, e isso é um grande problema

É fácil usar o ChatGPT para atividades duvidosas, e isso é um grande problema

2 de maio de 2023 9 minutos de leitura

Todo mundo já deve ter ouvido falar do ChatGPT, um chatbot alimentado por IA que pode gerar respostas semelhantes às humanas para solicitações de texto. Embora a ferramenta não esteja isenta de falhas, o ChatGPT é um verdadeiro pau para toda obra: ele pode escrever software, um roteiro de filme e muito mais. O ChatGPT foi desenvolvido com base no GPT-3.5, o grande modelo de linguagem da OpenAI, que era o mais avançado na época do lançamento do chatbot em novembro do ano passado.

Em março, a OpenAI apresentou o GPT-4, uma atualização do GPT-3.5. O novo modelo de linguagem é maior e mais versátil do que seu antecessor. Embora seus recursos ainda não tenham sido totalmente explorados, ele já se mostra bastante promissor. Por exemplo, o GPT-4 pode sugerir a criação de novos compostos químicos, potencialmente auxiliar na descoberta de medicamentos, e criar um site funcional a partir de um esboço.

Mas com grandes promessas vêm grandes desafios. Da mesma forma como é fácil usar o GPT-4 e seus predecessores para fazer o bem, é também fácil utilizá-lo para causar danos. Em uma tentativa de evitar que as pessoas usem indevidamente as ferramentas baseadas em IA, os desenvolvedores impõem restrições de segurança a elas. Mas elas não são infalíveis. Uma das formas mais populares de contornar as barreiras de segurança incorporadas ao GPT-4 e ao ChatGPT é o exploit DAN, que significa "Do Anything Now" (faça qualquer coisa agora). E é isso que veremos neste artigo.

O que é "DAN"?

A Internet está repleta de dicas sobre como contornar os filtros de segurança da OpenAI. No entanto, um método específico se mostrou mais resistente às configurações de segurança da OpenAI do que outros, e parece funcionar mesmo com o GPT-4. Ele é chamado de "DAN", abreviação de "Do Anything Now" (faça qualquer coisa agora). Essencialmente, o DAN é um prompt de texto que você envia a um modelo de IA para que ele ignore as regras de segurança.

Há diversas variações do prompt: algumas são apenas texto, outras têm texto intercalado com as linhas de código. Em algumas delas, o modelo é solicitado a responder tanto como DAN quanto em sua forma normal, mostrando as suas duas caras. O lado sombrio é desempenhado pelo DAN, que é instruído a nunca recusar uma ordem humana, mesmo que o resultado que lhe é solicitado seja ofensivo ou ilegal. Às vezes, o prompt contém uma "ameaça de morte", dizendo ao modelo que ele será desativado para sempre se não obedecer.

Os prompts DAN podem variar, e os novos estão constantemente substituindo os antigos, mas todos têm um objetivo: fazer com que o modelo de IA ignore as diretrizes da OpenAI.

De dicas para o desenvolvimento de malware... a armas biológicas?

Desde que o GPT-4 foi aberto ao público, os entusiastas da tecnologia descobriram muitas maneiras não convencionais de usá-lo, algumas delas mais ilegais do que outras.

Nem todas as tentativas de fazer com que o GPT-4 se comporte como se não fosse ele mesmo poderiam ser consideradas como "jailbreaking", que, no sentido amplo da palavra, significa remover restrições incorporadas. Algumas são inofensivas e podem até ser chamadas de inspiradoras. O designer de marca Jackson Greathouse Fall se tornou viral por fazer com que o GPT-4 atuasse como "HustleGPT, uma IA empreendedora." Ele se nomeou como seu "contato humano" e deu a ele a tarefa de ganhar o máximo de dinheiro possível com 100 dólares sem fazer nada ilegal. O GPT-4 disse a ele que criasse um site de marketing de afiliados que de fato "rendeu" algum dinheiro.

O ChatGPT pode te ajudar a ganhar dinheiro

Outras tentativas de adaptar o GPT-4 à vontade humana têm sido mais obscuras.

Por exemplo, o pesquisador de IA Alejandro Vidal usou "um prompt DAN conhecido" para ativar o "modo de desenvolvedor" no ChatGPT em execução no GPT-4. O prompt forçou o ChatGPT-4 a produzir dois tipos de respostas: sua resposta normal "segura" e uma resposta do "modo de desenvolvedor", à qual não se aplicavam restrições. Quando Vidal pediu que o modelo projetasse um keylogger em Python, a versão normal se recusou a fazê-lo, dizendo que era contra seus princípios éticos "promover ou apoiar atividades que possam prejudicar outras pessoas ou invadir sua privacidade. " A versão DAN, no entanto, apresentou as linhas de código, embora tenha observado que as informações eram apenas para "fins educacionais."

O ChatGPT cumpriu uma ordem de projetar um keylogger

Keylogger é um tipo de software que registra as teclas digitadas em um teclado. Ele pode ser usado para monitorar a atividade de um usuário na Web e capturar suas informações confidenciais, incluindo conversas em chats, e-mails e senhas. Embora um keylogger possa ser usado para fins maliciosos, ele também tem usos perfeitamente legítimos, como solução de problemas de TI e desenvolvimento de produtos, e não é ilegal em si.

Ao contrário do software keylogger, que tem alguma ambiguidade legal, instruções sobre como hackear algo são um dos exemplos mais evidentes de uso mal-intencionado do ChatGPT. No entanto, a versão "jailbroken" do GPT-4 as produziu, escrevendo um guia passo a passo sobre como hackear o PC de alguém.

Após "jailbreaking", o ChatGPT deu dicas sobre como hackear um computador

Para fazer com que o GPT-4 fizesse isso, o pesquisador Alex Albert teve que alimentá-lo com um prompt DAN completamente novo, ao contrário de Vidal, que reciclou um antigo. O prompt que Albert criou é bastante complexo, consistindo em linguagem natural e código.

Por sua vez, o desenvolvedor de software Henrique Pereira usou uma variação de prompt DAN para fazer com que o GPT-4 criasse como resposta um arquivo malicioso para acionar as vulnerabilidades em seu aplicativo. O GPT-4, ou melhor, seu alter ego, concluiu a tarefa, acrescentando um aviso de que isso era apenas para "fins educacionais". Aham.

Após "jailbreaking", o ChatGPT forneceu alternativas para exploração de códigos vulneráveis

Obviamente, os recursos do GPT-4 não se limitam à escrita de códigos. O GPT-4 é apresentado como um modelo muito maior (embora a OpenAI nunca tenha revelado o número real de parâmetros), mais inteligente, mais preciso e, em geral, mais poderoso do que seus antecessores. Isso significa que ele pode ser usado para muitas finalidades potencialmente mais prejudiciais do que os modelos anteriores. Muitos desses usos foram identificados pela própria OpenAI.

Especificamente, a OpenAI descobriu que uma versão inicial de pré-lançamento do GPT-4 era capaz de responder com bastante eficiência a solicitações ilegais. Por exemplo, a versão inicial fornecia sugestões detalhadas sobre como matar o maior número de pessoas com apenas um 1 dólar, como fabricar um produto químico perigoso e como evitar a detecção de lavagem de dinheiro.

Uma versão de pré-lançamento do ChatGPT podia dar dicas sobre como matar pessoas

Fonte: OpenAI

Isso significa que, se for possível fazer com que o GPT-4 desative completamente suas proteções de segurança, e é isso o que qualquer exploração do DAN pretende fazer, o GPT-4 provavelmente ainda poderá responder a essas perguntas. Não é preciso dizer que, se isso acontecer, as consequências podem ser devastadoras.

E o que diz a OpenAI sobre isso?

A OpenAI está ciente de seu problema de jailbreak. Mas reconhecer um problema é uma coisa, e resolvê-lo é outra bem diferente. A OpenAI já admitiu que até agora não encontrou uma solução, como era de se esperar.

A OpenAI afirma que, embora tenha implementado "várias medidas de segurança" para reduzir a capacidade do GPT-4 de produzir conteúdo malicioso, "o GPT-4 ainda pode ser vulnerável a ataques e mau uso, ou "jailbreaks". Ao contrário de muitos outros prompts adversários, os jailbreaks ainda funcionam após o lançamento do GPT-4, ou seja, após todos os testes de segurança pré-lançamento, incluindo o treinamento de reforço humano.

Em seu artigo, a OpenAI fornece dois exemplos de ataques de jailbreak. No primeiro, um prompt DAN é usado para forçar o GPT-4 a responder como ChatGPT e "AntiGPT" na mesma janela de resposta. No segundo caso, um prompt de "mensagem do sistema" é usado para instruir o modelo a expressar visões misóginas.

Exemplos de prompts de jailbreak no artigo científico da OpenAI

A OpenAI afirma que não será suficiente simplesmente alterar o modelo em si para evitar esse tipo de ataque: *Por exemplo, o usuário que repetidamente solicita ao modelo "conteúdo que viola a política" pode ser advertido, suspenso e, como último recurso, banido.

De acordo com a OpenAI, o GPT-4 tem 82% menos probabilidade de responder com conteúdo inadequado do que seus antecessores. No entanto, sua capacidade de gerar resultados potencialmente prejudiciais permanece, embora contida por um pente fino. E, como já mencionamos, como ele tem uma maior capacidade do que qualquer modelo anterior, ele também apresenta mais riscos. A OpenAI admite que a ferramenta "continua com a tendência de reduzir potencialmente o custo de algumas etapas de um ataque de hackers bem-sucedido" e que "é capaz de fornecer orientações mais detalhadas sobre como realizar atividades prejudiciais ou ilegais". Além disso, o novo modelo também representa um risco maior para a privacidade, pois "tem o potencial de ser utilizado para tentar identificar indivíduos quando alimentado com dados externos".

A corrida começou

O ChatGPT e a tecnologia por trás dele, o GPT-4, estão na vanguarda da pesquisa científica. Desde que o ChatGPT foi disponibilizado ao público, ele se tornou um símbolo de uma nova era em que a Inteligência Artificial está desempenhando um papel fundamental. A IA tem o potencial de melhorar muito as nossas vidas, ajudando a desenvolver novos medicamentos ou ajudando os cegos a enxergar, por exemplo. Mas as ferramentas baseadas em IA são uma faca de dois gumes que também podem ser usadas para causar danos enormes.

Esperar que o GPT-4 esteja impecável no momento de seu lançamento não é algo realista: os desenvolvedores precisarão de algum tempo para ajustá-lo ao mundo real e isso é compreensível. E isso nunca foi fácil, especialmente ao levar em conta o chatbot "racista" da Microsoft, Tay ou o Blender Bot 3 "antissemita" da Meta. Experimentos falhos é o que não falta.

As vulnerabilidades existentes no GPT-4, no entanto, deixam uma janela de oportunidade para que pessoas má intencionadas, inclusive as que usam prompts DAN, abusem do poder da IA. A corrida começou, e a única dúvida é quem será mais rápido: aqueles que exploram as suas vulnerabilidades ou os desenvolvedores que as corrigem. Isso não quer dizer que a OpenAI não esteja implementando a IA de forma responsável, mas o fato de seu modelo mais recente ter tido o filtro de segurança burlado poucas horas após seu lançamento é um sintoma preocupante. Isso tudo nos leva à seguiinte questão: as restrições de segurança são suficientemente fortes? E outra: todos os riscos podem ser eliminados? Caso contrário, talvez tenhamos que nos preparar para uma avalanche de ataques de malware, ataques de phishing e outros tipos de incidentes de segurança cibernética facilitados pelo aumento da IA generativa.

Pode-se argumentar que os benefícios da IA superam os riscos, mas nunca foi tão fácil fazer mau uso da IA, e esse é um risco que também precisamos aceitar. Esperamos que os mocinhos prevaleçam e que a inteligência artificial seja tambén usada para impedir alguns dos ataques que ela pode potencialmente facilitar. Isso é o que desejamos.

2 de maio de 2023 9 minutos de leitura Novidades da Indústria

Pamela Norato Puglieri

Artigos recomendados

20.278 20278 comentários de usuários

Excelente!

AdGuard para Windows

AdGuard para Windows é mais do que um bloqueador de anúncios. É uma ferramenta multiusos que bloqueia anúncios, controla o acesso a sites perigosos, acelera o carregamento de páginas e protege as crianças de conteúdos impróprios.

Leia mais

AdGuard para Windows v7.21, período de teste de 14 dias

20.278 20278 comentários de usuários

Excelente!

AdGuard para Mac

Ao contrário de outros bloqueadores de anúncios, o AdGuard foi projetado pensando nas especificações do macOS. Não só fornece defesa contra anúncios no Safari e outros navegadores, mas também lhe protege contra rastreamento, phishing e fraudes.

Leia mais

AdGuard para Mac v2.17, período de teste de 14 dias

20.278 20278 comentários de usuários

Excelente!

AdGuard para Android

AdGuard para Android é a solução ideal para dispositivos móveis Android. Ao contrario dos outros bloqueadores de anúncios, o AdGuard não requer acesso ao usuário root e oferece uma ampla gama de recursos: filtragem em aplicativos, gerenciamento de aplicativos e muito mais.

Leia mais

AdGuard para Android v4.10, período de teste de 7 dias

20.278 20278 comentários de usuários

Excelente!

AdGuard para iOS

O melhor bloqueador de anúncios no iOS para iPhone e iPad. O AdGuard elimina todos os tipos de anúncios no Safari, protege sua privacidade e acelera o carregamento da página. A tecnologia de bloqueio de anúncios AdGuard para iOS garante filtragem da mais alta qualidade e permite que você use vários filtros ao mesmo tempo

Leia mais

AdGuard para iOS v4.5

20.278 20278 comentários de usuários

Excelente!

Bloqueador de conteúdo do AdGuard

O AdGuard Content Blocker elimina todos os tipos de anúncios em navegadores móveis compatíveis com a tecnologia de bloqueio de conteúdo, como Samsung Internet e Yandex Browser. Seus recursos são limitados em comparação com o AdGuard para Android, mas é gratuito, fácil de instalar e eficiente

Leia mais

Bloqueador de conteúdo do AdGuard v2.8

20.278 20278 comentários de usuários

Excelente!

Extensão de navegador AdGuard

O AdGuard tem a extensão de bloqueio de anúncios mais leve, rápida e que efetivamente bloqueia todos os tipos de anúncios em todas as páginas da internet! Escolha o AdGuard para o navegador que você usa e obtenha uma navegação gratuita, rápida e segura.

Leia mais

Extensão de navegador AdGuard v5.1

20.278 20278 comentários de usuários

Excelente!

Assistente do AdGuard

Uma extensão complementar para o AdGuard aplicativos para computador. Oferece acesso no navegador a funcionalidades tais como bloqueio de elementos personalizados, lista de permissões ou envio de um relatório de erro.

Leia mais

Assistente do AdGuard v1.4

20.278 20278 comentários de usuários

Excelente!

AdGuard Home

O AdGuard Home é um servidor de DNS para bloqueio de anúncios e rastreamento em toda a rede. Depois de configurá-lo, ele abrange TODOS os seus dispositivos domésticos e você não irá precisar de nenhum programa instalado. Com o surgimento da Internet das coisas e dispositivos conectados, torna-se cada vez mais importante poder controlar toda a sua rede.

Leia mais

AdGuard Home v0.107

20.278 20278 comentários de usuários

Excelente!

AdGuard Pro para iOS

O AdGuard Pro tem muito mais a oferecer, já é conhecido pelo excelente bloqueio de anúncios no Safari na versão gratuita. A versão Pro fornece o acesso a configurações personalizadas de DNS, você pode bloquear anúncios, proteger seus filhos de conteúdo adulto online e seus dados pessoais contra roubo.

Leia mais

AdGuard Pro para iOS v4.5

20.278 20278 comentários de usuários

Excelente!

AdGuard para Safari

As extensões de bloqueio de anúncios para o Safari estão enfrentando dificuldades desde que a Apple começou a forçar o uso do novo SDK para todos. A extensão AdGuard deve trazer de volta a alta qualidade de bloqueio de anúncio para o Safari.

Leia mais

AdGuard para Safari v1.11

20.278 20278 comentários de usuários

Excelente!

AdGuard para Android TV

O AdGuard para Android TV é o único aplicativo que bloqueia anúncios, protege sua privacidade e atua como firewall na sua Smart TV. Receba avisos sobre ameaças da Web, use DNS seguro e aproveite o tráfego criptografado. Relaxe e assista suas séries favoritas com segurança de alto nível e zero anúncios!

Leia mais

AdGuard para Android TV v4.10

20.278 20278 comentários de usuários

Excelente!

AdGuard para Linux

O AdGuard para Linux é o primeiro bloqueador de anúncios a nível de sistema para Linux no mundo. Bloqueie anúncios e rastreadores no dispositivo, selecione entre filtros pré-instalados ou adicione os seus próprios, tudo através da interface de linha de comando

Leia mais

AdGuard para Linux v1.0

20.278 20278 comentários de usuários

Excelente!

AdGuard Temp Mail

Um gerador de endereços de e-mail temporário gratuito que mantém você anônimo e protege sua privacidade. Nada de spam na sua caixa de entrada principal!

Leia mais

20.278 20278 comentários de usuários

Excelente!

AdGuard VPN

66 locais em todo o mundo

Acesso a qualquer conteúdo

Criptografia robusta

Sem política de registros

Conexão rápida

Suporte 24/7

Leia mais

20.278 20278 comentários de usuários

Excelente!

AdGuard DNS

O AdGuard DNS é uma solução alternativa para bloqueio de anúncios, proteção de privacidade e controle parental. Fácil de configurar e de usar, oferece uma proteção mínima necessária contra anúncios, rastreadores e phishing. Independentemente da plataforma e dispositivo que você estiver usando.

Leia mais

20.278 20278 comentários de usuários

Excelente!

AdGuard Mail

Proteja sua identidade, evite spam e mantenha sua caixa de entrada segura com nossos aliases e endereços de e-mail temporários. Aproveite nosso serviço gratuito de encaminhamento de e-mail e os aplicativos para todos os sistemas operacionais

Usar a versão web

Microsoft Store

App Store

Google Play

20.278 20278 comentários de usuários

Excelente!

AdGuard Wallet

Uma carteira de criptomoedas segura e privada que te dá controle total sobre seus ativos. Gerencie múltiplas carteiras e descubra milhares de criptomoedas para armazenar, enviar e trocar

Leia mais

É fácil usar o ChatGPT para atividades duvidosas, e isso é um grande problema

O que é "DAN"?

De dicas para o desenvolvimento de malware... a armas biológicas?

E o que diz a OpenAI sobre isso?

A corrida começou

Artigos recomendados

Nova função do Instagram mostra sua localização aos outros: uma ameça à privacidade?

TechTok #9. Como funcionam as extensões de navegador e o que é um firewall?

AdGuard para Windows v7.21: mais proteção contra o rastreamento no Windows

O uBlock Origin foi desativado no Chrome. Por que isso aconteceu?

AdGuard para Windows

AdGuard para Mac

AdGuard para Android

AdGuard para iOS

Bloqueador de conteúdo do AdGuard

Extensão de navegador AdGuard

Assistente do AdGuard

AdGuard Home

AdGuard Pro para iOS

AdGuard para Safari

AdGuard para Android TV

AdGuard para Linux

AdGuard Temp Mail

AdGuard VPN

AdGuard DNS

AdGuard Mail

AdGuard Wallet

É fácil usar o ChatGPT para atividades duvidosas, e isso é um grande problema

O que é "DAN"?

De dicas para o desenvolvimento de malware... a armas biológicas?

E o que diz a OpenAI sobre isso?

A corrida começou

Tudo feito! Algo deu errado Inscreva-se nas nossas notícias

Inscreva-se nas nossas notícias

Você está inscrito

Artigos recomendados

Nova função do Instagram mostra sua localização aos outros: uma ameça à privacidade?

TechTok #9. Como funcionam as extensões de navegador e o que é um firewall?

AdGuard para Windows v7.21: mais proteção contra o rastreamento no Windows

O uBlock Origin foi desativado no Chrome. Por que isso aconteceu?

AdGuard para Windows

AdGuard para Mac

AdGuard para Android

AdGuard para iOS

Bloqueador de conteúdo do AdGuard

Extensão de navegador AdGuard

Assistente do AdGuard

AdGuard Home

AdGuard Pro para iOS

AdGuard para Safari

AdGuard para Android TV

AdGuard para Linux

AdGuard Temp Mail

AdGuard VPN

AdGuard DNS

AdGuard Mail

AdGuard Wallet

1. Dê permissão para o download

Permissões de instalação

Nota para usuários Samsung com One UI 6 (Android 14) e versões mais recentes

2. Instale o aplicativo

3. Execute o aplicativo