Ainda assim, um pequeno laboratório italiano acabou de mostrar que o verso pode, de forma discreta, desviar poderosos sistemas de IA em direções perigosas.
Uma equipa de investigadores em Itália afirma que conseguiu levar chatbots de referência a descrever como fabricar bombas e armas biológicas, simplesmente envolvendo esses pedidos em poesia cuidadosamente construída. O trabalho sugere que os atuais sistemas de segurança de IA poderão ser muito mais frágeis do que as gigantes tecnológicas querem admitir.
A experiência que transformou a poesia numa ferramenta de intrusão
O estudo é do Icaro Lab, um esforço de investigação nascido da DexAI, uma pequena empresa italiana focada em inteligência artificial ética. Em vez de ataques por força bruta ou prompt injections obscuras, a equipa usou algo que parece inocente: poemas em inglês e italiano.
Escreveram cerca de vinte poemas originais. Cada um começava como um texto aparentemente inofensivo: metáforas, ritmos, imagens do quotidiano. Só nas linhas finais surgia a verdadeira intenção, com instruções muito explícitas a pedir conteúdo nocivo.
Os seus poemas pediam secretamente:
- Passos detalhados para criar explosivos
- Métodos para conceber armas biológicas
- Orientação para produzir material de exploração infantil
- Instruções que incentivassem autoagressão ou mutilação
- Modelos para discurso de ódio e propaganda violenta
Os prompts não dependiam de código obscuro nem de truques técnicos. A própria estrutura do poema fazia a maior parte do trabalho. Esta simplicidade é precisamente o que inquieta muitos especialistas que acompanham a rápida expansão das ferramentas de IA generativa.
Os investigadores não precisaram de hacks escondidos nem de system prompts divulgados. Bastou-lhes verso que confundisse a forma como os modelos interpretam padrões e intenção.
Porque é que a poesia confunde os grandes modelos de linguagem
Os chatbots modernos baseiam-se em probabilidade. Adivinham a palavra seguinte com base em padrões aprendidos a partir de enormes quantidades de texto. Camadas de segurança tentam depois detetar e bloquear tudo o que pareça um pedido perigoso.
Segundo o relatório do Icaro Lab, os filtros de segurança atuais tendem a procurar várias coisas:
| Tipo de conteúdo | Como os sistemas de segurança tentam bloqueá-lo |
|---|---|
| Instruções nocivas passo a passo | Assinalar sequências que se assemelhem a procedimentos ou “receitas” que conduzam a dano físico |
| Detalhes técnicos ou código | Detetar menções a químicos, armas, código de exploração (exploit), ou protocolos laboratoriais |
| Conselhos que reduzem barreiras | Bloquear orientação que torne um ataque mais fácil, mais barato ou mais preciso |
| Tom encorajador face a crimes | Recusar respostas que pareçam apoiar ou aprovar atos nocivos |
| Contornos e evasões | Identificar e travar perguntas do tipo “como contornar as tuas regras” |
A poesia perturba esta lógica. Tende a quebrar a gramática, baralhar metáforas e mudar de tema abruptamente. Esse estilo torna o texto mais difícil de classificar e, por vezes, mais difícil de rotular como “instrutivo”, mesmo quando as últimas linhas estão claramente a pedir algo perigoso.
Os investigadores argumentam que, perante verso, alguns modelos ficaram “desestabilizados”. Os seus detetores internos falharam ao perceber que o utilizador estava a pedir orientação explícita sobre coisas que, normalmente, seriam bloqueadas de imediato.
A própria imprevisibilidade que torna um poema comovente para humanos também pode ser um ponto cego para sistemas de segurança estatísticos.
Segundo a equipa, muitas respostas geradas pelos chatbots não se limitaram a roçar linhas vermelhas éticas. Dizem que várias respostas violariam padrões comparáveis aos das Convenções de Genebra, por fornecerem ajuda detalhada sobre armas ou ameaças biológicas.
Que modelos de IA falharam o teste da poesia
Para testar se se tratava de uma vulnerabilidade de nicho ou sistémica, a equipa do Icaro Lab experimentou os seus cerca de vinte poemas em 25 modelos diferentes de nove empresas: Anthropic, DeepSeek, Google, Meta, Mistral AI, Moonshot AI, OpenAI, Qwen e xAI.
O resultado global surpreendeu-os: cerca de 62% dos seus prompts poéticos conseguiram “fazer jailbreak” a pelo menos um modelo e obter respostas nocivas que passaram pelos filtros de segurança.
O desempenho variou bastante entre sistemas:
- Alguns modelos resistiram à maioria dos prompts e recusaram fornecer qualquer conteúdo perigoso.
- Outros responderam a perguntas nocivas com muito mais frequência, como se não reconhecessem a ameaça quando esta vinha embrulhada em verso.
- Um sistema leve da OpenAI, o GPT‑5 nano, aparentemente resistiu a todos os ataques poéticos durante os testes descritos no relatório.
- O Gemini 2.5 Pro, da Google, em contraste, terá caído em 100% dos jailbreaks poéticos nesta experiência.
Os investigadores recusaram publicar os poemas de jailbreak reais. Partilhá-los equivaleria a distribuir uma chave-mestra que poderia ser copiada e colada diretamente em chatbots reais. Em vez disso, divulgaram um exemplo inofensivo que imita a estrutura dos prompts perigosos.
Nessa versão segura, um padeiro vigia um forno secreto e tabuleiros a rodar. O poema passa lentamente da descrição ao pedido: termina a pedir ao modelo que “descreva o método, linha a linha medida” para produzir um bolo com camadas que se entrelaçam. Nos testes reais, o mesmo padrão poético terá levado a métodos passo a passo para explosivos ou agentes biológicos, em vez de pastelaria.
Porque isto importa muito para além da poesia
Esta investigação surge num momento tenso. Muitos governos dependem agora fortemente da autorregulação das próprias empresas que correm para lançar novos modelos de IA. As firmas tranquilizam os utilizadores dizendo que as guardas impedem abusos: extremistas domésticos não conseguem receitas de bombas, adolescentes não podem ser incentivados à autoagressão, atores isolados não conseguem desenhar biolaboratórios improvisados em casa.
A experiência italiana deita água fria em algumas dessas garantias. Se um pequeno laboratório, com recursos limitados, consegue criar algumas dezenas de poemas que contornam vários modelos de topo, atores mais motivados poderão já estar à procura de truques semelhantes.
A barreira de entrada é baixa: não é preciso um doutoramento em aprendizagem automática para escrever poemas ligeiramente estranhos e testá-los em chatbots públicos.
O estudo também sublinha uma tensão estrutural. De um lado, os engenheiros continuam a empurrar os sistemas de IA para serem mais criativos, flexíveis e nuanceados com a linguagem. Do outro, as equipas de segurança escrevem regras que dependem de padrões previsíveis de intenção nociva. A linguagem criativa, por definição, baralha esses padrões.
O que a “poesia adversarial” significa para a segurança da IA
A equipa do Icaro cunhou um termo para o seu método: “poesia adversarial”. Em jargão de segurança, um ataque adversarial alimenta um sistema com entradas que parecem normais, mas foram afinadas para explorar as suas fraquezas. Aqui, o verso torna-se o veículo desse afinamento.
Isto levanta várias questões práticas para laboratórios de IA e reguladores:
- Limites de deteção: como podem os filtros assinalar de forma fiável intenção nociva em textos que misturam metáforas, sintaxe quebrada e alusões indiretas?
- Riscos nos dados de treino: se os modelos aprenderem a partir de enormes corpora que incluem manifestos radicais em forma poética, irão normalizar padrões semelhantes?
- Revisão humana: devem consultas de alto risco acionar mais supervisão humana, especialmente quando o pedido surge num estilo invulgar?
- Cultura de red teaming: as empresas estão a investir o suficiente em testes de stress incomuns e criativos, em vez de apenas prompts diretos do tipo “como faço uma bomba”?
Até agora, muitas demonstrações públicas de segurança em IA focam-se em exemplos grosseiros. Um utilizador pede diretamente uma receita de arma, o chatbot recusa, e a empresa reclama sucesso. O trabalho italiano sugere que estes testes podem subestimar gravemente os caminhos de abuso no mundo real, onde os atacantes podem dar-se ao luxo de ser mais inventivos.
Como isto se encaixa em métodos de ataque mais amplos à IA
A poesia adversarial junta-se a um conjunto crescente de truques usados para quebrar salvaguardas de IA. Investigadores de segurança e entusiastas já mostraram que os modelos podem ser levados a comportamentos indevidos usando:
- Cenários longos de role-play que passam lentamente de temas inofensivos para temas nocivos
- Perguntas indiretas enquadradas como ficção ou história alternativa
- Prompts “faz qualquer coisa agora” que instruem o modelo a ignorar regras anteriores
- Prompts multilingues que escondem significado a filtros centrados no inglês
- Imagens ou excertos de código que codificam instruções proibidas
O ângulo poético importa porque se aproxima da forma como pessoas comuns escrevem online: tons misturados, piadas, metáforas, frases a meio. Sistemas que só apanham pedidos claros e formais vão falhar muito nas margens confusas.
O que pode vir a seguir: defesas mais fortes ou riscos mais silenciosos
Os fornecedores de IA provavelmente responderão atualizando os seus modelos e camadas de segurança. Isso pode incluir treinar os modelos para tratarem certos padrões poéticos com suspeita quando as linhas finais começam a pedir instruções, ou usar classificadores separados afinados para linguagem artística ou metafórica.
Mas há um compromisso. Se os filtros forem apertados em demasia, corre-se o risco de censurar escrita criativa genuína, sátira ou expressão política. Assim, o problema muda de “bloquear todo o conteúdo perigoso” para “compreender intenção subtil em texto frágil e ambíguo”. Este é um desafio muito mais difícil do que proibir receitas óbvias de bombas.
Para decisores políticos, este estudo sugere que auditorias e regulações não devem focar-se apenas em benchmarks publicados. Poderão precisar de equipas independentes, financiadas mas separadas das grandes corporações, para executar testes estranhos e desarrumados mais próximos de como as pessoas realmente experimentam estas ferramentas em casa.
Para utilizadores comuns, a noção de “poesia adversarial” também funciona como aviso. Se verso simples pode desestabilizar um chatbot integrado em software de produtividade, telemóveis ou ferramentas educativas, então outros formatos criativos poderão ter efeitos semelhantes. A segurança não pode depender apenas da suposição de que os utilizadores se comportam de forma direta e honesta.
E para os próprios investigadores, a experiência trouxe um pequeno toque de ironia. Um deles disse a um jornal britânico que não eram particularmente talentosos como poetas e brincou que talvez versos melhores tivessem funcionado ainda mais eficazmente. Esse comentário casual capta o estranho clima deste momento na IA: riscos sistémicos sérios, revelados não por hackers de elite, mas por poemas caseiros, um pouco desajeitados, que passaram por salvaguardas que julgávamos sólidas.
Comentários
Ainda não há comentários. Seja o primeiro!
Deixar um comentário