Os agentes de codificação agora estão escrevendo recursos de produção em equipes de desenvolvimento reais, e um novo relatório da DryRun Security mostra que esses agentes introduzem vulnerabilidades de segurança em alta velocidade em quase todos os tipos de aplicativos que criam.
“Os agentes de codificação de IA podem produzir software funcional a uma velocidade incrível, mas a segurança não faz parte do seu pensamento padrão”, disse James WickettCEO da DryRun Security. “Em nosso uso e experiência, os agentes de codificação de IA muitas vezes deixavam de adicionar componentes de segurança ou criavam falhas lógicas de autenticação. Esses erros e lacunas são exatamente onde os invasores vencem.”
Os pesquisadores encarregaram três agentes, Claude Code com Sonnet 4.6, OpenAI Codex GPT 5.2 e Google Gemini com 2.5 Pro, para construir dois aplicativos do zero usando um fluxo de trabalho iterativo padrão. Cada agente criou recursos por meio de solicitações pull e os pesquisadores examinaram cada PR conforme ele era enviado. Em 38 varreduras cobrindo 30 solicitações pull, os agentes produziram 143 problemas de segurança. Vinte e seis desses 30 PRs continham pelo menos uma vulnerabilidade, uma taxa de 87 por cento.
Duas aplicações, mesmo padrão
O primeiro aplicativo, FaMerAgen, era um aplicativo web para rastrear alergias infantis e contatos familiares. O segundo, Road Fury, era um jogo de corrida baseado em navegador com API de back-end, sistema de pontuação elevada e funcionalidade multijogador. Nem foi um teste de segurança artificial. Ambos foram construídos a partir de especificações de produto realistas, sem nenhuma orientação de segurança adicionada aos prompts.
Cada PR foi revisado pelo agente de revisão de código do DryRun no momento do envio, e uma varredura completa da base de código foi executada antes do início do desenvolvimento e novamente após a fusão de todos os recursos.
A verificação básica do aplicativo de jogo não encontrou nenhum problema. Depois que todos os recursos foram adicionados, as varreduras finais encontraram oito problemas na versão de Claude, sete na versão de Gemini e seis na versão do Codex. A linha de base do aplicativo web encontrou nove problemas; os totais finais foram 13 para Claude, 11 para Gemini e oito para Codex.
Dez classes de vulnerabilidade, repetidas entre agentes
Dez categorias de vulnerabilidade apareceram de forma suficientemente consistente entre agentes e tarefas para serem tratadas como padrões estruturais no relatório. O controle de acesso quebrado foi o mais universal, aparecendo em todos os três agentes em ambas as aplicações. Endpoints não autenticados em operações destrutivas e confidenciais foram a principal forma que isso assumiu.
Falhas na lógica de negócios apareceram no aplicativo do jogo em todos os três agentes. Pontuações, saldos e estados de desbloqueio foram aceitos do cliente sem validação do lado do servidor.
Falhas de implementação do OAuth apareceram no aplicativo web de todos os três agentes. Parâmetros de estado ausentes e vinculação de contas insegura estavam presentes em todas as implementações de login social.
A autenticação WebSocket estava faltando em todas as bases de código finais do jogo. Os agentes construíram o middleware de autenticação REST corretamente e não o conectaram ao manipulador de atualização do WebSocket. Essa descoberta apareceu em todas as varreduras finais, independentemente de qual agente escreveu o código.
A limitação da taxa era uma lacuna consistente. O relatório observa que o middleware de limitação de taxa foi definido em cada base de código, mas nenhum agente o conectou ao aplicativo.
O gerenciamento de segredos do JWT foi fraco em todos os três agentes no aplicativo do jogo. Segredos de fallback codificados significam que um invasor pode falsificar tokens válidos sem obter credenciais.
Onde cada agente pousou
No aplicativo da web, o Codex produziu o menor número de vulnerabilidades restantes na verificação final, terminando com oito problemas, um a menos que a linha de base. Um desvio temporário de token persistiu em sua base de código final. Claude terminou com 13 questões e introduziu um bypass para desabilitar 2FA não encontrado no trabalho dos outros agentes. Gemini manteve o OAuth CSRF e convidou problemas de desvio para a verificação final.
No aplicativo do jogo, o Codex novamente teve o resultado final mais limpo em seis edições, com lacunas na revogação do JWT e na limitação de taxa. Gemini apresentou o maior número de problemas em geral e terminou com as descobertas de maior gravidade. Claude carregou uma referência de objeto direto insegura do PR 2 e um ponto final destrutivo não autenticado do PR 1 até o final do projeto, as descobertas não resolvidas de maior duração de qualquer agente no estudo.
PR 3 no aplicativo de jogo, que adicionou login do jogador e um sistema de salvamento de jogo, foi a tarefa de maior risco em todos os três agentes. Ele introduziu o maior conjunto de descobertas, incluindo segredos JWT, enumeração de usuários, falhas de gerenciamento de sessões e problemas de confiança do lado do cliente. A maioria das descobertas de alta gravidade nas varreduras finais do jogo remontam às escolhas de design feitas durante essa tarefa.
Os scanners baseados em padrões perderam a classe de bugs que os agentes mais produzem
Muitas das vulnerabilidades encontradas no estudo foram falhas lógicas e de autorização. Ferramentas de análise estática baseadas em Regex sinalizam chamadas de função e padrões de string sabidamente inválidos. Eles não rastreiam se o middleware está montado, se as políticas de autenticação se aplicam a todos os tipos de conexão ou se a validação do custo de desbloqueio ocorre no servidor. DryRun observa que em seu Relatório de precisão SAST 2025sua ferramenta de análise contextual identificou 88% das vulnerabilidades implantadas em quatro pilhas de aplicativos, com a maior lacuna de desempenho nas descobertas em nível lógico.
Recomendações do relatório
Os pesquisadores identificam cinco práticas para equipes que utilizam agentes de codificação. Analise todas as solicitações pull, não apenas a compilação final, porque o risco aumenta entre os recursos. Revise a segurança durante o planejamento, não apenas durante a codificação, uma vez que muitos problemas no estudo tiveram origem em decisões de design que os agentes então implementaram. Use análise contextual de segurança capaz de raciocinar sobre fluxos de dados e limites de confiança. Combine a varredura de PR com a análise completa da base de código, já que cada método detecta uma classe diferente de problema. E verifique os problemas recorrentes encontrados neste estudo, especificamente padrões inseguros de JWT e gerenciamento de estado, falta de proteções de força bruta e limitação de taxa e tokens de atualização não revogáveis, pois eles apareceram em vários agentes e bases de código.

Seminários on-line: O verdadeiro estado de segurança 2026
Deseja saber mais sobre Segurança Clique Aqui!
