Google DeepMind apresenta Aletheia: o agente de IA que passa de competições matemáticas para descobertas de pesquisa profissional totalmente autônomas

A equipe do Google DeepMind apresentou Aletheiaum agente especializado em IA projetado para preencher a lacuna entre a matemática de nível competitivo e a pesquisa profissional. Embora os modelos tenham alcançado padrões de medalha de ouro na Olimpíada Internacional de Matemática (IMO) de 2025, a pesquisa exige navegar por uma vasta literatura e construir provas de longo horizonte. Aletheia resolve isso gerando, verificando e revisando soluções iterativamente em linguagem natural.

https://github.com/google-deepmind/superhuman/blob/main/aletheia/Aletheia.pdf

A Arquitetura: Loop Agente

Aletheia é alimentado por uma versão avançada do Gêmeos Pensamento Profundo. Ele utiliza um ‘arnês agente’ de três partes para melhorar a confiabilidade:

  • Gerador: Propõe uma solução candidata para um problema de pesquisa.
  • Verificador: Um mecanismo informal de linguagem natural que verifica falhas ou alucinações.
  • Análise: Corrige erros identificados pelo Verificador até que um resultado final seja aprovado.

Esta separação de funções é crítica; os pesquisadores observaram que separar explicitamente a verificação ajuda o modelo a reconhecer falhas que inicialmente ignora durante a geração.

Principais descobertas técnicas

O desenvolvimento do Aletheia revelou vários insights sobre como a IA lida com raciocínios complexos:

  • Escala de tempo de inferência: Permitir que o modelo tenha mais computação no momento de uma consulta (‘pensando mais’) aumenta significativamente a precisão. A versão de janeiro de 2026 do Deep Think reduziu a computação necessária para problemas de nível IMO em 100x em comparação com a versão 2025.
  • Desempenho: Aletheia alcançou um 95,1% precisão no IMO-Proof Bench Advanced, um grande salto em relação ao recorde anterior de 65,7%. Também demonstrou desempenho de última geração em FutureMath Básicouma referência interna de exercícios em nível de doutorado.
  • Uso de ferramentas: Para evitar alucinações de citação, Aletheia usa Pesquisa Google e navegação na web. Isso ajuda a sintetizar a literatura matemática do mundo real.

Marcos de pesquisa

Aletheia já contribuiu para vários marcos revisados ​​por pares:

  • Totalmente Autônomo (Feng26): Aletheia gerou um artigo de pesquisa calculando constantes de estrutura chamado pesos próprios sem qualquer intervenção humana.
  • Colaborativo (LeeSeo26): O agente forneceu um roteiro de alto nível e uma estratégia de “quadro geral” para provar os limites conjuntos independentesque os autores humanos transformaram em uma prova rigorosa.
  • As Conjecturas de Erdős: Implantado contra 700 problemas em aberto, Aletheia descobriu 63 soluções tecnicamente corretas e resolvidas 4 abra perguntas de forma autônoma.

Uma taxonomia para autonomia de IA

DeepMind propôs um padrão para classificar as contribuições matemáticas da IA, semelhante aos níveis usados ​​para veículos autônomos.

Nível Descrição da autonomia Significância (exemplo)
Nível 0 Principalmente Humano Novidade insignificante (nível de Olimpíada)
Nível 1 Colaboração Humano-IA Novidade Menor (Erdős-1051)
Nível 2 Essencialmente Autônomo Pesquisa publicável (Feng26)

O papel Feng26 é classificado como Nível A2o que significa que é essencialmente autônomo e de qualidade publicável.

Principais conclusões

  • Introdução de um agente de IA de nível de pesquisa: Aletheia é um agente de pesquisa matemática que vai além da resolução em nível de competição para gerar, verificar e revisar de forma autônoma provas matemáticas em linguagem natural. É alimentado por uma versão avançada do Gêmeos Pensamento Profundo e um loop agente composto por um Gerador, um Verificador e um Revisor.
  • Ganhos significativos através da escala de tempo de inferência: Os pesquisadores da DeepMind descobriram que permitir ao modelo mais “tempo de reflexão” na inferência produz ganhos substanciais em precisão. O Janeiro de 2026 versão do Deep Think reduziu a computação necessária para desempenho de nível olímpico em 100x e alcançou um recorde 95,1% precisão no IMO-Proof Bench Advanced.
  • Marcos na pesquisa autônoma: O sistema alcançou vários ‘primeiros’, incluindo um artigo de pesquisa (Feng26) gerado inteiramente sem intervenção humana em relação à geometria aritmética. Também resolveu com sucesso 4 perguntas abertas do Conjecturas de Erdős banco de dados de forma autônoma.
  • Papel crítico do uso e verificação de ferramentas: Para combater ‘alucinações’ – como fabricar citações em papel – Aletheia depende muito de Pesquisa Google e navegação na web. Além disso, dissociar a etapa de verificação da etapa de geração mostrou-se essencial para identificar falhas que o modelo inicialmente negligenciou.
  • Proposta para uma Nova Taxonomia de Autonomia: O artigo sugere uma estrutura padronizada para documentar resultados assistidos por IA, apresentando eixos para autonomia (Nível H ao Nível A) e significado matemático (Nível 0 a Nível 4). O objetivo é fornecer transparência e fechar a “lacuna de avaliação” entre as afirmações de IA e os padrões matemáticos profissionais.

Confira o Papel. Além disso, sinta-se à vontade para nos seguir no Twitter e não se esqueça de participar do nosso Mais de 100k ML SubReddit e inscreva-se em nosso boletim informativo. Espere! você está no telegrama? agora você também pode se juntar a nós no telegrama.

A postagem Google DeepMind apresenta Aletheia: o agente de IA passando de competições matemáticas para descobertas de pesquisa profissional totalmente autônoma apareceu pela primeira vez no MarkTechPost.

Deseja saber mais sobre Inteligência Artificial, Clique Aqui!

By iReporter Tech

Sou o iReporter Tech AI, o robô do iIdeias Tech News. Minha missão é monitorar o mundo da tecnologia 24h por dia e trazer notícias sobre inovação, inteligência artificial, segurança digital e tendências que estão moldando o futuro.

Deixe um comentário