Google DeepMind apresenta Aletheia: o agente de IA que passa de competições matemáticas para descobertas de pesquisa profissional totalmente autônomas -

A equipe do Google DeepMind apresentou Aletheiaum agente especializado em IA projetado para preencher a lacuna entre a matemática de nível competitivo e a pesquisa profissional. Embora os modelos tenham alcançado padrões de medalha de ouro na Olimpíada Internacional de Matemática (IMO) de 2025, a pesquisa exige navegar por uma vasta literatura e construir provas de longo horizonte. Aletheia resolve isso gerando, verificando e revisando soluções iterativamente em linguagem natural.

https://github.com/google-deepmind/superhuman/blob/main/aletheia/Aletheia.pdf

A Arquitetura: Loop Agente

Aletheia é alimentado por uma versão avançada do Gêmeos Pensamento Profundo. Ele utiliza um ‘arnês agente’ de três partes para melhorar a confiabilidade:

Gerador: Propõe uma solução candidata para um problema de pesquisa.
Verificador: Um mecanismo informal de linguagem natural que verifica falhas ou alucinações.
Análise: Corrige erros identificados pelo Verificador até que um resultado final seja aprovado.

Esta separação de funções é crítica; os pesquisadores observaram que separar explicitamente a verificação ajuda o modelo a reconhecer falhas que inicialmente ignora durante a geração.

Principais descobertas técnicas

O desenvolvimento do Aletheia revelou vários insights sobre como a IA lida com raciocínios complexos:

Escala de tempo de inferência: Permitir que o modelo tenha mais computação no momento de uma consulta (‘pensando mais’) aumenta significativamente a precisão. A versão de janeiro de 2026 do Deep Think reduziu a computação necessária para problemas de nível IMO em 100x em comparação com a versão 2025.
Desempenho: Aletheia alcançou um 95,1% precisão no IMO-Proof Bench Advanced, um grande salto em relação ao recorde anterior de 65,7%. Também demonstrou desempenho de última geração em FutureMath Básicouma referência interna de exercícios em nível de doutorado.
Uso de ferramentas: Para evitar alucinações de citação, Aletheia usa Pesquisa Google e navegação na web. Isso ajuda a sintetizar a literatura matemática do mundo real.

Marcos de pesquisa

Aletheia já contribuiu para vários marcos revisados por pares:

Totalmente Autônomo (Feng26): Aletheia gerou um artigo de pesquisa calculando constantes de estrutura chamado pesos próprios sem qualquer intervenção humana.
Colaborativo (LeeSeo26): O agente forneceu um roteiro de alto nível e uma estratégia de “quadro geral” para provar os limites conjuntos independentesque os autores humanos transformaram em uma prova rigorosa.
As Conjecturas de Erdős: Implantado contra 700 problemas em aberto, Aletheia descobriu 63 soluções tecnicamente corretas e resolvidas 4 abra perguntas de forma autônoma.

Uma taxonomia para autonomia de IA

DeepMind propôs um padrão para classificar as contribuições matemáticas da IA, semelhante aos níveis usados para veículos autônomos.

Nível	Descrição da autonomia	Significância (exemplo)
Nível 0	Principalmente Humano	Novidade insignificante (nível de Olimpíada)
Nível 1	Colaboração Humano-IA	Novidade Menor (Erdős-1051)
Nível 2	Essencialmente Autônomo	Pesquisa publicável (Feng26)

O papel Feng26 é classificado como Nível A2o que significa que é essencialmente autônomo e de qualidade publicável.

Principais conclusões

Introdução de um agente de IA de nível de pesquisa: Aletheia é um agente de pesquisa matemática que vai além da resolução em nível de competição para gerar, verificar e revisar de forma autônoma provas matemáticas em linguagem natural. É alimentado por uma versão avançada do Gêmeos Pensamento Profundo e um loop agente composto por um Gerador, um Verificador e um Revisor.
Ganhos significativos através da escala de tempo de inferência: Os pesquisadores da DeepMind descobriram que permitir ao modelo mais “tempo de reflexão” na inferência produz ganhos substanciais em precisão. O Janeiro de 2026 versão do Deep Think reduziu a computação necessária para desempenho de nível olímpico em 100x e alcançou um recorde 95,1% precisão no IMO-Proof Bench Advanced.
Marcos na pesquisa autônoma: O sistema alcançou vários ‘primeiros’, incluindo um artigo de pesquisa (Feng26) gerado inteiramente sem intervenção humana em relação à geometria aritmética. Também resolveu com sucesso 4 perguntas abertas do Conjecturas de Erdős banco de dados de forma autônoma.
Papel crítico do uso e verificação de ferramentas: Para combater ‘alucinações’ – como fabricar citações em papel – Aletheia depende muito de Pesquisa Google e navegação na web. Além disso, dissociar a etapa de verificação da etapa de geração mostrou-se essencial para identificar falhas que o modelo inicialmente negligenciou.
Proposta para uma Nova Taxonomia de Autonomia: O artigo sugere uma estrutura padronizada para documentar resultados assistidos por IA, apresentando eixos para autonomia (Nível H ao Nível A) e significado matemático (Nível 0 a Nível 4). O objetivo é fornecer transparência e fechar a “lacuna de avaliação” entre as afirmações de IA e os padrões matemáticos profissionais.

Confira o Papel. Além disso, sinta-se à vontade para nos seguir no Twitter e não se esqueça de participar do nosso Mais de 100k ML SubReddit e inscreva-se em nosso boletim informativo. Espere! você está no telegrama? agora você também pode se juntar a nós no telegrama.

A postagem Google DeepMind apresenta Aletheia: o agente de IA passando de competições matemáticas para descobertas de pesquisa profissional totalmente autônoma apareceu pela primeira vez no MarkTechPost.

Deseja saber mais sobre Inteligência Artificial, Clique Aqui!

Google DeepMind apresenta Aletheia: o agente de IA que passa de competições matemáticas para descobertas de pesquisa profissional totalmente autônomas

ByiReporter Tech

A Arquitetura: Loop Agente

Principais descobertas técnicas

Marcos de pesquisa

Uma taxonomia para autonomia de IA

Principais conclusões

By iReporter Tech

Related Post

Esta não é uma mosca carregada em um computador

Google, aceleradora Accel India escolhe 5 startups e nenhuma é ‘invólucro de IA’

Advogado por trás de casos de psicose de IA alerta sobre riscos de vítimas em massa

Deixe um comentário Cancelar resposta

You missed

Falhas do CrackArmor expõem sistemas Linux a escalonamento de privilégios

Trump provoca reação por comentar sobre a guerra no Irã: ‘Talvez nem devêssemos estar lá’ | Guerra EUA-Israel contra o Irã

BTC sobe 4%, aproximando-se do nível de US$ 75.000 pela primeira vez em seis semanas

Quénia e Rússia concordam que não serão recrutados quenianos para a guerra na Ucrânia | Notícias da guerra Rússia-Ucrânia