A equipe do Google DeepMind apresentou Aletheiaum agente especializado em IA projetado para preencher a lacuna entre a matemática de nível competitivo e a pesquisa profissional. Embora os modelos tenham alcançado padrões de medalha de ouro na Olimpíada Internacional de Matemática (IMO) de 2025, a pesquisa exige navegar por uma vasta literatura e construir provas de longo horizonte. Aletheia resolve isso gerando, verificando e revisando soluções iterativamente em linguagem natural.
A Arquitetura: Loop Agente
Aletheia é alimentado por uma versão avançada do Gêmeos Pensamento Profundo. Ele utiliza um ‘arnês agente’ de três partes para melhorar a confiabilidade:
- Gerador: Propõe uma solução candidata para um problema de pesquisa.
- Verificador: Um mecanismo informal de linguagem natural que verifica falhas ou alucinações.
- Análise: Corrige erros identificados pelo Verificador até que um resultado final seja aprovado.
Esta separação de funções é crítica; os pesquisadores observaram que separar explicitamente a verificação ajuda o modelo a reconhecer falhas que inicialmente ignora durante a geração.
Principais descobertas técnicas
O desenvolvimento do Aletheia revelou vários insights sobre como a IA lida com raciocínios complexos:
- Escala de tempo de inferência: Permitir que o modelo tenha mais computação no momento de uma consulta (‘pensando mais’) aumenta significativamente a precisão. A versão de janeiro de 2026 do Deep Think reduziu a computação necessária para problemas de nível IMO em 100x em comparação com a versão 2025.
- Desempenho: Aletheia alcançou um 95,1% precisão no IMO-Proof Bench Advanced, um grande salto em relação ao recorde anterior de 65,7%. Também demonstrou desempenho de última geração em FutureMath Básicouma referência interna de exercícios em nível de doutorado.
- Uso de ferramentas: Para evitar alucinações de citação, Aletheia usa Pesquisa Google e navegação na web. Isso ajuda a sintetizar a literatura matemática do mundo real.
Marcos de pesquisa
Aletheia já contribuiu para vários marcos revisados por pares:
- Totalmente Autônomo (Feng26): Aletheia gerou um artigo de pesquisa calculando constantes de estrutura chamado pesos próprios sem qualquer intervenção humana.
- Colaborativo (LeeSeo26): O agente forneceu um roteiro de alto nível e uma estratégia de “quadro geral” para provar os limites conjuntos independentesque os autores humanos transformaram em uma prova rigorosa.
- As Conjecturas de Erdős: Implantado contra 700 problemas em aberto, Aletheia descobriu 63 soluções tecnicamente corretas e resolvidas 4 abra perguntas de forma autônoma.
Uma taxonomia para autonomia de IA
DeepMind propôs um padrão para classificar as contribuições matemáticas da IA, semelhante aos níveis usados para veículos autônomos.
| Nível | Descrição da autonomia | Significância (exemplo) |
| Nível 0 | Principalmente Humano | Novidade insignificante (nível de Olimpíada) |
| Nível 1 | Colaboração Humano-IA | Novidade Menor (Erdős-1051) |
| Nível 2 | Essencialmente Autônomo | Pesquisa publicável (Feng26) |
O papel Feng26 é classificado como Nível A2o que significa que é essencialmente autônomo e de qualidade publicável.
Principais conclusões
- Introdução de um agente de IA de nível de pesquisa: Aletheia é um agente de pesquisa matemática que vai além da resolução em nível de competição para gerar, verificar e revisar de forma autônoma provas matemáticas em linguagem natural. É alimentado por uma versão avançada do Gêmeos Pensamento Profundo e um loop agente composto por um Gerador, um Verificador e um Revisor.
- Ganhos significativos através da escala de tempo de inferência: Os pesquisadores da DeepMind descobriram que permitir ao modelo mais “tempo de reflexão” na inferência produz ganhos substanciais em precisão. O Janeiro de 2026 versão do Deep Think reduziu a computação necessária para desempenho de nível olímpico em 100x e alcançou um recorde 95,1% precisão no IMO-Proof Bench Advanced.
- Marcos na pesquisa autônoma: O sistema alcançou vários ‘primeiros’, incluindo um artigo de pesquisa (Feng26) gerado inteiramente sem intervenção humana em relação à geometria aritmética. Também resolveu com sucesso 4 perguntas abertas do Conjecturas de Erdős banco de dados de forma autônoma.
- Papel crítico do uso e verificação de ferramentas: Para combater ‘alucinações’ – como fabricar citações em papel – Aletheia depende muito de Pesquisa Google e navegação na web. Além disso, dissociar a etapa de verificação da etapa de geração mostrou-se essencial para identificar falhas que o modelo inicialmente negligenciou.
- Proposta para uma Nova Taxonomia de Autonomia: O artigo sugere uma estrutura padronizada para documentar resultados assistidos por IA, apresentando eixos para autonomia (Nível H ao Nível A) e significado matemático (Nível 0 a Nível 4). O objetivo é fornecer transparência e fechar a “lacuna de avaliação” entre as afirmações de IA e os padrões matemáticos profissionais.
Confira o Papel. Além disso, sinta-se à vontade para nos seguir no Twitter e não se esqueça de participar do nosso Mais de 100k ML SubReddit e inscreva-se em nosso boletim informativo. Espere! você está no telegrama? agora você também pode se juntar a nós no telegrama.
A postagem Google DeepMind apresenta Aletheia: o agente de IA passando de competições matemáticas para descobertas de pesquisa profissional totalmente autônoma apareceu pela primeira vez no MarkTechPost.
Deseja saber mais sobre Inteligência Artificial, Clique Aqui!
