No final de 2025, cobrimos o desenvolvimento de um sistema de IA chamado Evo, que foi treinado em um grande número de genomas bacterianos. Tantos que, quando solicitado com sequências de um conjunto de genes relacionados, poderia identificar corretamente o próximo ou sugerir uma proteína completamente nova.
Esse sistema funcionou porque as bactérias tendem a agrupar genes relacionados – algo que não acontece em organismos com células complexas, que tendem a ter estruturas genômicas igualmente complexas. Diante disso, observou nossa cobertura: “Não está claro se esta abordagem funcionará com genomas mais complexos”.
Aparentemente, a equipe por trás do Evo viu isso como um desafio, porque hoje está descrevendo o Evo 2, uma IA de código aberto que foi treinada em genomas de todos os três domínios da vida (bactérias, arquéias e eucariotos). Depois de treinar em trilhões de pares de bases de DNA, o Evo 2 desenvolveu representações internas de características-chave até mesmo em genomas complexos como o nosso, incluindo coisas como DNA regulatório e locais de splice, que podem ser difíceis de serem detectados pelos humanos.
Recursos do genoma
Os genomas bacterianos são organizados segundo princípios relativamente simples. Quaisquer genes que codificam proteínas ou RNAs são contíguos, sem interrupções na sequência de codificação. Os genes que desempenham funções relacionadas, como metabolizar um açúcar ou produzir um aminoácido, tendem a ser agrupados, permitindo que sejam controlados por um sistema regulador único e compacto. É tudo simples e eficiente.
Os eucariontes não são assim. As seções de codificação dos genes são interrompidas por íntrons, que não codificam nada. Eles são regulados por uma sequência que pode estar espalhada por centenas de milhares de pares de bases. As sequências que definem as bordas dos íntrons ou os locais de ligação das proteínas reguladoras são todas fracamente definidas – embora tenham algumas bases que são absolutamente necessárias, muitas bases têm apenas uma tendência acima da média de ter uma base específica (algo como “45 por cento das vezes é um T”). Cercando tudo isso, na maioria dos genomas eucarióticos, há uma enorme quantidade de DNA que foi chamada de lixo: vírus inativos, genes com danos terminais e assim por diante.
Deseja saber mais sobre Inteligência Artificial, Clique Aqui!
