到了2025年底,我们之前曾提过的那叫Evo的人工智能系统现在也有了新进展。不过你可能不知道的是,为了让它去解决更复杂的基因组问题,团队弄出了个Evo 2。这东西不是以前那种只给细菌基因组训练过的家伙,它现在能接受真核生物、古细菌甚至细菌这三种不同生物的DNA数据喂进去,这可是数万亿个碱基对呢!真要练出本事来,这可是个大工程。 那时候的Evo还有点不太灵光,毕竟细菌的基因组比较简单。相关的基因都挤在一块好管理,只要把一个基因的开头给它,它就能顺藤摸瓜把下一个词猜对,或者直接编出个新蛋白来。可问题是我们人体这样的复杂基因组可不是这么回事儿。里面全是乱七八糟的内含子把基因给打断了,控制这些东西的序列又东一榔头西一棒子地分散在几十万个碱基对里。 就连定好的内含子边缘位置都不怎么靠谱,就跟做填空题似的。有时候那个位置上虽然有必须有的碱基,但周围有很多碱基其实只要符合个大概趋势就行。比如那个位置45%的时候是T就够了。再加上周围还有一大堆没用的“垃圾”DNA围着——都是些废掉的病毒或者完全坏掉的基因。这种复杂性把传统生物信息学方法都给难住了,很难准确知道哪个是有用的基因功能和调控机制。 不过现在Evo 2倒是真的学聪明了。它通过学习海量数据(也就是所谓的Transformer架构),学会了怎么去理解这些复杂的结构。它能找出那些人类肉眼很难发现的调控DNA和剪接位点。就像我们说的那样,现在的模型在预测基因表达或者疾病风险这些方面已经比以前强太多了。而且因为这是个开源项目,大家都能参与进来合作创新,这对新药开发和疾病诊断来说简直就是个大礼包。