evo 2的基因是怎么被“垃圾dna”包围的?

咱们聊个正经的,2025年年底那会儿我专门写过一篇文章,讲的是Evo这个玩意儿,它专门吃了好多细菌基因组的大数据给训练出来的。当时人家在文章里直接给出结论,觉得这招儿用来处理更复杂的生物体基因组还不一定行得通。那团队也不认怂,直接把这次“挑战”给接下来了。现在大家伙儿看到的Evo 2,就是他们在这回折腾里弄出来的新成果。 这个开源的人工智能系统不光是照着细菌的路数走了,它还把古细菌和真核生物的DNA给揉进了训练集里。虽然真核生物的基因组结构比细菌复杂得多,但Evo 2硬是在对数万亿个碱基对的DNA进行了一番深度学习后,搞出了一套内部表示法。这套法子不光能看出人类肉眼很难发现的调控DNA和剪接位点这些关键特征,甚至连真核生物基因里那种特有的弱定义特征它都吃透了。 你看啊,细菌的基因编码挺纯粹的,直接是一条道跑到黑,没有啥内含子捣乱。那些负责干相同活儿的基因还喜欢凑一块儿扎堆,方便一个调控系统管到底。真核生物就不一样了,它的编码序列中间全是不干活的内含子当隔断。还有那个负责调控的序列更是分散得厉害,可能隔了好几十万碱基对才蹦出来一个。 最让人头疼的是那些定义边界的位置,比如内含子到底从哪儿开始到哪儿结束。虽然这儿有几个碱基是必须得有的,但是很多地方的碱基就只能说有个大概的偏好趋势。打个比方,在45%的情况下它会是T碱基。真核生物基因组里全是这种模棱两可的信号,再加上外面还被一大片所谓的“垃圾DNA”包围着(里面啥也没有的东西),真叫人看不懂。 现在看来Evo 2的做法确实是动了脑筋。它用了Transformer这种在自然语言处理里大杀四方的深度学习架构来处理基因组数据。Transformer最厉害的地方就是能通过自注意力机制把远处的依赖关系都给抓出来。这样一来,它就能更好地理解基因之间是怎么互相影响的,还有那个神秘的调控网络到底是啥样子。 再加上这个模型是开源的性质,以后搞基因组研究的人互相合作就更方便了。新药开发还有疾病诊断的效率也能跟着蹭蹭往上涨。就在2026年那会儿,《自然》杂志也发表了一项研究说明白了一件事:基于深度学习的基因组模型在预测基因表达和疾病风险这些事情上确实很有一手。