人工智能跟生命科学结合出了个大事儿

人工智能跟生命科学结合出了个大事儿。1月30日这天，北京时间，国际顶尖杂志《自然》上面，放了一篇谷歌DeepMind团队写的论文，介绍了他们搞出来的一个深度学习模型，名字叫“AlphaGenome”。这模型有个特别厉害的地方，就是能一次性把长到100万碱基对的DNA序列给搞定。不仅能算出来它有啥功能，还能评估DNA变了可能会引起的各种生物效应。这样一来，解读遗传密码就方便多了。人体的基因变化特别复杂，不光会让人和人不一样，还会让人得病。咱们知道，人身上大概98%的DNA区域都是不直接生产蛋白质的“非编码区”，这些地方虽然不干活，但它们控制着基因怎么表达、RNA怎么剪接还有蛋白质怎么修饰。因为这些过程太难懂了，所以以前的算法要么只能看一小段，要么就没法特别准。 DeepMind团队这次用了个新招，弄了个厉害的深度学习结构。他们把人类和小鼠的基因组数据喂给模型去训练，让它自己学会DNA和生物功能之间的关系。练完之后，这个模型就能瞬间识别出人类的5930种和小鼠的1128种不同类型的“遗传信号”。这些信号就像是理解基因功能的一张多维地图。他们拿这个模型跟现在最好的工具比了一下，结果在26项测试里，有25项表现都不输给人家，甚至更厉害。最绝的是它能“多重预测”，就是一段DNA变了以后会产生多少种不同的结果和信号。这种看问题的方式跟身体里的基因调控网络很像，帮科学家看问题看得更全。大家觉得这个模型的出现，标志着人工智能干科研不光是单点突破了，开始往系统解析上走了。它不光是个工具，更是一种整合多维度信息的新方法。以后搞遗传病研究的人就可以用它来快速找到那些藏在非编码区的致病突变了。谷歌DeepMind这次发布的这个东西，算是人工智能和基因组学结合的一个好例子。它帮我们解决了长序列和非编码区预测的难题。现在这工具主要是用来搞科研的，不过以后要是把它能用的物种范围再扩大点、功能再强化点，再加上临床数据，肯定能在精准医疗上发挥大作用。科学家都盼着这些前沿的东西赶紧变成能治病救人的东西呢。