2021年,谷歌旗下的“深度思维”公司联合欧洲分子生物学实验室的欧洲生物信息学研究所、英伟达以及韩国首尔大学,共同把“阿尔法折叠”数据集给升级了。这次更新不光把几百万个由AI预测的蛋白质复合物结构直接开放给了全球科研人员,还因为它是有史以来最大的蛋白质复合物预测数据库,引起了广泛关注。研究团队之所以能做到这点,是因为他们优先收录了跟人类健康和疾病关系密切的蛋白质。不过,蛋白质通常都是像乐高积木一样搭在一块儿发挥作用,光是单体结构预测远不够。研究人员这次特地针对人类、小鼠、酵母还有结核分枝杆菌等20种研究得很透彻的物种进行了分析,总共生成了大约3000万个同源二聚体的预测结果,最终筛选出约170万个高质量的数据放进了数据库。这套包含约2亿个单体结构的数据库自开放以来,一直为科研提供着巨大帮助。要知道,要想在电脑里把两个蛋白质拼在一起变成复合物模型,算力需求特别高。科学界觉得这一步非常关键,因为只有在复合物状态下建模,有些蛋白质的三维结构才能更准确。“阿尔法折叠”未来还打算加入由两个不同蛋白质组成的异源二聚体结构预测。张佳欣指出,“阿尔法折叠”这次升级相当于提供了大量“乐高”积木的拼装说明书。这不仅让科学家能看清每块积木的样子,还能按图索骥去设计复杂的蛋白质结构,从而在解析生命机制和研发创新药物等领域大大提升科研效率。团队也提醒大家要用谨慎的态度对待AI预测结果,因为部分结构可能跟真实情况有出入,还需要用实验手段来验证它的生物学意义。