国内研究机构发布生物分子模拟新框架 突破高精度与大规模计算矛盾

分子模拟是理解生命过程的重要工具,药物研发、蛋白构象研究、核酸功能解析和膜蛋白机理探索中发挥基础作用。但长期以来,该领域面临一个核心矛盾:高精度量子化学计算只能处理数百原子规模,而易于扩展的经典力场在复杂相互作用和溶剂环境刻画上存在明显不足。如何在接近真实生物条件下实现高精度、可靠的模拟,成为制约有关研究的关键瓶颈。 这个问题主要体现在三个上。首先,现有公开的高精度标注数据以小分子为主,针对蛋白、核酸、脂质膜等大体系的样本严重不足,特别是缺乏显式溶剂条件下的构型与能量标注,导致模型真实生物环境中泛化能力受限。其次,长程相互作用对结构稳定性和动力学行为影响显著,但在大体系中完整建模难度高,容易造成能量计算偏差和动力学不稳定。再次,虽然学习型力场在某些基准上精度不错,但大体系推理效率和工程可用性仍不足,难以支撑长时间尺度的常规计算流程。 这些难题既源于生命体系本身的复杂性,也源于数据和算力的约束。生物大分子处于多尺度耦合环境,氢键网络、疏水效应、离子分布与溶剂化层相互交织,单一近邻截断的建模方式难以覆盖关键物理过程。同时——高精度DFT标注成本高昂——传统数据构建方式难以在规模、质量和场景覆盖之间取得平衡。此外,等变建模虽然有利于提升结构相关任务的物理一致性,但在大体系计算中对内存和算子效率提出更高要求,若缺少硬件优化,往往难以形成稳定的计算吞吐。 基于此,至知创新研究院UBio团队发布了分子基础模型框架UBio-MolFM。该团队构建了高精度DFT数据集Ubio-Mol26,包含超过1700万条数据,单体系规模最高可达约1200原子,重点覆盖溶液环境中的蛋白质片段、DNA/RNA片段、细胞膜块及多类复合体系。为便于社区复现和应用,团队同步开放了标准化子集UBio-Protein26 5M,包含训练与测试划分,补足现有公开数据在生物大体系上的缺口。 这类面向生物场景的数据底座和框架方案有望带来三上改变:一是推动模型训练从小分子优先转向真实生物环境优先,使模型更贴近药物靶点、核酸构象与膜体系等实际应用;二是促进对显式溶剂与长程耦合的系统化处理,提升模拟的稳定性和可解释性;三是以更高的推理效率降低使用门槛,推动高精度模拟从单次试验走向流程化、工程化,提升科研和产业研发效率。 在具体设计上,UBio-MolFM采取协同方案。数据构建结合基础构件覆盖和真实结构采样,通过枚举氨基酸短肽、核酸片段与脂质单元夯实基础,同时从真实蛋白结构抽取局部环境并进行溶剂化处理,提高对生物场景的代表性。模型采用线性扩展的等变Transformer架构,引入显式长程相互作用建模,兼顾物理一致性与计算效率。训练采用多阶段课程学习策略,面向不同理论层级和任务需求进行融合,在精度、稳健性与可用性之间形成平衡。团队表示,后续将陆续开放模型权重、推理代码和完整工作流。 随着高质量标注数据的扩充和模型系统的优化,高精度分子模拟有望在更广范围内落地应用:在药物研发中加速构象筛选与结合能评估,在蛋白与核酸研究中辅助解析关键构象转换,在膜体系与复合物研究中提升微观机理的刻画能力。同时,开放数据与工具链的完善也将促进学术界与产业界的协同迭代,形成更可比较、更可复用的评测体系,推动相关领域从各自为战走向共同基座的生态建设。

UBio-MolFM的发布解决了困扰科研界多年的生物大分子模拟难题,展现了我国在基础研究和技术应用领域的实力。随着技术的推广和深化,该成果有望成为推动生命科学发展的重要工具。