人工智能破译基因组非编码区“密码” 生命科学研究迎来新突破

人类基因组由约30亿个碱基组成。长期以来，研究者对直接编码蛋白质的区域已有相对清晰的理解，但占比更大的非编码区因不直接产出蛋白，其生物学功能与调控规律复杂，成为制约疾病机理解析的重要瓶颈。遗传病、罕见病以及肿瘤研究中，临床检测往往能定位到与疾病对应的的基因附近，却难以判断非编码区变异如何影响基因的开启、表达位置与剪接方式，导致诊断与靶点发现面临困难。问题的核心在于非编码区承担着基因"调度系统"的角色。基因是否被转录、转录水平高低、RNA剪接形态、转录因子结合以及染色质结构变化等——往往由多个元件协同决定——并存在远距离调控与细胞类型特异性。一处微小变异可能改变结合位点或染色质开放程度，进而引发连锁反应。传统方法在大规模、系统化推断上成本高、周期长；既有计算模型序列长度覆盖、分辨率与多任务联合预测上也存不足：有的只能处理较短片段，容易遗漏远端信息；有的虽能覆盖更长序列，却难以做到单碱基级的精细判断；还有的仅对某类调控特征擅长，需要多模型拼接才能形成完整的解释链条。针对这些问题，最新研究提出以更长序列输入、更高分辨率输出、更多调控指标联合建模的技术方案。相关模型能在百万碱基尺度上直接读取DNA序列，并对RNA表达量、剪接结构、染色质可及性、转录因子结合位点、空间结构等近6000项调控特征进行预测。更重要的是，模型将多类调控任务纳入统一框架，有助于减少不同模型间的割裂，使对非编码区变异的影响评估从单点判断转向链条式推断。从实际应用看，首先是提升致病线索发现效率。对于原因不明的病例，非编码区变异可能是关键因素。若能更准确评估变异对基因调控的影响，将有助于缩小候选范围，提升遗传病、罕见病的解释率。其次是推动肿瘤研究走向更精细的调控层面。研究显示，部分癌症的驱动因素并非仅来自编码区突变，非编码区突变也可能通过异常激活或抑制关键基因而促发疾病。相关模型在T细胞急性淋巴细胞白血病等研究中，能够定位引发癌基因异常激活的非编码突变，为识别驱动突变和提出潜在靶点提供了新线索。业内也强调，模型能力的提升并不意味着可以跳过实验与临床验证。非编码区的功能往往受细胞类型、发育阶段与环境因素影响，模型输出需要与高质量组学数据、功能实验体系相互印证，才能形成可复用的结论。推动成果落地，还需在数据标准化、可解释性增强、结果可复现以及隐私安全合规诸上同步推进。对于医疗应用场景，更应建立从计算预测到实验验证再到临床证据积累的完整流程。从对策层面看，一是加强基础数据与公共资源建设，完善不同人群、不同细胞类型、不同疾病状态下的多组学数据库。二是推动计算与实验协同，将预测结果与CRISPR功能筛选、报告基因实验、单细胞组学等手段结合。三是面向临床转化建立分级应用路径，在科研探索、靶点发现、伴随诊断候选筛查等环节先行试点，逐步扩展至更广泛的应用场景。四是健全伦理与合规框架，明确基因数据使用边界与安全要求。展望未来，随着更强的序列理解能力与更完善的验证体系相结合，非编码区的功能图谱有望加速绘制。这将推动生命科学研究从"看见变异"迈向"解释变异"，从"相关性"走向"因果链条"的精确重建，并为新药研发、个体化用药与疾病早筛提供更丰富的靶点与策略。更长远看，理解基因组调控规律将加深对生命发育、组织稳态与进化机制的认识，为生物医学与生物技术创新打开新的空间。

从破译2%的蛋白质编码区到照亮98%的调控区域，这项研究标志着人类解读生命"操作系统"的重大飞跃。这不仅是技术工具的升级，更预示着生命科学研究从"局部解码"向"系统认知"的转变。在精准医疗时代，如何将基础研究成果转化为普惠健康实践，将成为全球科学共同体面临的新课题。