2021年,中国科研团队把bios推到了一个全新的高度

在这一年多的时间里,中国科研团队把BIOS从最初的试验阶段,推到了一个全新的高度。2021年11月BIOS才刚刚向公众展示,短短一年半后,在2022年7月推出的新版本中,术语量和概念量就双双超过了一千万。这个版本收录了超过5400万条术语,其中有3300万是英文术语,2100万是中文术语,还有2800万个医学概念,其规模远超老牌的UMLS,成为全球最大的生物医学知识图谱之一。虽然体量增加了好几倍,但是这个新版本的术语完整性和语义准确度却更高了。 这次更新还增加了基因、临床属性和身体物质等10个新的语义类型,再加上原来的18个类型,总共形成了48种语义类型。这个调整不仅实现了对常见实体的全覆盖,也让数据的语义表达更加细致准确。针对这数千万级别的实体,团队采用了一种创新的方法:一边用传统技术从文本中提取关系,一边利用AI大模型自己生成关系。这种“双轮驱动”的策略让团队一次性构建出了超过1亿条的关系三元组。 为了让更多人能用上这些宝贵的数据,BIOS已经把数据集按照CC BY-NC-ND 4.0协议开放给了公众。他们还计划陆续开源构建工具和示范应用,希望全球开发者能“一键接入”。通过这次开源共享的行动,他们想把BIOS打造成一个值得信赖的全球开放医学知识全集。无论是从规模还是质量上看,无论是算法还是生态建设上,BIOS都在用中国方案为AI医疗注入源源不断的“知识动能”。 考虑到2021年和2022年的时间跨度,以及1.12亿这个庞大的数字,这次发布可以说是一次里程碑式的突破。它不仅刷新了全球生物医学开源领域的纪录,更是用中国速度写下了AI+医疗的新标杆。