北京大学把一个叫“识典古籍”的大家伙给弄出来了,它是个能把老书变成数字的平台。这次新年伊始,“识典古籍”就把4.7万部宝贵的古书全免费放出来,让大家伙儿随便看。这是个挺牛的文化工程,北京大学数字人文研究中心这帮人花了三年多的功夫才把它弄好,现在成了全球最大的古籍数字化基地。这平台现在手头有4.7万部古书的电子资料,还让人免费看,一天有35万人去翻找,加起来总共被看过1.47亿次。不光是存书那么简单,这也是个让大家一起干活、搞学问、参与文化传承的好地方。 北京大学数字人文研究中心的王军说,“识典古籍”可不只是把书扫描下来当照片看。他们用了人工智能技术,让书变成了能搜索、能分析的结构化文本。这里有个叫OCR的技术能把书上的字认出来,还有自动标点、查名人名、自动校订这些功能。这一来就把做古书整理的那些专业门槛给拆掉了,让那些没学过的人也能来帮忙。 于是就有了一种叫“众包”的干活法。现在已经有超过3.8万人在这儿帮忙弄书,里头有全国1500多所学校的2万学生,还有1.8万的社会志愿者。大家分工明确,机器先把字弄出来审核一遍,志愿者再精校一遍。现在大家一共已经校了15亿个字,精校了1亿个字,比以前快了好多倍。 这个平台不光是现在这些书能看,还打算把散落在世界各地的重要文献都给找回来、统合起来。比如那个敦煌写卷就很厉害,那可是公元4到11世纪的古书了,内容什么都有。藏在法国国家图书馆的电子版本在2025年年底就要送给北大了。基于这个资源搞的“法藏敦煌写卷智能整理计划”已经开始找人一起干了。 这个平台也开始做教育和传播的工作了。北大还有别的学校已经把平台上的资料和实际操作的模块放进了课程里。学生们一边学文化知识一边动手整理古书。这样一来就培养了一批会干活的人才。每个月都有240多万用户在用这个平台。 这说明现在的技术手段让大家更容易接触到书里的智慧了。“识典古籍”不光是个技术工程更是一种文化实践。它想通过保存、整理、研究、阅读、教育这些事儿来守护中华文脉。随着像敦煌文献这样的宝贝不断地被数字化“归队”,这个数字大厦就会变得越来越丰富,为国家增强文化软实力和民族自信做出贡献。