在2018年,旦增罗布就带领团队开始做藏语语料数字化。到了今年,他们用近7000万条藏汉平行语料和覆盖140多个国家的多语种语音数据库,把多语种智能翻译、语音识别还有OCR识别系统都搞出来了。 今年8月,中国国务院出台了关于深入实施“人工智能+”行动的意见,这给西藏的AI发展指明了路。中新社拉萨11月30日的报道提到,“西藏在藏语大模型研发领域取得了重要进展,标志着西藏AI发展将从场景应用走向系统性研发阶段。”这次是中新社记者赵朗采写的消息,把院士尼玛扎西说的这段话也给放了出来。尼玛扎西是西藏大学教授,也是中国工程院院士,他对记者表达了这个看法。 其实,在拉萨那边,社区、机场这些地方早都接入了AI技术了。前阵子在拉萨搞了个第二次青藏科考成果发布会,那个叫“e科考”的App就挺受关注。这个App能给考察对象做快速全息解读,数据还能通过卫星网络实时传到云端数据库。 现在看来,“阳光清言”V1.0这个大模型就是这种系统性研发的成果。这个模型训练用了约288亿Token的高质量藏语数据,里面的内容五花八门,新闻、法律、医学、教育、科技啥都有,单语数据、平行语料、双语辞典条目也都包含在内。 再说说那个叫DeepZang的藏语大模型,旦增罗布团队是用自己的技术搞出来的。这个模型已经能实现多语种的高质量语义理解和生成与交互了。现在这个App已经接入了DeepSeek技术生态内部测试,年底就能面向公众上线了。