西藏ai将从场景应用走向系统性研发

在2018年，旦增罗布就带领团队开始做藏语语料数字化。到了今年，他们用近7000万条藏汉平行语料和覆盖140多个国家的多语种语音数据库，把多语种智能翻译、语音识别还有OCR识别系统都搞出来了。今年8月，中国国务院出台了关于深入实施“人工智能+”行动的意见，这给西藏的AI发展指明了路。中新社拉萨11月30日的报道提到，“西藏在藏语大模型研发领域取得了重要进展，标志着西藏AI发展将从场景应用走向系统性研发阶段。”这次是中新社记者赵朗采写的消息，把院士尼玛扎西说的这段话也给放了出来。尼玛扎西是西藏大学教授，也是中国工程院院士，他对记者表达了这个看法。其实，在拉萨那边，社区、机场这些地方早都接入了AI技术了。前阵子在拉萨搞了个第二次青藏科考成果发布会，那个叫“e科考”的App就挺受关注。这个App能给考察对象做快速全息解读，数据还能通过卫星网络实时传到云端数据库。现在看来，“阳光清言”V1.0这个大模型就是这种系统性研发的成果。这个模型训练用了约288亿Token的高质量藏语数据，里面的内容五花八门，新闻、法律、医学、教育、科技啥都有，单语数据、平行语料、双语辞典条目也都包含在内。再说说那个叫DeepZang的藏语大模型，旦增罗布团队是用自己的技术搞出来的。这个模型已经能实现多语种的高质量语义理解和生成与交互了。现在这个App已经接入了DeepSeek技术生态内部测试，年底就能面向公众上线了。