要让机器读懂咱们的文件,云知声这回可是下了血本,直接推出了一套工业级的基础大模型。26号这天,他们正式发了个叫Unisound U1-OCR的文档智能基座,说是要把传统的文档处理那道墙给打破。为啥敢这么吹?这模型身上有五大优势,性能碾压业界最顶尖(SOTA)、用起来安心又方便、部署快还特别适合各种场景。 以前的OCR老路子就像CRNN那样,只能死磕文字,连个文档结构都看不懂。现在的新法子,像VLM这种多模态技术,能做到端到端的版面理解和识别。但云知声这次走得更远,直接开启了OCR 3.0时代——光懂结构不行,还得把文档里的深层意思给挖出来,能自动分类还能扒出有用的业务信息。这就好比从单纯“认字”升级到了“理解文件”。 具体咋实现的呢?第一是它得有“脑子”,知道先看结构再看内容。以前的模型都是傻乎乎地从头读到尾,Unisound U1-OCR不一样,它用“语义驱动+动态聚焦”的策略。就像咱们人看书一样,先理清目录、标题的层级关系,想知道什么再去翻哪一页。模型能自己画出一张“语义地图”,哪怕排版再乱也能分清谁是谁的下属。 第二是它的空间感知特别强。这是通过强化空间对齐模块和动态分辨率技术做到的。不管是密密麻麻的表格还是图文混排,它都能把元素的位置关系捋顺了。以前的模型经常会搞错位置,导致张冠李戴的情况,现在这种空间盲区彻底没了。 在实际用的时候,通用的OCR工具在专业领域往往不行。比如说医保单子里那些“自付一”、“自付二”、“个人自费”的逻辑关系,或者合同里金额大小写的校验规则,这些都需要专业知识才行。Unisound U1-OCR不光是个通用模型,还把云知声在医疗、金融这些领域积累的经验都喂进去了。它能根据业务逻辑去验证多个字段之间的关系。 内部测试的时候,针对50多种常见的业务文书进行分类,准确率直接冲到了99%。再举个例子,报纸、期刊那种多栏穿插、图文交织的复杂版面特别让人头疼。传统方案在这种地方很容易迷路,不知道下一段该从哪读起。但Unisound U1-OCR就像人一样思考,它会结合上下文的语义和版面逻辑去判断段落的承接关系,梳理出一套符合人类阅读习惯的内容流。