百度千帆推出了个厉害的新模型叫Qianfan-OCR,这玩意一下子把文档解析技术推到了新高度。这模型架构设计得很统一,参数有40亿之多,把文档解析、版面分析、文字识别和语义理解全给融合进去了。这可是文档智能技术的一大突破,统一架构的路子算是走通了。在核心评测里,它表现特别抢眼。在OmniDocBenchv1.5这个榜单上,它拿了93.12分,把所有端到端模型都甩在了身后,性能优势明显。就连OCRBench这个评测也没输过那些同类模型,实力非常强。在关键信息提取这块儿,它在很多公开榜单里都排第一,把Google Gemini 3-Pro这些国际大拿都给比了下去,市场竞争力杠杠的。对于图表理解这种复杂的活儿,它在ChartQA、ChartBench等六项国际权威评测里拿了五项第一,结构理解和多模态推理的本事让人刮目相看。 以前那些传统OCR系统走的是检测、识别再加个大模型的老路子,这种串联处理误差容易越堆越多,把原文的空间结构和视觉上下文都给破坏了。复杂表格的行列关系和图表的坐标对应在传统流程里经常搞错。Qianfan-OCR不一样,它搞了个底层架构创新,直接做成了端到端的视觉语言模型。你给它一张图,它就能直接吐出结构化的输出,把像素到语义的映射直接搞定。这种做法不光提高了效率,精度也更高了,把以前的那些老毛病都给治好了。 现在Qianfan-OCR已经在百度千帆平台上线了,还把权重通过HuggingFace开源了出来。不管是开发者还是企业用户都能随便调用这个模型。大家可以把它用在金融、医疗、教育这些行业里处理各种文档问题,帮着大家推进数字化转型。