今天来聊聊百度最近出的事儿,3月19日百度千帆发布了一个叫Qianfan-OCR的模型。这是个端到端的文档智能模型,用了4B参数。在OmniDocBench评测里,它拿到了93.12分,一下子登顶了。这证明它在文档解析、版面分析、文字识别还有语义理解上,表现得特别好。这个模型已经上线到千帆平台,还给开发者和企业用户提供了在HuggingFace上开源的权重。这样一来,大家就能用起来了。Qianfan-OCR在很多权威评测里表现突出。比如在OmniDocBench v1.5上得分最高,和同尺寸的通用视觉语言模型、专用OCR模型比也有优势。关键信息提取(KIE)任务上,它甚至比Google Gemini 3-Pro这样的商用模型还要好。而且在图表理解这类复杂任务中,端到端模型就更显出优势了。在ChartQA和ChartBench这6项图表理解任务中,它拿下了5项最好成绩,说明结构理解和多模态推理能力很强。 传统OCR系统通常采用检测、识别和LLM三部分分开处理的方式(三段式Pipeline),这种方法虽然在工程上已经很成熟,但多步骤串联容易把误差放大。而且这种分开处理会把文本的空间结构给破坏掉,图表、表格这类内容就不好理解了。Qianfan-OCR直接从底层架构出发进行了重构,用了统一的视觉语言模型一步到位地生成结构化结果,这样视觉信息就能完全保留下来。这样从“看见文档”到“理解文档”就能直接实现了。 这次发布说明端到端技术路线是可行的和先进的。文档智能能力正在从“流程拼接”走向“模型统一”的新阶段呢。