百度千帆发布了一个端到端的文档智能模型

今天来聊聊百度最近出的事儿，3月19日百度千帆发布了一个叫Qianfan-OCR的模型。这是个端到端的文档智能模型，用了4B参数。在OmniDocBench评测里，它拿到了93.12分，一下子登顶了。这证明它在文档解析、版面分析、文字识别还有语义理解上，表现得特别好。这个模型已经上线到千帆平台，还给开发者和企业用户提供了在HuggingFace上开源的权重。这样一来，大家就能用起来了。Qianfan-OCR在很多权威评测里表现突出。比如在OmniDocBench v1.5上得分最高，和同尺寸的通用视觉语言模型、专用OCR模型比也有优势。关键信息提取(KIE)任务上，它甚至比Google Gemini 3-Pro这样的商用模型还要好。而且在图表理解这类复杂任务中，端到端模型就更显出优势了。在ChartQA和ChartBench这6项图表理解任务中，它拿下了5项最好成绩，说明结构理解和多模态推理能力很强。传统OCR系统通常采用检测、识别和LLM三部分分开处理的方式（三段式Pipeline），这种方法虽然在工程上已经很成熟，但多步骤串联容易把误差放大。而且这种分开处理会把文本的空间结构给破坏掉，图表、表格这类内容就不好理解了。Qianfan-OCR直接从底层架构出发进行了重构，用了统一的视觉语言模型一步到位地生成结构化结果，这样视觉信息就能完全保留下来。这样从“看见文档”到“理解文档”就能直接实现了。这次发布说明端到端技术路线是可行的和先进的。文档智能能力正在从“流程拼接”走向“模型统一”的新阶段呢。