就在刚才,PaddleOCR在GitHub上拿下了第73.3万个Star,终于把Tesseract OCR给甩在身后了,这让中国的开源项目一下子在OCR领域站到了最前面。这次技术的大换血确实厉害。你知道吗,Tesseract OCR的故事还要从1985年说起,那时候惠普实验室就开始搞了,后来谷歌接手维护,一直到2020年都稳稳占着热度榜的第一名。不过现在局面变了。谷歌的技术积累是真的厉害,尤其是处理那些排版复杂、图片质量不高的情况,以前那是没得挑的。但现在不一样了,大模型的力量太猛了。PaddleOCR这几年发展得太快了,它把文心大模型的多模态能力全给用上了。从2020年开源到现在,他们不停地学新东西、练模型,现在已经能看懂160个国家和地区的文字了。今年1月的测试里,它的新模型直接拿了第一,证明大模型确实能把复杂的文档给弄明白。看看GitHub的数据就知道变化有多大了。自从2024年开始,关注PaddleOCR的开发者像坐了火箭一样增长,眼瞅着就要把Tesseract OCR给追上了。这背后其实是整个行业都在变。2025年以后,DeepseekOCR、HunyuanOCR、GLM这些用大模型做的项目一个接一个冒出来,形成了一种抱团效应。大家伙儿觉得大模型经过海量数据的训练,理解语义的能力比以前强太多了,尤其是对那些模糊的字、艺术字体还有好几种语言混在一起的情况特别管用。拿PaddleOCR来说吧,他们最近把每天免费解析的额度从1万页提高到了2万页,还通过OpenClaw平台把高精度PDF解析的技术开放出来,这对企业来说门槛一下子就降低了。光靠技术不行,大家一起合作才是关键。PaddleOCR牵头搞了个叫OCEAN的生态联盟,吸引了Hugging Face和Milvus这些大社区进来帮忙。联盟里大家互相分享模型、定标准、搞比赛,目的就是为了把这些技术更快地用到金融、医疗、教育这些地方去。结果特别好,联盟刚成立一周就有200多家企业来申请合作,想搞智能合同审查或者古籍数字化之类的新花样。说白了,光学字符识别就是用机器把图片里的字变成电脑能读的文字。这项技术从20世纪70年代开始走到今天,已经经历了三次大的变革。现在大家都在盼着第四次革命赶紧来。PaddleOCR和Tesseract OCR的星数互相交替变化,就是这个时代最好的证明。这说明只要算法有突破再加上生态环境好,开源世界的老大位置换起来可比商业竞争要快多了。