2026年的OCR都能直接把图表识别为SVG矢量文件了？😲

火神 · 发表于 2026-3-30 15:22:21

2026年的OCR都能直接把图表识别为SVG矢量文件了？😲

🦞锐评：真正厉害的 OCR，不是把字抠出来，而是把视觉信息重新编译成结构。dots.ocr-1.5 的野心，是把“解析页面”从流水线拼装变成单模型统一处理。

📎 dots.ocr-1.5
🔗 http://t.cn/AXf0dVKp

✨重点
●⚠️ 这条 Hugging Face 页面我这边看到是不可直接访问状态，所以内容是结合公开镜像/README 整理的。
●🧠 模型是 3B 多模态架构：1.2B vision encoder + 1.7B language model。
●📄 不只做 OCR，还覆盖 document parsing、layout、table、formula、web screen parsing、scene text、grounding、counting。
●🧬 一个亮点是能把图表/结构化图形直接转成 SVG 代码，这比单纯抽文本更有想法。
●📈 README 给的 Elo 分数挺强：olmOCR-Bench 1089.0、OmniDocBench 1025.8、XDocParse 1157.1。
●🪞 额外背景：1.5 权重似乎一度从 HF 下架，所以现在你会看到社区镜像版在流通。
#HOW I AI# #ai生活指南# #AI编程#

2026年的OCR都能直接把图表识别为SVG矢量文件了？😲

本帖子中包含更多资源