type
status
date
slug
summary
tags
category
icon
password
安装
测试
根据
demo_data
中的数据跑一个 validation:- predict 数据:
demo_data/end2end
目录下
- ground truth 数据:
demo_data/omnidocbench_demo
目录下
1. md2md 方式
md2md 方式,目前正式数据集已经不适用这种方式,但是比较好构造 ground truth 数据。
- predict 数据格式:markdown
- ground truth 数据格式:markdown
add
./configs/md2md_wo_info.yaml
文件,内容如下:运行:
2. end2end 方式
end2end 方式,目前正式数据集支持,需要用此种方式整体进行评估。
- predict 数据格式:markdown
- ground truth 数据格式:json
输出会保存在
./result
目录下,以 predict 目录名称命名。数据和 md2md 会略有不同,但是整体结果会差不多,而且更加精细。
3. 分析数据
使用
./tools/generate_result_tables.ipynb
进行数据分析,并计算 overall 结果。下载正式数据集
下载正式数据集:
使用自定义模型进行评测
我们用最新的 gemini-2.0-flash 以及 doc2x 模型进行评测。
- 实现模型推理脚本。
我们以
tools/model_infer/Qwen2VL_img2md.py
为模版,使用 OpenRouter 服务 / Gemini 服务 + OpenAI 客户端进行模型推理。- 在
demo_data
中跑通推理 + 评测。
- 在
check_data
中跑通正式数据集的推理 + 评测。
推理:
评测:
结果分析
使用
./tools/generate_result_tables.ipynb
进行结果分析。Method Type | Methods | TextEdit↓ | ㅤ | FormulaEdit↓ | ㅤ | FormulaCDM↑ | ㅤ | TableTEDS↑ | ㅤ | TableEdit↓ | ㅤ | Read OrderEdit↓ | ㅤ | OverallEdit↓ | ㅤ |
ㅤ | ㅤ | EN | ZH | EN | ZH | EN | ZH | EN | ZH | EN | ZH | EN | ZH | EN | ZH |
Pipeline Tools | MinerU-0.9.3 | 0.058 | 0.211 | 0.278 | 0.577 | 66.9 | 49.5 | 79.4 | 62.7 | 0.305 | 0.461 | 0.079 | 0.288 | 0.180 | 0.384 |
ㅤ | Marker-0.2.17 | 0.141 | 0.303 | 0.667 | 0.868 | 18.4 | 12.7 | 54.0 | 45.8 | 0.718 | 0.763 | 0.138 | 0.306 | 0.416 | 0.560 |
ㅤ | Mathpix | 0.101 | 0.358 | 0.306 | 0.454 | 71.4 | 72.7 | 77.9 | 68.2 | 0.322 | 0.416 | 0.105 | 0.275 | 0.209 | 0.376 |
Expert VLMs | GOT-OCR | 0.187 | 0.315 | 0.360 | 0.528 | 81.8 | 51.4 | 53.5 | 48.0 | 0.521 | 0.594 | 0.141 | 0.28 | 0.302 | 0.429 |
ㅤ | Nougat | 0.365 | 0.998 | 0.488 | 0.941 | 17.4 | 16.9 | 40.3 | 0.0 | 0.622 | 1.000 | 0.382 | 0.954 | 0.464 | 0.973 |
General VLMs | GPT4o | 0.144 | 0.409 | 0.425 | 0.606 | 76.4 | 48.2 | 72.75 | 63.7 | 0.363 | 0.474 | 0.128 | 0.251 | 0.265 | 0.435 |
ㅤ | Qwen2-VL-72B | 0.252 | 0.251 | 0.468 | 0.572 | 54.9 | 60.9 | 59.9 | 66.8 | 0.591 | 0.587 | 0.255 | 0.223 | 0.392 | 0.408 |
ㅤ | InternVL2-Llama3-76B | 0.353 | 0.290 | 0.543 | 0.701 | 69.8 | 49.6 | 63.8 | 61.1 | 0.616 | 0.638 | 0.317 | 0.228 | 0.457 | 0.464 |
ㅤ | Gemini-2.0-flash-exp | 0.134 | 0.223 | 0.424 | 0.493 | - | - | 77.314 | 71.632 | 0.212 | 0.271 | 0.077 | 0.159 | 0.212 | 0.286 |
注:公式的 CDM 为空是因为其需要安装 CDM 评测工具后,使用
results/xxx_formula.json
文件进行评测。本文原载自:
思考:在这次基于 OmniDocBench 的文档解析评测中,MinerU-0.9.3 的表现是所有模型中最优秀的之一,尤其在中英文文档解析任务中表现出色,远超多数 VLM(视觉语言模型)。以下是具体表现分析:
🥇MinerU 在评测中的主要表现(如下表数据):
指标类别 | 英文(EN) | 中文(ZH) |
文本提取 Edit_dist ↓ | 0.058 | 0.211 |
公式提取 Edit_dist ↓ | 0.278 | 0.577 |
公式提取 CDM ↑ | 66.9 | 49.5 |
表格提取 TEDS ↑ | 79.4 | 62.7 |
表格提取 Edit_dist ↓ | 0.305 | 0.461 |
阅读顺序 Edit_dist ↓ | 0.079 | 0.288 |
综合得分 Overall Edit ↓ | 0.180 | 0.384 |
🔍 优势分析:
- 文本解析准确度最高:
- 英文
Edit_dist = 0.058
,中文也仅0.211
,比 GPT-4o、Gemini-2.0-flash-exp 等通用大模型低非常多。 - 表明其对文档结构、段落层级、文字块恢复能力极强。
- 表格和阅读顺序理解也居前列:
- TEDS(表格结构保真度)最高,为英文
79.4
,中文62.7
; - 阅读顺序误差在所有模型中也最低。
- 稳定中英文能力:
- 大多数模型在中英文之间表现不对称,而 MinerU 能稳定输出高质量的中英文解析结果,适用于多语种场景。
📉 相对弱点:
- 公式提取部分在中文(CDM 49.5)略逊于 Mathpix(72.7),但仍优于绝大多数模型;
- 在复杂数学视觉结构理解上,可能不如一些专门优化过的模型(如 Mathpix)。
✅ 结论:
MinerU-0.9.3 是本次评测中综合表现最强的文档解析工具,尤其在文本结构还原、表格识别、阅读顺序等方面远超通用多模态大模型,是当前文档结构理解领域的 SOTA(state-of-the-art)系统之一。