【第三方评测】使用 OmniDocBench 对 Gemini-2.0-flash-exp 进行评测
2025-5-1
| 2025-5-11
字数 1127阅读时长 3 分钟
type
status
date
slug
summary
tags
category
icon
password

安装

测试

根据 demo_data 中的数据跑一个 validation:
  1. predict 数据: demo_data/end2end 目录下
  1. ground truth 数据: demo_data/omnidocbench_demo 目录下

1. md2md 方式

md2md 方式,目前正式数据集已经不适用这种方式,但是比较好构造 ground truth 数据。
  1. predict 数据格式:markdown
  1. ground truth 数据格式:markdown
add ./configs/md2md_wo_info.yaml 文件,内容如下:
运行:

2. end2end 方式

end2end 方式,目前正式数据集支持,需要用此种方式整体进行评估。
  1. predict 数据格式:markdown
  1. ground truth 数据格式:json
输出会保存在 ./result 目录下,以 predict 目录名称命名。
数据和 md2md 会略有不同,但是整体结果会差不多,而且更加精细。

3. 分析数据

使用 ./tools/generate_result_tables.ipynb 进行数据分析,并计算 overall 结果。

下载正式数据集

下载正式数据集:

使用自定义模型进行评测

我们用最新的 gemini-2.0-flash 以及 doc2x 模型进行评测。
  1. 实现模型推理脚本。
我们以 tools/model_infer/Qwen2VL_img2md.py 为模版,使用 OpenRouter 服务 / Gemini 服务 + OpenAI 客户端进行模型推理。
  1. demo_data 中跑通推理 + 评测。
  1. check_data 中跑通正式数据集的推理 + 评测。
推理:
评测:

结果分析

使用 ./tools/generate_result_tables.ipynb 进行结果分析。
Method Type
Methods
TextEdit↓
FormulaEdit↓
FormulaCDM↑
TableTEDS↑
TableEdit↓
Read OrderEdit↓
OverallEdit↓
EN
ZH
EN
ZH
EN
ZH
EN
ZH
EN
ZH
EN
ZH
EN
ZH
Pipeline Tools
MinerU-0.9.3
0.058
0.211
0.278
0.577
66.9
49.5
79.4
62.7
0.305
0.461
0.079
0.288
0.180
0.384
Marker-0.2.17
0.141
0.303
0.667
0.868
18.4
12.7
54.0
45.8
0.718
0.763
0.138
0.306
0.416
0.560
Mathpix
0.101
0.358
0.306
0.454
71.4
72.7
77.9
68.2
0.322
0.416
0.105
0.275
0.209
0.376
Expert VLMs
GOT-OCR
0.187
0.315
0.360
0.528
81.8
51.4
53.5
48.0
0.521
0.594
0.141
0.28
0.302
0.429
Nougat
0.365
0.998
0.488
0.941
17.4
16.9
40.3
0.0
0.622
1.000
0.382
0.954
0.464
0.973
General VLMs
GPT4o
0.144
0.409
0.425
0.606
76.4
48.2
72.75
63.7
0.363
0.474
0.128
0.251
0.265
0.435
Qwen2-VL-72B
0.252
0.251
0.468
0.572
54.9
60.9
59.9
66.8
0.591
0.587
0.255
0.223
0.392
0.408
InternVL2-Llama3-76B
0.353
0.290
0.543
0.701
69.8
49.6
63.8
61.1
0.616
0.638
0.317
0.228
0.457
0.464
Gemini-2.0-flash-exp
0.134
0.223
0.424
0.493
-
-
77.314
71.632
0.212
0.271
0.077
0.159
0.212
0.286
注:公式的 CDM 为空是因为其需要安装 CDM 评测工具后,使用 results/xxx_formula.json 文件进行评测。
 
本文原载自:

 
思考:在这次基于 OmniDocBench 的文档解析评测中,MinerU-0.9.3 的表现是所有模型中最优秀的之一,尤其在中英文文档解析任务中表现出色,远超多数 VLM(视觉语言模型)。以下是具体表现分析:

🥇MinerU 在评测中的主要表现(如下表数据)

指标类别
英文(EN)
中文(ZH)
文本提取 Edit_dist ↓
0.058
0.211
公式提取 Edit_dist ↓
0.278
0.577
公式提取 CDM ↑
66.9
49.5
表格提取 TEDS ↑
79.4
62.7
表格提取 Edit_dist ↓
0.305
0.461
阅读顺序 Edit_dist ↓
0.079
0.288
综合得分 Overall Edit ↓
0.180
0.384

🔍 优势分析:

  1. 文本解析准确度最高
      • 英文 Edit_dist = 0.058,中文也仅 0.211,比 GPT-4o、Gemini-2.0-flash-exp 等通用大模型低非常多。
      • 表明其对文档结构、段落层级、文字块恢复能力极强。
  1. 表格和阅读顺序理解也居前列
      • TEDS(表格结构保真度)最高,为英文 79.4,中文 62.7
      • 阅读顺序误差在所有模型中也最低。
  1. 稳定中英文能力
      • 大多数模型在中英文之间表现不对称,而 MinerU 能稳定输出高质量的中英文解析结果,适用于多语种场景。

📉 相对弱点:

  • 公式提取部分在中文(CDM 49.5)略逊于 Mathpix(72.7),但仍优于绝大多数模型;
  • 在复杂数学视觉结构理解上,可能不如一些专门优化过的模型(如 Mathpix)。

✅ 结论:

MinerU-0.9.3 是本次评测中综合表现最强的文档解析工具,尤其在文本结构还原、表格识别、阅读顺序等方面远超通用多模态大模型,是当前文档结构理解领域的 SOTA(state-of-the-art)系统之一。
  • 推荐
  • 思考
  • 【付费】MinerU 衍生插件:Markdown to EPUB 工具MinerU 技术报告(原文)
    Loading...