MinerU v1.3.12：支持ppocrv5模型

type

status

date

slug

summary

更新信息概述

昨天(2025-05-24)，MinerU 进行了一轮小版本更新，当前版本更新到 v1.3.12。

此轮更新围绕 ppocrv5 模型展开，涵盖以下两点：

可通过lang参数lang='ch_server'自行选择相应的模型：

注：ppocrv5(server)对手写文档效果有一定提升，但在其余类别文档的精度略差于v4_server_doc，因此默认的ch模型保持不变。

由于此次更新替换了部分模型，需要重新下载模型，有以下两种下载方式：

运行下载脚本：

运行下载脚本：

如果是 Linux 系统，也可以不手动创建py文件，快速执行以下命令，达成相同效果：

之前我单独把 MinerU 的文本OCR部分单独提取出来，专门建立了一个仓库，方便在其它项目中集成

此次也进行同步更新。

MinerU中的模型配置文件位于：

模型理论效果最好的组合是 ch_server：

因此，把 det 和 rec 模型都进行同步更新。

v5 字典文件文本分类类别数从 6623(v4) 扩展到 18384。

从字典文件中，发现竟然还包括各种表情符号，也就是说，它们也能被ocr识别出来。

实际测试了一下，大部分情况 v5 和 v4 效果差不多，少部分情况，如繁体字，v5 会支持得更好。

v4/v5识别效果对比