MinerU 1.3.10 本地离线环境整合一键包及使用教程
2025-5-13
| 2025-5-13
字数 1395阅读时长 4 分钟
type
status
date
slug
summary
tags
category
icon
password

一、项目背景

考虑到MinerU的环境配置相对复杂,特此制作了Windows系统的环境一键整合包,方便用户使用。该整合包包含使用说明文档,适用于Windows11系统。

二、下载地址

MinerU环境一键整合包下载地址 (含历史版本)

三、使用说明

使用非常简单,无需复杂安装部署,下载后解压即可使用。已经包含了模型,整合了Python单独的环境以及所需的包,独立不干扰系统环境,小白也能轻松上手,也可用于二次开发。
  • 使用前准备:需要安装里面的cuda,安装cuda的教程可自行百度,如果已经安装请忽略。如果之前安装有cuda报错,可卸载之前的cuda,安装整合包中的cuda11.8版本。
  • 解压注意事项:解压后可运行,可解压到任意位置,但路径最好不要包含中文或有空格的文件夹,以免导致各种问题
notion image

3.1 网页版

点击运行运行网页版.bat, 运行网页版界面,
除此之外, 将页数限制改成了100000, 新增支持一次处理多个文件, 文件格式支持多种
notion image

3.2 桌面版

点击运行桌面版.bat, 运行桌面版界面, 功能和网页版的差不多, 喜欢用哪个选哪个
notion image

四、文件说明

models # 模型目录 output # 输出文件夹 projects # 项目文件夹 python # 环境文件夹 magic-pdf.json # magic-pdf配置文件 small_ocr.pdf # PDF测试文件 运行桌面版.bat # 桌面版运行脚本 运行网页版.bat # 网页版运行脚本

五、脚本说明

如果需要使用脚本命令, 或需要是二次开发, 请解压到D:\MinerU, 因为生成的exe硬编码了路径, 所以只能解压到这个位置, 不然路径会出错.

5.1 运行脚本方式1

可以先把D:\MinerU\python 和D:\MinerU\python\Scripts 这两个目录添加到系统环境变量, 这样可以直接运行官方命令
magic-pdf --help Usage: magic-pdf [OPTIONS] Options: -v, --version display the version and exit -p, --path PATH local filepath or directory. support PDF, PPT, PPTX, DOC, DOCX, PNG, JPG files [required] -o, --output-dir PATH output local directory [required] -m, --method [ocr|txt|auto] the method for parsing pdf. ocr: using ocr technique to extract information from pdf. txt: suitable for the text-based pdf only and outperform ocr. auto: automatically choose the best method for parsing pdf from ocr and txt. without method specified, auto will be used by default. -l, --lang TEXT Input the languages in the pdf (if known) to improve OCR accuracy. Optional. You should input "Abbreviation" with language form url: ht tps://paddlepaddle.github.io/PaddleOCR/en/ppocr /blog/multi_languages.html#5-support-languages- and-abbreviations -d, --debug BOOLEAN Enables detailed debugging information during the execution of the CLI commands. -s, --start INTEGER The starting page for PDF parsing, beginning from 0. -e, --end INTEGER The ending page for PDF parsing, beginning from 0. --help Show this message and exit. ## show version magic-pdf -v ## command line example magic-pdf -p {some_pdf} -o {some_output_dir} -m auto
比如对一个路径为PDF目录里边的文件进行遍历转换处理, 命令行为
magic-pdf -p PDF目录 -o PDF输出目录 -m auto

5.2 运行脚本方式2

如果不添加到环境变量, 在D:\MinerU 目录下, 使用右键打开命令行输入
./python/Scripts/magic-pdf.exe -p PDF目录 -o PDF输出目录 -m auto
或者直接用绝对路径
D:/MinerU/python/Scripts/magic-pdf.exe -p PDF目录 -o PDF输出目录 -m auto
notion image
notion image
对python的包进行管理, 命令为
./python/python.exe -m pip install xxx ./python/python.exe -m pip install -U "magic-pdf[full]"
如果确实需要放到别的盘使用, 则需要重装pip和magic-pdf等你需要的包, 重装的时候会重新生成所在目录python\Scripts的exe文件
./python/python.exe -m pip install -U "magic-pdf[full]"

六、更新

如果要自行更新(前提官方模型没更新, api没变动)
可以使用下面更新命令进行更新(不同的源可能magic-pdf版本不一样)
./python/python.exe -m pip install -U "magic-pdf[full]"
更新完需要修改文件, 不然会提示模型路径出错
修改文件D:\MinerU\python\Lib\site-packages\magic_pdf\libs\config_reader.py
将11行左右
# 定义配置文件名常量 CONFIG_FILE_NAME = os.getenv('MINERU_TOOLS_CONFIG_JSON', 'magic-pdf.json')
改为
# 定义配置文件名常量 # CONFIG_FILE_NAME = os.getenv('MINERU_TOOLS_CONFIG_JSON', 'magic-pdf.json') # 获取当前目录 current_dir = os.getcwd() print("当前目录为: ", current_dir) CONFIG_FILE_NAME = os.path.join(current_dir, "magic-pdf.json") print("当前配置路径为: ", CONFIG_FILE_NAME)
将66行左右
models_dir = config.get('models-dir')
改为
models_dir = config.get('models-dir') models_dir = os.path.join(current_dir, models_dir) print(f"当前模型目录为: {models_dir}")
notion image
notion image
修改文件D:\MinerU\python\Lib\site-packages\paddleocr\paddleocr.py
将66行左右
BASE_DIR = os.path.expanduser("~/.paddleocr/")
改为
BASE_DIR = os.path.join(os.getcwd(), "models", "paddleocr") print(f"paddleocr模型的目录为: {BASE_DIR}")
这样更新完模型的路径才不会报错

命令行使用

官方的命令使用
magic-pdf -p {some_pdf} -o {some_output_dir} -m auto
在MinerU目录右键启动cmd, 或者启动cmd切换到MinerU目录, 运行下列命令
./python/Scripts/magic-pdf.exe -p {some_pdf} -o {some_output_dir} -m auto
例如
./python/Scripts/magic-pdf.exe -p small_ocr.pdf
或者路径填magic-pdf.exe所在的绝对路径, 例如
G:/MinerU/python/Scripts/magic-pdf.exe -p small_ocr.pdf
如果包损坏了, 可以通过下面两个命令进行重新下载更新
./python/python.exe -m pip install -U magic-pdf[full] ./python/python.exe -m pip install -r ./projects/web_demo/requirements.txt

七、开发使用

在pycharm里环境变量填python/python.exe所在目录
notion image

八、疑难解答

如运行遇到报错,建议留言附带电脑配置信息(如i7-11800H, 内存16G, 显卡RTX 3060 12G),所用系统(如Win11、Win10等),显卡驱动版本,cuda版本等,以便更好地排查问题。
 
  • 工具
  • 教程
  • MinerU Dify 插件超详细配置攻略,附工作流搭建案例优化 RAG 知识库:告别 PDF 公式噩梦,拥抱 MinerU 的优雅
    Loading...