MienrU各类资源汇总及开设这个博客的初衷

MinerU 资源汇总及博客说明

本文探讨了开源项目 MonkeyOCR（Apache 2.0 许可证）与其依赖项 doclayout_yolo（AGPL 3.0 许可证）之间可能存在的许可证冲突及其对商业使用的潜在风险。

警惕MonkeyOCR项目中的许可证合规风险：商用存在严重风险

MinerU发布v2.0版本，通过仅0.9B参数的VLM模型实现文档解析效果突破，支持PDF/JPG/PNG格式并优化部署流程，实测性能超越传统72B级模型。

MinerU v2.0：0.9BVLM模型捅破解析效果天花板！

OCRFlux 是一款由 ChatDOC 团队开源的 OCR 工具，它以 3B 参数的高效模型，革新了 PDF 到 Markdown 的转换体验，特别是在原生支持跨页表格/段落合并和处理复杂文档结构方面表现出色。

OCR太多？这个真不一样！3B模型速度碾压7B巨头！原生支持跨页表格/段落合并的OCR工具！

Infinity Parser创新性地将强化学习与文档解析结合，通过多维度奖励函数优化Qwen2.5-VL模型生成结构化Markdown的能力，同时GraphRAG在复杂推理任务中展现出超越传统RAG的多跳推理优势但需权衡计算效率。

GraphRAG的优劣势及文档解析结合RL强化学习新思路Infinity Parser

迈向通用文字识别：文档智能模型的进展与趋势

文档智能模型的进展与趋势 (VALSE 2025大会报告PPT)

MonkeyOCR是一款轻量级高性能多模态大模型，在PDF文档解析任务中显著提升了文本、表格和公式的识别准确率与处理速度，超越了包括Gemini 2.5 Pro在内的多个顶级大模型。

PDF解析的“火眼金睛”：重磅！MonkeyOCR发布，颠覆传统OCR

腾讯优图实验室推出第五代OCR大模型DocLM v5，通过内容感知视觉过滤和文档对象对比学习技术，实现复杂文档95%+识别准确率与5ms/Token的高效处理，已应用于物流、医疗等行业的智能化升级。

首次揭秘！腾讯多模态OCR大模型最新技术演进：没有最强OCR，只有无限进化！

向量数据库通过高效索引高维向量实现多模态数据快速检索，成为大模型时代处理长上下文和私有知识的关键基础设施，其核心算法HNSW/IVF-PQ等技术在精度与速度间取得平衡。

一文读懂向量数据库，原理到应用全解析！

谷歌开源Gemini CLI终端工具，支持直接调用大模型处理任务，但实测显示当前版本存在权限限制和功能完善度不足的问题。分享
选择其他模型回答生成思维导图翻译网页阅读文档全部Monica

Gemini CLI  产品体验

MinerU v1.3.12版本更新：全面升级PP-OCRv5模型，优化手写文档识别能力，并支持更丰富的字符集（包括表情符号），同时保持对PP-OCRv4模型的兼容性。

MinerU v1.3.12：支持ppocrv5模型

飞桨团队发布PaddleOCR 3.0，通过PP-OCRv5、PP-StructureV3和PP-ChatOCRv4三大核心方案实现多语言识别精度提升13%、复杂文档解析及大模型深度集成，全面适配国产硬件并开源。

PaddleOCR 3.0发布：OCR精度跃升13%，支持多语种、手写体与高精度文档解析

本文详细介绍了MinerU MCP Server的架构、安装配置方法及使用场景，该服务作为连接大语言模型与文档处理工具的中间层，支持通过标准化协议实现PDF等文档的Markdown转换，并提供了本地与远程API两种部署方式及常见问题解决方案。

MinerU MCP Server源码发布！打通大模型与MinerU，让 PDF 文档处理更 easy

"MinerU与Cherry Studio达成合作，集成文档解析能力，用户可享每日500页免费预处理额度，提升知识库构建与对话交互效率。”

MinerU × Cherry Studio：知识库再添动力！

Doc2X文档解析工具支持PDF/图片转多种格式，提供API接口和双语对照功能，适用于学术和企业场景。

Doc2X：文档解析与翻译转换的AI全方位解决方案

通过MinerU对扫描版PDF进行智能解析预处理，成功解决Dify知识库对教材内容识别率低的问题，让AI准确召回四年级数学公式和语文诗词考点。

Windows11本地安装MinerU对扫描版pdf做预解析后提升Dify知识库识别率

本文深入拆解了MinerU的解析处理流程，包括读取配置文件、判断PDF类型、布局分析、公式处理、OCR识别、表格识别等步骤，并介绍了MinerU的内部操作细节和源代码实现。

深入拆解 MinerU 解析处理流程

本文对比了MinerU和DeepDoc两种文档解析工具的优缺点和使用场景，并探讨了如何将MinerU集成到RAGFlow框架中以实现更好的文档解析和图片显示效果。

MinerU vs DeepDoc：集成方案+图片显示优化

本文介绍了开源项目MinerU，它通过一行代码高效地将PDF、网页和电子书等复杂格式转换为Markdown或JSON，极大提升了数据处理效率。

效率革命！GitHub爆火的开源神器MinerU：PDF、网页、电子书一键转Markdown

本文详细介绍了MinerU 作为一个使用 PyTorch 运行模型的程序，需要依赖 PyTorch 和 torchvision 库，并可通过 CUDA 或 MPS 加速工具提高运行速度。

零基础入门：MinerU 和 PyTorch、CUDA的关系

本文介绍了一个基于 LitServe 的多 GPU 并行处理方案，提供了简便且灵活的 AI 模型服务引擎，能够实现批处理、流式传输和 GPU 自动扩展等功能。

MinerU 一个服务化的可多GPU并行处理的方案

本文提供了MinerU本地部署的详细教程，包括环境配置、模型下载、CUDA加速配置、API服务配置等步骤，并附有卸载和删除环境的方法，旨在帮助用户成功部署MinerU并进行PDF文档解析。

MinerU 本地部署保姆级“喂饭”教程

本文详细介绍了如何在Dify中配置和使用MinerU插件，以搭建高效的文档解析和问答工作流。

MinerU Dify 插件超详细配置攻略，附工作流搭建案例

MinerU 1.3.10 本地离线环境整合一键包及使用教程

本文详细介绍了MinerU这一高效的开源工具及其在处理扫描文档和PDF中的应用，展示了如何将其输出转化为Markdown和EPUB格式以提升文档解析和阅读体验。

优化 RAG 知识库：告别 PDF 公式噩梦，拥抱 MinerU 的优雅

本文概述了MinerU作为一款高效的开源工具，如何处理扫描文档和PDF，并将其转化为Markdown和EPUB格式，以提升文档解析及阅读体验。

OCR 工具小横评：微信、Umi-OCR、MinerU、ABBYY FineReader 谁更胜一筹？

【付费】MinerU 衍生插件：Markdown to EPUB 工具

该文档介绍了如何使用 OmniDocBench 框架评估 Gemini-2.0-flash-exp 模型在文档解析任务中的表现，并提供了模型推理、评测流程及最终与其他模型对比的评测结果。

【第三方评测】使用 OmniDocBench 对 Gemini-2.0-flash-exp 进行评测

这是MinerU的技术报告，介绍了MienrU这个用于高精度文档内容提取的开源解决方案。 MinerU 利用先进的 PDF-Extract-Kit 模型有效地从各种文档中提取内容，并采用精细调整的预处理和后处理规则来确保最终结果的准确性。

MinerU 技术报告（原文）

这是OmniDocBench评测集的技术报告，介绍了这包含跨九种文档来源的高质量全面标注的新型基准，它通过支持灵活的多层次评估，旨在为PDF文档解析提供公平、多样化且细粒度的评测，以解决现有基准在文档类型覆盖和评估程序方面的局限性。

MinerU 评测集 OmniDocBench 技术报告（原文）

本文详细介绍了MinerU 成功集成于 CAMEL-AI 多智能体协作框架中，成为其支撑智能体的关键文档处理工具及数据加载器，开发者可以通过 MinerU API 将 PDF 文档秒级转化为结构化数据流，助力多智能体应用注入高质量的多模态数据。

MinerU × CAMEL-AI：一键PDF提取，助力多智能体跨文档协作与深度分析

本文介绍了一款基于MinerU的PDF翻译工具Fast PDF Translate，它可以将PDF文件翻译成中文markdown并生成中文PDF。

介绍一款基于 MinerU 的PDF翻译工具

本文介绍了MinerU和LazyLLM的结合，实现PDF无损拆包和RAG应用，提供了PDF解析组件选型和RAG案例分享，展示了MinerU在PDF解析中的优势和LazyLLM在RAG应用中的灵活性。