公告
🎉感谢续我命的奶茶钱!🎉
notion image
🌹 MinerU 资源汇总及博客说明

MienrU各类资源汇总及开设这个博客的初衷

警惕MonkeyOCR项目中的许可证合规风险:商用存在严重风险

本文探讨了开源项目 MonkeyOCR(Apache 2.0 许可证)与其依赖项 doclayout_yolo(AGPL 3.0 许可证)之间可能存在的许可证冲突及其对商业使用的潜在风险。

MinerU v2.0:0.9BVLM模型捅破解析效果天花板!

MinerU发布v2.0版本,通过仅0.9B参数的VLM模型实现文档解析效果突破,支持PDF/JPG/PNG格式并优化部署流程,实测性能超越传统72B级模型。

OCR太多?这个真不一样!3B模型速度碾压7B巨头!原生支持跨页表格/段落合并的OCR工具!

OCRFlux 是一款由 ChatDOC 团队开源的 OCR 工具,它以 3B 参数的高效模型,革新了 PDF 到 Markdown 的转换体验,特别是在原生支持跨页表格/段落合并和处理复杂文档结构方面表现出色。

GraphRAG的优劣势及文档解析结合RL强化学习新思路Infinity Parser

Infinity Parser创新性地将强化学习与文档解析结合,通过多维度奖励函数优化Qwen2.5-VL模型生成结构化Markdown的能力,同时GraphRAG在复杂推理任务中展现出超越传统RAG的多跳推理优势但需权衡计算效率。

PDF解析的“火眼金睛”:重磅!MonkeyOCR发布,颠覆传统OCR

MonkeyOCR是一款轻量级高性能多模态大模型,在PDF文档解析任务中显著提升了文本、表格和公式的识别准确率与处理速度,超越了包括Gemini 2.5 Pro在内的多个顶级大模型。

首次揭秘!腾讯多模态OCR大模型最新技术演进:没有最强OCR,只有无限进化!

腾讯优图实验室推出第五代OCR大模型DocLM v5,通过内容感知视觉过滤和文档对象对比学习技术,实现复杂文档95%+识别准确率与5ms/Token的高效处理,已应用于物流、医疗等行业的智能化升级。

一文读懂向量数据库,原理到应用全解析!

向量数据库通过高效索引高维向量实现多模态数据快速检索,成为大模型时代处理长上下文和私有知识的关键基础设施,其核心算法HNSW/IVF-PQ等技术在精度与速度间取得平衡。

Gemini CLI 产品体验

谷歌开源Gemini CLI终端工具,支持直接调用大模型处理任务,但实测显示当前版本存在权限限制和功能完善度不足的问题。分享 选择其他模型回答生成思维导图翻译网页阅读文档全部Monica

MinerU v1.3.12:支持ppocrv5模型

MinerU v1.3.12版本更新:全面升级PP-OCRv5模型,优化手写文档识别能力,并支持更丰富的字符集(包括表情符号),同时保持对PP-OCRv4模型的兼容性。

PaddleOCR 3.0发布:OCR精度跃升13%,支持多语种、手写体与高精度文档解析

飞桨团队发布PaddleOCR 3.0,通过PP-OCRv5、PP-StructureV3和PP-ChatOCRv4三大核心方案实现多语言识别精度提升13%、复杂文档解析及大模型深度集成,全面适配国产硬件并开源。