工具 | 标签 | MinerU小站

|

工具

MinerU发布v2.0版本，通过仅0.9B参数的VLM模型实现文档解析效果突破，支持PDF/JPG/PNG格式并优化部署流程，实测性能超越传统72B级模型。

文章详情

|

工具

开发

OCRFlux 是一款由 ChatDOC 团队开源的 OCR 工具，它以 3B 参数的高效模型，革新了 PDF 到 Markdown 的转换体验，特别是在原生支持跨页表格/段落合并和处理复杂文档结构方面表现出色。

文章详情

|

工具

MonkeyOCR是一款轻量级高性能多模态大模型，在PDF文档解析任务中显著提升了文本、表格和公式的识别准确率与处理速度，超越了包括Gemini 2.5 Pro在内的多个顶级大模型。

文章详情

|

工具

腾讯优图实验室推出第五代OCR大模型DocLM v5，通过内容感知视觉过滤和文档对象对比学习技术，实现复杂文档95%+识别准确率与5ms/Token的高效处理，已应用于物流、医疗等行业的智能化升级。

文章详情

|

工具

向量数据库通过高效索引高维向量实现多模态数据快速检索，成为大模型时代处理长上下文和私有知识的关键基础设施，其核心算法HNSW/IVF-PQ等技术在精度与速度间取得平衡。

文章详情

|

工具

谷歌开源Gemini CLI终端工具，支持直接调用大模型处理任务，但实测显示当前版本存在权限限制和功能完善度不足的问题。分享选择其他模型回答生成思维导图翻译网页阅读文档全部Monica

文章详情

|

工具

"MinerU与Cherry Studio达成合作，集成文档解析能力，用户可享每日500页免费预处理额度，提升知识库构建与对话交互效率。”

文章详情

|

工具

本文详细介绍了MinerU 作为一个使用 PyTorch 运行模型的程序，需要依赖 PyTorch 和 torchvision 库，并可通过 CUDA 或 MPS 加速工具提高运行速度。

|

项目无需安装部署，解压即用

|

本文概述了MinerU作为一款高效的开源工具，如何处理扫描文档和PDF，并将其转化为Markdown和EPUB格式，以提升文档解析及阅读体验。

|

本文需要输入密码才可访问

|

这是OmniDocBench评测集的技术报告，介绍了这包含跨九种文档来源的高质量全面标注的新型基准，它通过支持灵活的多层次评估，旨在为PDF文档解析提供公平、多样化且细粒度的评测，以解决现有基准在文档类型覆盖和评估程序方面的局限性。

文章详情