MinerU × CAMEL-AI:一键PDF提取,助力多智能体跨文档协作与深度分析
2025-5-1
| 2025-5-11
字数 873阅读时长 3 分钟
type
status
date
slug
summary
tags
category
icon
password

一、MinerU让文档数据活起来

MinerU (https://mineru.net)是由上海人工智能实验室(上海AI实验室)大模型数据基座OpenDataLab团队开源的全新的智能数据提取工具。MinerU 能够快速识别复杂PDF版面元素,将文档转化为清晰、通顺、易读的Markdown格式。其核心能力在于:
● 保留原文档的结构和格式,包括标题、段落、列表等
● 自动删除页眉、页脚、脚注、页码等元素
● 准确提取图片、表格和公式等多模态内容
● 符合人类阅读顺序的排版格式
● 提供完整的版面信息:包括文档元素分类、区块坐标、页码等多维元数据的中间态JSON文件,为智能文档分析、自动化工作流等场景提供结构化数据支持
MinerU代码公开之后,凭借精准、快速的SOTA效果,媲美甚至超过商业软件的性能,获国内外多个技术大V点赞,GitHub Star已突破2.9万,多次登顶GitHub Python Trending,是文档预处理中一个亮眼的开源工具。

二、CAMEL-AI 多智能体协作的开拓者

CAMEL-AI (https://www.camel-ai.org)是一个致力于构建基于大语言模型(LLMs)的多智能体系统的开源平台,其提出的CAMEL框架是最早基于 ChatGPT的autonomous agents的知名项目,已被 NeurlPS 2023录用。该框架通过模块化设计实现多智能体协作。
notion image

三、使用方式

你只需三步即可在 CAMEL-AI 框架“工具”、“数据加载器”2个模块轻松调用 MinerU
1. 首先通过MinerU官网申请API密钥(Token),申请地址:https://mineru.net/apiManage/docs
notion image
2. 随后通过CAMEL-AI的extract_url接口,向MinerU提交文档URL并自动获取任务ID(task_id):
def extract_url(self, url: str) -> Dict: r"""Extract content from a URL document. Args: url (str): Document URL to extract content from. Returns: Dict: Task identifier for tracking extraction progress. """ endpoint = f"{self._api_url}/extract/task" payload = {"url": url} try: response = requests.post( endpoint, headers=self._headers, json=payload, ) response.raise_for_status() return response.json()["data"] except Exception as e: raise RuntimeError(f"Failed to extract URL: {e}")
(extract_url接口代码示意,左右滑动查看)
3. 获得这两项凭证后,开发者可在CAMEL框架的工具模块直接调用MinerURESTful API进行文档解析请求提交;也可以在数据加载器模块通过MinerU Client类实时获取结构化数据流。
完整代码链接:
notion image
(CAMEL-AI 框架中“数据加载器”模块,调用MinerU代码示例)

四、灵活的智能体应用

在这样轻便、灵活、工具丰富的框架里,你能够通过简单的几行代码开发自己的智能体,构建支持多模态文档协同的智能体系统。
例如在金融合同审查场景中,可以在CAMEL-AI创建法律智能体,自动触发MinerU的表格提取功能,将PDF条款转化为Markdown格式并注入多智能体协作流程,整个过程无需人工干预即可完成端到端解析与决策。
还有更多好玩的功能等你探索,快来申请 MinerU API服务吧:
 
  • 开发
  • MinerU 评测集 OmniDocBench 技术报告(原文)介绍一款基于 MinerU 的PDF翻译工具
    Loading...