平凉市网站建设_网站建设公司_前端开发_seo优化
2025/12/30 16:10:51 网站建设 项目流程

claude-agent-sdk mineru-parser-skill发票识别

2025-12-30 16:05  cwity  阅读(0)  评论(0)    收藏  举报

claude-agent-sdk mineru-parser-skill发票识别

不谈玄学,只讲落地。
我是一名深耕算法工程化一线的实践者,擅长将 新技术、关键技术、AI/ML 技术从论文和 demo 转化为可规模化部署的生产系统。在这里,你看不到堆砌公式的理论空谈,只有真实项目中踩过的坑、趟过的路,每一篇文章都源自实战经验的提炼。我相信技术的价值在于解决真实问题,而不是制造焦虑。如果你也厌倦了"收藏即学会",渴望掌握让算法真正跑起来的硬核能力,那么这里就是你的技术补给站。

摘要

在 AI 驱动的文档处理领域,Claude Agent SDK 和 MinerU 的结合提供了一个解决方案。Claude Agent SDK 的 Skills 功能让 AI 能够调用外部工具和服务,而 MinerU 提供文档解析能力,支持 OCR 和 VLM(视觉语言模型),可提取 PDF、Word、PPT 等文档中的文本、表格、公式和结构化内容。
通过将 MinerU 封装为 Claude Agent SDK 的 Skill,实现了从文档 URL 到结构化 Markdown 的端到端自动化流程。用户只需提供文档链接和自然语言指令,Claude AI 就能自动调用 MinerU API 完成解析、状态轮询和结果提取,最终生成结构化数据。该方案适合发票处理、合同分析、学术论文提取等场景,降低了技术门槛,提升了处理效率和准确性。

核心亮点

  • 智能化工作流:Claude Agent SDK 的 Skills 机制让 AI 能够自主决策何时调用 MinerU,实现智能化文档处理
  • 强大的解析能力:MinerU 支持 OCR 和 VLM 双模型,能够处理复杂布局、手写文字、数学公式等多种内容
  • 异步流式处理:基于异步编程模型,支持实时反馈和进度追踪,提升用户体验
  • 零代码集成:通过 Skills 配置即可完成集成,无需编写复杂的 API 调用逻辑
  • 结构化输出:自动将文档内容转换为 Markdown 格式,便于后续分析和处理
用户指令 → Claude Agent SDK → MinerU Skill → MinerU API → 结构化 Markdown

mineru-pareser发票识别

官方文档

https://platform.claude.com/docs/en/agent-sdk/python

获取mineru-parser skills

https://github.com/nilecui/mineru-parser-skills

git clone https://github.com/nilecui/mineru-parser-skills.git

python -m venv venv
source venv/bin/activate
(venv) nilecui@DESKTOP-28RSMOM:~/demo/mineru-parser-skills$ pip install -r requirements.txt

注册mineru服务

需要申请,这里需要等待几分钟,会发送邮箱通知:

然后创建秘钥就可以了,记得保存秘钥!

运行demo脚本

# 导入秘钥
export MINERU_API_KEY= *******
python demo.py

启动过程

模型用的glm-4.7, 相关配置可参考上篇文章:claude-code 国产glm替代方案,
有时候很快大概20几步就出现了结果,有时达到了70多个请求;可能和我设计的skills有关,如果再加上python脚本,估计就省掉了再创建python脚本的过程,希望大家多提技巧。

结果

参考:
https://platform.claude.com/docs/en/agent-sdk/python
https://github.com/nilecui/mineru-parser-skills

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询