最近用Dify做了一个工作流应用,可以实现自动化采集亚马逊商品信息,包括名称、价格、折扣、评分、评论等关键字段,然后使用DeepSeek对商品竞争力、价格、用户口碑进行分析,为跨境卖家提供一份完整的分析报告。
整个工作流搭建用到了几个核心工具,Dify不必多说,是专门用来设计工作流的开源框架,里面集成各种工具、接口、插件、LLM,非常适合做产品原型设计。
其中用于数据采集的是亮数据网页抓取器,Dify上有相应的插件接口,它可以对亚马逊等跨境平台进行关键字段采集,并能自动处理平台的反爬限制,比如设置ip代理池、验证码解锁等技术,所以是比较省心的一个爬虫接口。
https://get.brightdata.com/webscra
这里大概介绍下亮数据,因为网页抓取器是这个工作流的核心节点。亮数据是专门做数据采集的平台,有抓取器、解锁器、远程浏览器、MCP等工具,可以简化网页请求的复杂度,因为它把反爬处理技术嵌入在接口里,用户只需要提交需求和url就能直接采集到数据。
还会用到DeepSeek R1模型,用来对亮数据网页抓取器返回的JSON数据进行解析,提取关键字段,并形成商品分析报告。
接下来讲下这个工作是如何具体实现的。
首先你需要配置Dify应用,可以根据Github教程使用Docker进行部署,对电脑硬件要求比较简单,大于2核CPU、4G运行内存就可以跑。
如果你只是想测试,建议在Dify云版本上部署工作流,但云上的功能配置会有点缩水。
部署好Dify后,下一步需要配置亮数据网页抓取器,你需要先到亮数据平台申请key,它会赠送额度,测试够用了。
小声透露下:下面链接注册每月有5000条免费试用额度,我特别争取到企业用户透过我的连结申请加客户经理可再升级试用额度!
https://get.brightdata.com/webscra
然后在Dify插件里搜索找到亮数据网页抓取器,下载并配置好key后,这个插件就可以用了。
接着再配置DeepSeek API,到DeepSeek平台去申请key,在Dify上配置好就可以用,这里不多赘诉。
做好配置准备后,下面进入工作流搭建。
首先创建“输入”节点,设置输入变量字段:product_url,提示用户输入亚马逊商品链接。
然后开始创建“亮数据网页抓取器”节点,选择“Structured Data Feeds”,并且设置输入变量描述、目标url,选择上一节点的输入变量“product_url”,由于亮数据key在之前已经配置好,这里可以直接用。
下一步创建“LLM”节点,选择配置好的DeepSeek R1模型,设置输入变量和系统prompt,这个很重要,决定LLM输出什么样的内容,可以按照我的模版去设置。
最后创建“输出”节点,展示LLM输出的内容,这里你可以选择直接输出文本,也可以设置导出PDF、Word、Markdown都可以。
整个工作创建好后,呈现以下的结构形式。
随便找个亚马逊商品链接测试下,比如以下的Razer耳机。
执行工作流任务,它就会先采集数据,然后LLM分析数据,最后输出结论。
亮数据抓取器采集到的商品Json数据如下:
DeepSeek提炼Json数据,形成的商品分析报告如下。
核心字段值:
商品特性:
用户评价:
指导建议:
整个流程,DeepSeek提取了亮数据网页抓取器采集到的数据,并进行分析汇总,看起来蛮专业的。
除此之外,亮数据网页抓取器还有搜索引擎模式,可以按照用户需求来查询谷歌搜索,返回数据,比如我让它查询Open AI创始人Sam Altman最近一年在推特上的帖子,并让LLM提取关键信息进行总结。
通过上面Dify工作流的例子,可以看到现在数据采集开发模式发生了很大变化,不再需要你精通编程,也可以通过Dify+亮数据网页抓取器做到。