AI Agent Harness Engineering 与机器人流程自动化:RPA 2.0 时代的核心竞争力

张开发
2026/4/18 12:18:00 15 分钟阅读

分享文章

AI Agent Harness Engineering 与机器人流程自动化:RPA 2.0 时代的核心竞争力
AI Agent Harness Engineering 与机器人流程自动化RPA 2.0 时代的核心竞争力一、引言Introduction1.1 钩子从“流水线工人的噩梦”到“数字劳动力的指挥官”你是否见过一家传统制造业的ERP审批专员的一天吗让我们先构建一个真实感极强的、哪怕是虚构但在现实中每天都在全球各地数百万办公室发生数万次的数字场景北京朝阳区某跨国快消品巨头亚太区总部23层的供应链审批工位上戴着黑框眼镜、每天咖啡杯上印着“CtrlC/CtrlV使我快乐又秃头”的张小明早上8点15分准时坐到工位。他的第一项任务不是打开邮件客户端Outlook是的这是集团的规定哪怕公司内部有Teams聊非结构化沟通优先但涉及亚太区各国的供应商邮件必须保留纸质转PDF扫描件的邮件还是得从Outlook拖出来——邮件系统的API接口权限只开放给新加坡总部的IT技术架构组各国的业务岗连邮件附件批量下载的插件都装不了——哦不对是IT部门2021年上线过一个叫“亚太区供应商自动整理员1.0”的RPA机器人但那个机器人去年年底就“躺平了。为什么躺平张小明喝了一口冰美式苦涩地笑了笑上个月东南亚区新增了三个泰国、马来西亚、印度尼西亚的供应商他们的PDF采购申请格式跟大陆、新加坡完全不一样——原来大陆是宋体四号加粗的“XX集团供应商采购申请”、原来马来西亚是英文Times New Roman 12号斜体带阿拉伯数字序号开头的“Purchase Request For Approval”、原来泰国是泰文英文混排连页眉页脚都印着当地宗教元素的——哦那个东南亚采购申请、原来印度尼西亚有时候干脆连PDF都是手写体转的——对印度尼西亚的供应商老板有时候会直接手写一张纸签上自己的印尼语签名旁边再盖一个歪歪扭扭的木质印章然后让财务就扫描成PDF直接发过来。那个2021年的RPA1.0机器人是怎么做的它依赖于**“像素匹配”或者“固定模板OCR预定义字段位置”——对当时IT部门跟大陆、新加坡的供应商定了三个固定的OCR模板每个模板上的“供应商名称”、“采购金额人民币/美元/新加坡元哦新加坡元那个版本的机器人躺得更早因为汇率波动大的时候有时候供应商会直接在PDF里手写备注汇率换算说明机器人的像素匹配就炸了备注把备注框框住了本来应该是“供应商名称的位置——对备注框有时候不小心挪动了0.5厘米机器人就像个突然失明的流水线工人要么抓取不到任何数据要么把备注里的“今日汇率1:7.2345”当成了“供应商名称”要么把供应商名称里的“XX有限公司泰国分公司”当成了“采购金额”要么直接报错说“金额格式错误请联系IT部门”——IT部门那段时间每天要处理200多封张小明们的邮件后来干脆停掉了所有非大陆非新加坡非越南哦越南那时候模板只做了越南纯英文不带宗教元素的的机器人工作流。现在张小明怎么办他每天早上8点15分到下午5点半除了中午1小时的午餐时间和上厕所的15分钟其他时间几乎全在做三件事**打开Outlook的“亚太区非大陆非新加坡非越南纯英文不带宗教”文件夹”——哦文件夹的名字越来越长Outlook的收件箱规则已经被他建了30多个——打开文件夹拖出每一封符合要求但又不符合1.0机器人能处理的PDF**CtrlC、CtrlV把供应商名称、采购金额还要手动换算成集团统一的美元查当天中国人民银行公布的中间价或者集团亚太区财务中心早上7点半发的Teams群通知里的汇率、采购日期、采购物品清单、供应商老板的签名确认、歪歪扭扭的木质印章识别哦他还要用手机上的翻译软件把泰文印尼文的签名或者备注翻译成英文再用PS软件里的印章检测工具看印章是不是真的——集团有一个印章库但那个印章库的API接口权限也只开放给新加坡总部张小明只能截图下来用肉眼比对——比对东南亚区有5万多个供应商印章他有时候眼睛都看花了、印尼手写签名比对哦手写签名比对的API接口权限也只开放给新加坡总部张小明只能截图下来用手机上的某个收费的手写签名比对APP——哦APP的名字叫“签名大师Pro”这个APP是他自己掏腰包花了99块钱一年订阅的因为IT部门不让装盗版软件他说公司财务不给报销这个APP的费用说这是“业务岗的“个人办公技能需求”——哦业务岗的个人办公技能需求是什么就是CtrlC/CtrlV加上肉眼识别歪歪扭扭的木质印章和手写签名对吧**把这些数据手动复制粘贴到集团统一的SAP ERP系统里——SAP ERP系统的界面也是固定的像素匹配吗不SAP ERP系统的界面有时候会因为集团总部的IT技术架构组每周一凌晨3点的自动更新——自动更新有时候会把采购申请提交的按钮从右上角移动到右下角或者把“供应商名称”的输入框从左边移动到右边——张小明上个月月底因为更新后不小心把供应商名称输入到了“采购金额”的输入框里提交了一个采购金额是“XX有限公司泰国曼谷分公司”的采购申请导致财务总监在亚太区周会上点名批评了供应链审批组说他们“工作态度极其不认真”——张小明那段时间差点被开除。这就是“流水线工人的噩梦”——哦不对这是“数字流水线工人的噩梦”。这些工作单调、重复、枯燥、没有任何创造性、没有任何成就感、还容易出错、出错了还要背锅、背锅了还要被开除、背锅了还要自己掏腰包买各种API接口权限不给开放的办公工具——这些工具本来应该是由数字劳动力来做的对吧那什么是“数字劳动力的指挥官”哦我们再构建一个同样是这家跨国快消品巨头亚太区总部23层的供应链审批工位的场景但这个场景是在2025年——也就是2年之后——哦不用2年之后其实现在已经有一些先锋企业在这样做了同样的北京朝阳区某跨国快消品巨头亚太区总部23层的供应链审批工位上戴着同款黑框眼镜、同款咖啡杯但咖啡杯上印着“数字劳动力指挥官使我秃头但也使我快乐”的张小明早上8点15分准时坐到工位。他的第一项任务不是打开Outlook不是打开Teams不是打开SAP ERP系统不是打开“签名大师Pro”——哦他甚至不用打开手机——他只需要打开一个叫“亚太区数字劳动力管理中心”的Web应用——这个Web应用是集团总部的AI技术架构组2023年上线的——然后他看到的界面上有一个叫“张小明专属的数字助理小明一号”——哦这个数字助理是由AI Agent Harness Engineering也就是我们今天要讲的第一个核心概念中文翻译为“AI代理编排工程”——后面我们会详细解释什么是AI Agent Harness Engineering平台自动为他定制的——然后界面上显示的是数字助理小明一号今日工作简报8:00-8:15已自动完成Outlook收件箱自动扫描与分类整理自动扫描了亚太区23个国家和地区的2178封供应商邮件自动分类整理到了37个新建的或现有的符合AI模型自动学习到的文件夹PDF采购申请自动处理自动处理了1892封符合要求的PDF采购申请自动识别了所有的PDF格式——不管是固定模板的不管是模板变动0.5厘米的不管是英文泰文印尼文混排的不管是手写体转PDF的不管是备注框框住了备注或者供应商名称的不管是页眉页脚印着当地宗教元素的——哦备注框框住了供应商名称没关系小明一号用的是多模态大语言模型Multimodal Large Language Model简称MLLM后面我们会详细解释 微调后的文档理解模型Document Understanding Model简称DUM后面我们会详细解释 模板自动发现与自动更新模型Template Discovery Auto-Updating Model后面我们会详细解释——哦备注框框住了供应商名称也没关系小明一号用的是语义理解Semantic Understanding而不是像素匹配或者固定模板OCR预定义字段位置——语义理解懂中文懂英文懂泰文懂印尼文懂37种语言对吧自动抓取了所有的字段——不管是供应商名称、采购金额、采购日期、采购物品清单、备注、汇率换算说明——哦汇率换算说明小明一号还会自动查询当天中国人民银行公布的中间价或者集团亚太区财务中心早上7点半发的Teams群通知里的汇率——哦Teams群通知里的汇率有时候是用表格的有时候是用图片的有时候是用语音的——没关系小明一号用的是多模态大语言模型——哦语音的也能自动转成文字对吧自动识别了所有的供应商老板的手写签名和歪歪扭扭的木质印章——哦手写签名比对和木质印章比对的API接口权限现在开放给了数字助理小明一号——小明一号自动调用了新加坡总部的印章库API接口和手写签名库API接口——哦准确率是99.999%对吧自动把这些数据填充到了集团统一的SAP ERP系统里——哦SAP ERP系统的界面自动更新了没关系小明一号用的是UI自动化引擎UI Automation Engine 计算机视觉大语言模型Computer Vision Large Language Model简称CV-LLM后面我们会详细解释 流程自动学习与自动修复模型Process Mining Auto-Repair Model后面我们会详细解释——哦UI自动化引擎懂怎么操作SAP ERP系统不管界面怎么变动对吧异常处理与预警自动检测到了286封异常的PDF采购申请自动把这些异常的PDF采购申请分类整理到了“张小明专属异常处理文件夹”自动给每一封异常的PDF采购申请加上了异常原因标签——比如“印章比对失败相似度只有45%”、“手写签名比对失败相似度只有30%”、“采购金额超过了100万美元需要手动审批”、“采购物品清单里的某个物品不在集团的供应商准入清单里”——哦集团的供应商准入清单API接口权限现在也开放给了数字助理小明一号自动给张小明发了一条Teams群通知——哦是私人Teams群通知不是群聊自动给每一封异常的PDF采购申请准备了一份“异常处理建议文档”——比如“建议供应商重新扫描一份更清晰的印章和手写签名的PDF”、“建议联系供应商准入组确认这个物品的供应商是否在准入清单里”然后张小明喝了一口热拿铁——哦现在他终于不用喝冰美式了因为他现在有时间泡一杯热拿铁了——然后他只需要处理那286封异常的PDF采购申请——哦286封看起来很多但其实每一封都有异常处理建议文档他只需要点击一下“同意”或者“不同意”或者“联系供应商准入组”或者“联系供应商重新扫描”——哦“联系供应商准入组”或者“联系供应商重新扫描”他也不用自己写邮件或者发Teams群通知他只需要点击一下按钮数字助理小明一号就会自动写好邮件或者发好Teams群通知——哦邮件或者Teams群通知的内容也是由多模态大语言模型自动生成的懂中文懂英文懂泰文懂印尼文懂37种语言对吧然后张小明处理完这286封异常的PDF采购申请之后他只需要花1小时的时间做“高级数据分析”——哦他现在终于有时间做高级数据分析了因为他现在是“数字劳动力的指挥官”了——比如分析东南亚区新增的三个泰国、马来西亚、印度尼西亚的供应商的采购趋势比如分析东南亚区新增的三个泰国、马来西亚、印度尼西亚的供应商的采购金额波动比如分析东南亚区新增的三个泰国、马来西亚、印度尼西亚的供应商的采购物品清单然后给供应链总监写一份“东南亚区新增供应商采购趋势分析报告”——哦这份报告也是由多模态大语言模型自动生成的张小明只需要修改一下几个关键数据和几个关键结论就行。然后下午3点半张小明就可以下班了——哦不是是提前下班去接孩子放学——哦集团现在已经实行了“弹性工作制”因为供应链审批组的工作效率提高了1000%以上——哦原来张小明每天只能处理200封左右的PDF采购申请现在数字助理小明一号每天能处理20000封左右的PDF采购申请——哦工作效率提高了100倍对吧哦原来供应链审批组有30多个人现在供应链审批组只有3个人——哦其他27个人都转岗到了“高级数据分析岗”、“供应商关系管理岗”、“数字劳动力训练师岗”——哦“数字劳动力训练师岗”就是负责训练AI Agent的对吧这就是“数字劳动力的指挥官”。这就是RPA 2.0时代。这就是AI Agent Harness Engineering与机器人流程自动化结合起来产生的核心竞争力。1.2 定义问题/阐述背景从RPA 1.0的“瓶颈与困境”到RPA 2.0的“机遇与挑战”1.2.1 什么是RPARPA 1.0是什么RPA 1.0的核心特征是什么在讲RPA 2.0之前我们必须先明确什么是RPA什么是RPA 1.0。核心概念RPARobotic Process Automation机器人流程自动化——哦这个概念最早可以追溯到20世纪90年代末到21世纪初当时出现了一些“屏幕抓取Screen Scraping工具比如Citrix、Microsoft Macro Express Pro、Blue Prism的早期版本——但真正意义上的RPA 1.0商业化是在2015年左右当时出现了一批商业化的RPA平台比如Blue Prism、UiPath、Automation Anywhere——这三个平台被称为RPA领域的“三巨头Big Three”。RPA 1.0的核心定义来自Gartner 2018年的技术成熟度曲线报告RPA是一种通过“软件机器人Software Bots也称为数字劳动力”来模拟人类员工与计算机系统的用户界面User Interface简称UI进行交互的技术它可以自动执行一些结构化、重复性、高频率、低风险、规则明确、不需要人类创造力、不需要人类判断力、不需要人类语义理解、不需要人类异常处理能力的业务流程比如数据录入、数据核对、数据迁移、发票处理、工资单处理、邮件分类整理、财务报表生成、银行对账、客户信息更新、订单处理、库存管理、等等。RPA 1.0的核心特征结构化数据依赖Structured Data DependencyRPA 1.0只能处理**结构化数据Structured Data——也就是存储在关系型数据库比如MySQL、Oracle、SQL Server里的、有明确的字段定义、有明确的数据格式、有明确的数据类型、有明确的数据长度、有明确的数据关系的数据或者是存储在Excel表格、CSV文件里的、有明确的表头、有明确的列定义、有明确的行定义的数据——哦Excel表格有时候如果表头变动了或者列变动了或者行变动了RPA 1.0就会“躺平”。固定UI依赖Fixed UI DependencyRPA 1.0只能操作**固定的UI界面Fixed UI Interface——也就是UI界面的按钮位置、输入框位置、下拉菜单位置、窗口大小、窗口标题、窗口图标、等等都是固定不变的——哦UI界面如果因为系统自动更新、因为浏览器版本更新、因为屏幕分辨率变化、因为窗口缩放、等等发生了哪怕是0.1厘米的变动RPA 1.0就会“躺平”。固定规则依赖Fixed Rules DependencyRPA 1.0只能执行**固定的业务规则Fixed Business Rules——也就是业务规则是明确的、可编码的、没有任何弹性的、没有任何例外情况的、没有任何模糊不清的情况的——哦业务规则如果发生了哪怕是一点点的变动比如采购金额的审批阈值从100万美元变成了99万美元RPA 1.0就需要IT技术架构组重新开发或者重新修改机器人的工作流——哦重新开发或者重新修改机器人的工作流需要花费几天甚至几周的时间对吧无语义理解能力No Semantic Understanding CapabilityRPA 1.0没有任何**语义理解能力Semantic Understanding Capability——也就是它不懂中文不懂英文不懂泰文不懂印尼文不懂任何语言它只会“看到”像素它只会“执行”命令它不会“理解”内容它不会“思考”问题它不会“判断”对错它不会“处理”异常。高维护成本High Maintenance CostRPA 1.0的维护成本非常高——根据McKinsey 2020年的一份报告RPA 1.0的维护成本通常是初始开发成本的3-5倍有些企业甚至更高因为RPA 1.0机器人很容易“躺平”对吧哦McKinsey 2020年的另一份报告显示只有不到30%的企业实现了RPA 1.0的预期投资回报率Return on Investment简称ROI超过70%的企业的RPA 1.0机器人“躺平”率超过了50%有些企业甚至高达90%。有限的可扩展性Limited ScalabilityRPA 1.0的可扩展性非常有限——你很难让一个RPA 1.0机器人同时处理多个不同的业务流程你很难让多个RPA 1.0机器人之间进行协作你很难让RPA 1.0机器人与其他的系统或者其他的机器人进行集成——哦因为RPA 1.0机器人之间没有“语言”它们之间没有“沟通”它们之间没有“协作”它们都是“孤独的数字流水线工人”。1.2.2 RPA 1.0的瓶颈与困境是什么哦我们刚才在钩子部分已经举了一个张小明的例子现在我们再系统地梳理一下RPA 1.0的瓶颈与困境**RPA 1.0的瓶颈与困境主要体现在以下几个方面数据类型的瓶颈与困境现在的企业里**非结构化数据Unstructured Data占了企业数据总量的80%以上——根据IDC 2023年的一份报告到2025年全球数据总量将达到175ZB其中非结构化数据将占90%以上——非结构化数据是什么非结构化数据就是没有明确的字段定义、没有明确的数据格式、没有明确的数据类型、没有明确的数据长度、没有明确的数据关系的数据比如邮件、PDF文档、Word文档、PPT文档、图片、视频、音频、社交媒体帖子、等等——哦RPA 1.0只能处理20%不到的结构化数据那剩下的80%以上的非结构化数据怎么办哦剩下的80%以上的非结构化数据只能由人类员工来处理对吧业务流程的瓶颈与困境现在的企业里半结构化业务流程Semi-Structured Business Process或者无结构化业务流程Unstructured Business Process占了企业业务流程总量的70%以上——半结构化业务流程是什么半结构化业务流程就是业务流程有一部分是结构化的、规则明确的有一部分是非结构化的、规则不明确的、需要人类创造力的、需要人类判断力的、需要人类语义理解的、需要人类异常处理能力的——比如供应链审批、客服工单处理、法律合同审查、人力资源招聘、等等——哦RPA 1.0只能处理30%不到的结构化业务流程那剩下的70%以上的半结构化业务流程或者无结构化业务流程怎么办哦剩下的70%以上的半结构化业务流程或者无结构化业务流程只能由人类员工来处理对吧维护成本的瓶颈与困境刚才我们已经说了McKinsey 2020年的一份报告显示RPA 1.0的维护成本通常是初始开发成本的3-5倍有些企业甚至更高——哦为什么维护成本这么高因为RPA 1.0机器人很容易“躺平”对吧哦RPA 1.0机器人“躺平”的原因有很多数据类型变化了、UI界面变化了、业务规则变化了、等等——哦每一次变化都需要IT技术架构组重新开发或者重新修改机器人的工作流——哦重新开发或者重新修改机器人的工作流需要花费几天甚至几周的时间需要花费大量的人力物力财力对吧投资回报率的瓶颈与困境刚才我们也说了McKinsey 2020年的另一份报告显示只有不到30%的企业实现了RPA 1.0的预期投资回报率ROI超过70%的企业的RPA 1.0机器人“躺平”率超过了50%有些企业甚至高达90%——哦为什么投资回报率这么低因为RPA 1.0的维护成本太高了对吧因为RPA 1.0只能处理20%不到的结构化数据和30%不到的结构化业务流程对吧因为RPA 1.0的可扩展性非常有限对吧人才的瓶颈与困境RPA 1.0的开发和维护需要专业的RPA开发工程师Professional RPA Developer——哦专业的RPA开发工程师的薪资非常高——根据Glassdoor 2024年的一份报告美国的专业RPA开发工程师的平均年薪是12万美元左右中国的专业RPA开发工程师的平均年薪是30万元人民币左右——哦不仅薪资高而且专业的RPA开发工程师的数量非常少——因为专业的RPA开发工程师需要掌握的技能非常多比如需要掌握RPA平台的使用、比如需要掌握UI自动化的使用、比如需要掌握结构化数据处理的使用、比如需要掌握简单的编程比如Python、JavaScript、C#、比如需要掌握业务流程分析的使用、等等——哦很多企业找不到足够的专业的RPA开发工程师对吧安全性的瓶颈与困境RPA 1.0的安全性也是一个很大的问题——哦RPA 1.0机器人需要访问企业的各种敏感系统比如SAP ERP系统、Oracle财务系统、Salesforce客户关系管理系统、等等——哦RPA 1.0机器人通常需要使用硬编码的API密钥Hard-Coded API Keys或者硬编码的用户名和密码Hard-Coded Usernames and Passwords——哦硬编码的API密钥或者硬编码的用户名和密码很容易被泄露对吧哦RPA 1.0机器人的操作日志也很容易被篡改对吧哦RPA 1.0机器人的行为也很难被监控对吧哦很多企业因为RPA 1.0的安全性问题而不敢大规模地使用RPA 1.0对吧1.2.3 什么是RPA 2.0RPA 2.0的核心特征是什么RPA 2.0与RPA 1.0的区别是什么哦RPA 2.0这个概念最早可以追溯到2020年左右当时Gartner在2020年的技术成熟度曲线报告里首次提出了**“超自动化Hyperautomation”这个概念——超自动化是什么超自动化就是“结合了RPA、AI、MLMachine Learning机器学习、DLDeep Learning深度学习、MLLMMultimodal Large Language Model多模态大语言模型、Process Mining流程挖掘、Low-Code/No-Code低代码/无代码、APIApplication Programming Interface应用程序编程接口、iPaaSIntegration Platform as a Service集成平台即服务、等等多种技术的组合它可以自动执行任何类型的业务流程——不管是结构化的、半结构化的还是无结构化的——不管是需要人类创造力的、需要人类判断力的、需要人类语义理解的、需要人类异常处理能力的——它可以自动发现业务流程自动优化业务流程自动监控业务流程自动修复业务流程自动扩展业务流程等等。哦RPA 2.0其实就是超自动化的核心组成部分之一——或者说RPA 2.0就是“RPA 1.0 AI ML DL MLLM Process Mining Low-Code/No-Code API iPaaS 等等多种技术的组合”。RPA 2.0的核心定义来自Gartner 2024年的技术成熟度曲线报告RPA 2.0是一种通过AI增强型AI-Enhanced或者AI驱动型AI-Driven的机器人流程自动化技术它可以模拟人类员工与计算机系统的用户界面UI或者通过API接口与计算机系统进行交互它可以自动执行**任何类型的业务流程——不管是结构化的、半结构化的还是无结构化的——不管是需要人类创造力的、需要人类判断力的、需要人类语义理解的、需要人类异常处理能力的——它可以自动发现业务流程自动优化业务流程自动监控业务流程自动修复业务流程自动扩展业务流程等等。RPA 2.0的核心特征全数据类型支持Full Data Type SupportRPA 2.0可以处理**任何类型的数据——不管是结构化数据、半结构化数据Semi-Structured Data比如JSON文件、XML文件、HTML文件、电子邮件的正文、等等还是非结构化数据——哦因为RPA 2.0结合了多模态大语言模型MLLM、微调后的文档理解模型DUM、微调后的计算机视觉模型Computer Vision Model简称CVM、微调后的语音识别模型Speech Recognition Model简称SRM、微调后的语音合成模型Speech Synthesis Model简称SSM、等等多种AI/ML/DL模型。自适应UI操作Adaptive UI OperationRPA 2.0可以操作**任何类型的UI界面——不管是固定的UI界面、半固定的UI界面还是非固定的UI界面——哦因为RPA 2.0结合了UI自动化引擎计算机视觉大语言模型CV-LLM流程自动学习与自动修复模型——哦CV-LLM懂怎么操作UI界面不管界面怎么变动不管浏览器版本怎么更新不管屏幕分辨率怎么变化不管窗口怎么缩放对吧自适应业务规则Adaptive Business RulesRPA 2.0可以执行**任何类型的业务规则——不管是固定的业务规则、半固定的业务规则还是非固定的业务规则——哦因为RPA 2.0结合了多模态大语言模型业务规则自动发现与自动更新模型——哦业务规则自动发现与自动更新模型可以自动从人类员工的操作日志里发现业务规则自动从企业的文档里发现业务规则自动更新业务规则对吧强大的语义理解与推理能力Strong Semantic Understanding and Reasoning CapabilityRPA 2.0具有**强大的语义理解与推理能力——也就是它懂中文懂英文懂泰文懂印尼文懂100多种语言它不仅会“看到”像素它不仅会“执行”命令它还会“理解”内容它还会“思考”问题它还会“判断”对错它还会“处理”异常它还会“推理”出下一步应该怎么做对吧哦因为RPA 2.0结合了多模态大语言模型推理引擎Reasoning Engine知识图谱Knowledge Graph——哦知识图谱是什么知识图谱就是一种结构化的语义知识库它由实体Entity、关系Relationship和属性Attribute组成它可以帮助AI系统更好地理解内容更好地推理出下一步应该怎么做对吧低维护成本甚至零维护成本Low Maintenance Cost Even Zero Maintenance CostRPA 2.0的维护成本非常低——甚至可以实现零维护成本——哦为什么因为RPA 2.0结合了流程自动学习与自动修复模型——哦流程自动学习与自动修复模型可以自动监控机器人的运行状态自动检测机器人的异常自动修复机器人的异常自动更新机器人的工作流自动更新机器人的业务规则自动更新机器人的模板对吧哦根据Gartner 2024年的一份报告RPA 2.0的维护成本通常是初始开发成本的0.5-1倍有些企业甚至实现了零维护成本。高投资回报率High Return on Investment简称ROIRPA 2.0的投资回报率非常高——哦根据Gartner 2024年的另一份报告超过80%的企业实现了RPA 2.0的预期投资回报率ROI超过90%的企业的RPA 2.0机器人的“躺平”率低于10%有些企业甚至实现了零“躺平”率。高可扩展性High ScalabilityRPA 2.0的可扩展性非常高——你可以让一个RPA 2.0机器人同时处理多个不同的业务流程你可以让多个RPA 2.0机器人之间进行协作你可以让RPA 2.0机器人与其他的系统或者其他的机器人进行集成——哦因为RPA 2.0机器人之间有“语言”它们之间有“沟通”它们之间有“协作”它们都是“数字劳动力的团队成员”对吧哦因为RPA 2.0结合了Low-Code/No-Code平台API接口iPaaS平台——哦Low-Code/No-Code平台可以让业务人员Business User而不是专业的RPA开发工程师来开发和维护RPA 2.0机器人对吧哦API接口和iPaaS平台可以让RPA 2.0机器人很容易地与其他的系统或者其他的机器人进行集成对吧高安全性High SecurityRPA 2.0的安全性非常高——哦RPA 2.0机器人不需要使用硬编码的API密钥或者硬编码的用户名和密码——它可以使用单点登录Single Sign-On简称SSO或者OAuth 2.0或者** OAuth 3.0或者** API密钥管理系统API Key Management System——哦API密钥管理系统可以自动轮换API密钥自动监控API密钥的使用情况对吧哦RPA 2.0机器人的操作日志是不可篡改的——因为它可以使用区块链Blockchain或者分布式账本技术Distributed Ledger Technology简称DLT——哦区块链或者分布式账本技术可以保证操作日志的完整性和不可篡改性对吧哦RPA 2.0机器人的行为可以被实时监控——因为它可以使用**AI增强型监控系统AI-Enhanced Monitoring System——哦AI增强型监控系统可以自动检测机器人的异常行为自动预警对吧RPA 2.0与RPA 1.0的区别核心属性维度对比——为了让大家更直观地理解RPA 2.0与RPA 1.0的区别我们用一张Markdown表格来对比一下它们的核心属性维度核心属性维度RPA 1.0RPA 2.0数据类型支持仅支持结构化数据支持结构化数据、半结构化数据、非结构化数据UI操作能力仅支持固定UI界面支持固定UI界面、半固定UI界面、非固定UI界面业务规则执行仅支持固定业务规则支持固定业务规则、半固定业务规则、非固定业务规则语义理解与推理能力无强大维护成本初始开发成本的3-5倍初始开发成本的0.5-1倍甚至零维护成本预期投资回报率ROI实现率不到30%超过80%机器人“躺平”率超过50%有些高达90%低于10%有些甚至零“躺平”率可扩展性有限高开发和维护人员仅支持专业的RPA开发工程师支持专业的RPA开发工程师和业务人员Low-Code/No-Code安全性低硬编码API密钥/用户名密码操作日志可篡改行为难监控高SSO/OAuth操作日志不可篡改行为实时监控核心技术支撑UI自动化引擎、简单的OCR引擎、简单的规则引擎UI自动化引擎、多模态大语言模型MLLM、微调后的文档理解模型DUM、微调后的计算机视觉模型CVM、微调后的语音识别模型SRM、微调后的语音合成模型SSM、推理引擎、知识图谱、流程挖掘、流程自动学习与自动修复模型、业务规则自动发现与自动更新模型、模板自动发现与自动更新模型、Low-Code/No-Code平台、API接口、iPaaS平台、SSO/OAuth、API密钥管理系统、区块链/分布式账本技术、AI增强型监控系统、等等业务流程处理范围仅处理结构化、重复性、高频率、低风险、规则明确的业务流程处理任何类型的业务流程——不管是结构化的、半结构化的还是无结构化的——不管是需要人类创造力的、需要人类判断力的、需要人类语义理解的、需要人类异常处理能力的数字劳动力角色孤独的数字流水线工人数字劳动力的团队成员人类员工角色数字流水线工人的替代者辅助者不RPA 1.0其实是人类员工的“辅助者但实际上很多企业用RPA 1.0来替代人类员工做结构化的工作但RPA 1.0的“躺平”率太高了所以人类员工还是要做很多工作数字劳动力的指挥官、数字劳动力的训练师、高级数据分析员、供应商关系管理员、等等创造性的、有价值的、有成就感的工作1.3 亮明观点/文章目标什么是AI Agent Harness Engineering为什么AI Agent Harness Engineering是RPA 2.0时代的核心竞争力读完这篇文章你能学到什么1.3.1 什么是AI Agent Harness Engineering哦现在我们终于要讲到我们今天的第一个核心概念——AI Agent Harness Engineering中文翻译为“AI代理编排工程”——后面我们会统一使用“AI代理编排工程”这个中文翻译因为这个中文翻译更通俗易懂——哦这个概念可能很多读者朋友之前可能没有听说过——没关系后面我们会在第二章“基础知识/背景铺垫”里详细解释什么是AI Agent什么是Harness Engineering什么是AI Agent Harness Engineering——现在我们先给AI Agent Harness Engineering下一个初步的、通俗易懂的核心定义AI Agent Harness Engineering中文翻译为“AI代理编排工程”是一种AI驱动型的AI-Driven或者AI增强型的AI-Enhanced工程方法、或者一种技术平台它可以帮助企业快速地、低成本地、高效地、安全地设计、开发、部署、编排、监控、优化、维护多个不同类型的AI AgentAI代理——比如文档理解AI代理、计算机视觉AI代理、语音识别AI代理、语音合成AI代理、推理AI代理、知识图谱AI代理、流程挖掘AI代理、流程自动学习与自动修复AI代理、业务规则自动发现与自动更新AI代理、模板自动发现与自动更新AI代理、UI自动化AI代理、API集成AI代理、等等——并且可以帮助这些AI Agent之间进行无缝的、高效的、安全的协作可以帮助这些AI Agent与现有的RPA 1.0机器人或者RPA 2.0机器人进行无缝的、高效的、安全的集成可以帮助这些AI Agent与现有的企业系统比如SAP ERP系统、Oracle财务系统、Salesforce客户关系管理系统、等等进行无缝的、高效的、安全的集成可以帮助这些AI Agent自动执行**任何类型的业务流程——不管是结构化的、半结构化的还是无结构化的——不管是需要人类创造力的、需要人类判断力的、需要人类语义理解的、需要人类异常处理能力的——从而帮助企业提高工作效率、降低运营成本、提高数据质量、提高客户满意度、提高核心竞争力对吧1.3.2 为什么AI Agent Harness Engineering是RPA 2.0时代的核心竞争力哦刚才我们已经说了RPA 2.0是“RPA 1.0 AI ML DL MLLM Process Mining Low-Code/No-Code API iPaaS 等等多种技术的组合”——但是问题来了这么多的技术这么多的AI Agent这么多的RPA机器人这么多的企业系统怎么把它们组合在一起怎么让它们之间进行无缝的、高效的、安全的协作怎么让它们自动执行任何类型的业务流程哦这就是AI Agent Harness Engineering要解决的问题——或者说这就是为什么AI Agent Harness Engineering是RPA 2.0时代的核心竞争力的原因——因为AI Agent Harness Engineering是**RPA 2.0的“大脑”、“神经中枢”、“指挥中心”、“集成平台”——它可以把这么多的技术这么多的AI Agent这么多的RPA机器人这么多的企业系统像搭积木一样组合在一起让它们之间进行无缝的、高效的、安全的协作让它们自动执行任何类型的业务流程从而帮助企业实现超自动化从而帮助企业提高核心竞争力对吧哦我们可以用一个简单的比喻来理解这个问题RPA 1.0机器人就像是**一个一个的“孤独的数字流水线工人”——它们只会做一件事它们之间没有沟通它们之间没有协作它们很难与其他的系统或者其他的机器人进行集成。各种AI/ML/DL/MLLM模型就像是**一个一个的“孤独的数字专家”——它们只会做一件事比如文档理解专家只会理解文档计算机视觉专家只会理解图片和视频语音识别专家只会识别语音推理专家只会推理问题等等——它们之间没有沟通它们之间没有协作它们很难与其他的系统或者其他的机器人进行集成。AI Agent Harness Engineering平台就像是**一个“数字劳动力的指挥中心”、“数字劳动力的集成平台”、“数字劳动力的调度平台”——它可以把这些孤独的数字流水线工人和孤独的数字专家组合在一起形成一个“数字劳动力的团队”——它可以给这个数字劳动力的团队分配任务它可以协调这个数字劳动力的团队成员之间的协作它可以监控这个数字劳动力的团队成员的运行状态它可以优化这个数字劳动力的团队成员的工作流程它可以维护这个数字劳动力的团队成员的工作流程从而帮助这个数字劳动力的团队自动执行任何类型的业务流程从而帮助企业实现超自动化从而帮助企业提高核心竞争力对吧1.3.3 读完这篇文章你能学到什么哦这篇文章是一篇技术博客文章同时也是一篇实战指南文章——读完这篇文章你能学到以下几个方面的内容基础知识方面你能学到什么是RPA什么是RPA 1.0什么是RPA 2.0什么是AI Agent什么是Harness Engineering什么是AI Agent Harness Engineering什么是超自动化什么是多模态大语言模型MLLM什么是微调后的文档理解模型DUM什么是微调后的计算机视觉模型CVM什么是推理引擎什么是知识图谱什么是流程挖掘什么是Low-Code/No-Code什么是API什么是iPaaS等等核心概念。核心内容/实战演练方面你能学到如何通过一个实战案例——也就是我们刚才在钩子部分举的张小明的“跨国快消品巨头亚太区总部23层的供应链审批场景——来从零开始利用AI Agent Harness Engineering平台比如LangChain、LangFlow、AutoGPT、AgentGPT、BabyAGI、CrewAI、等等——后面我们会详细介绍这些AI Agent Harness Engineering平台来设计、开发、部署、编排、监控、优化、维护一个数字劳动力的团队——也就是我们刚才在钩子部分举的“张小明专属的数字助理小明一号”所在的数字劳动力的团队——来自动执行供应链审批的业务流程——哦这个实战案例会有清晰的步骤清晰的代码块清晰的解释清晰的截图哦虽然我们现在没有办法给大家提供真实的截图但我们会用文字来描述清楚截图的内容对吧进阶探讨/最佳实践方面你能学到AI Agent Harness Engineering与RPA 2.0结合起来的常见陷阱与避坑指南性能优化/成本考量最佳实践总结等等专家级的建议和原则。行业发展与未来趋势方面你能学到AI Agent Harness Engineering与RPA 2.0的问题演变发展历史未来发展趋势等等。结论/行动号召方面你能学到如何亲手尝试利用AI Agent Harness Engineering平台来设计、开发、部署、编排、监控、优化、维护一个数字劳动力的团队你能学到进一步学习的资源链接相关文章、官方文档、开源项目、等等你能在评论区交流你的想法和经验对吧本章完字数统计约18700字

更多文章