- AI Agent落地应用遇到数据难题,AI-ready data提供新思路
- 数据难题成为AI Agent应用拦路虎,AI-ready data为数据高效应用铺路
- AI-ready data成AI Agent落地最大障碍,技术供应商们怎么解决这个难题?
- 解决了智能体数据安全问题,AI-ready data成了AI Agent落地的最大障碍
- 什么是AI-ready data?对生成式AI和AI Agent意味着什么?
- 面向生成式AI的AI-ready data,成了AI Agent落地应用的最后一道关隘
生成式AI(GenAI)的落地应用速度,比大家想得快很多。
2023年11月,Gartner通过对1400多名高管进行的一项调查显示,45%的受访者正在试用生成式人工智能(GenAI);另有10%的高管表示,已经将GenAI解决方案投入生产。
2024年5月,Gartner一项调查显示,来自美国、德国和英国的644名受访者中有29%表示他们已经部署并正在使用GenAI,GenAI已成为织中部署的第一大AI解决方案。
两份调查只相差半年,从数据中可以明显感受到GenAI在企业中的应用速度。
生成式AI在各领域的强势渗透,大语言模型功不可没。而作为大语言模型的两个主要应用方向,RAG和AI Agent都是各领域探索与应用的大热门。其中,AI Agent在今年火到沸腾,2024更是被称作AI Agent元年。
经历了理论验证阶段之后,随着越来越多构建平台和各种解决方案的出现,AI Agent开始真正进入落地应用的阶段。现在广大企业对AI Agent已经有了足够认知,但在具体应用方面的进展并不是很理想,很多企业仍旧在观望。
之所以出现这种状况,一方面在于企业对于大语言模型应用的谨慎态度,另一方面在于很多AI Agent的应用并没有达到期望值。
达不到期望值,是因为AI Agent的应用效果并没有想象的那么好。影响AI Agent应用效果的因素有很多,比如大模型能力、Prompt设计、外部工具使用、调用API的成本以及数据质量等,这些因素共同决定了AI Agent在特定应用场景中的表现和效果。
关于AI Agent,之前我们谈了模型能力、技术架构等的很多问题。通常大家会认为,只要Agent架构设计合理,配上强有力的大模型和更多可供调用的工具就能实现Agent的理想应用。但在实际应用中,基于大模型的Agent表现甚至赶不上基于领域模型的Agent,通用Agent的应用效果往往不如面向具体场景的Agent。
这个问题的主要原因,在排除了技术架构、算力的因素后,便落点到了数据应用的差别上,也就是数据对于AI Agent的影响。
AI Agent应用遇到数据难题
我们知道,算力、算法和数据是AI不可或缺的三大核心要素。其中,数据的质量和量级对AI系统的性能有着直接的影响。在机器学习中,数据用于训练算法,使模型能够学习到数据中的模式和关联。高质量的数据可以帮助算法更准确地进行预测和分类,数据量的大小则可以影响模型的泛化能力。
放到基于LLM的AI Agent中也是如此。算法和算力这两个因素均有迹可循,差不多都能找到标准化模板和量化指标,技术供应商也能基于企业相应的参考。
现在企业自己构建Agent并不难。集成各种算法的优秀AI Agent框架越来越多,适配运营所需的算力也可以通过自建大模型或者调用API获得,但唯有数据在不同的企业存在极大的不同。有些企业,不要说高质量数据,能够有效利用的数据都难以获得。
目前企业在数据应用方面面临诸多挑战,包括数据采集不全面、共享流通不足、应用开发浅层、治理安全薄弱、技术人才短缺、财务绩效压力、地区行业不平衡、数据资产评估难度大、数据质量管理不足、合规隐私顾虑以及技术架构设计不当等诸多问题。这些挑战阻碍了数据价值的充分发挥,影响了企业数字化转型和创新能力的提升。
换句话说,就是构建或者引入了AI Agent解决方案,也会因为数据问题而造成应用效果不佳。
低质量的企业数据,会严重影响AI Agent的应用效果。不准确的数据会降低决策质量,限制模型性能,减少预测准确性,并增加企业运营风险。基于错误数据的服务和建议会降低用户满意度,损害企业声誉。AI Agent的维护和调整成本也会随之增加,让个性化服务能力受限,导致利益相关者对AI Agent的信任度下降。还会让法律和合规风险上升,数据治理难度加大。这些应用挑战,凸显了确保数据准确性和质量对AI Agent成功应用的重要性。
在生成式AI技术的落地应用方面,数据管理与风险控制也是最主要的痛点,其中数据管理所涉及的主要业务便是数据高效应用与系统化管理的问题。因此在大语言模型的应用方向上,不管是RAG还是Agent,抑或其他应用,想要输出更好的结果,都离不开高质量数据输入这个前提。
但从生成式AI的应用情况来看,传统数据管理定义的高质量数据已经不符合大语言模型应用的数据需求。
比如在分析背景下考虑数据时,人们期望删除异常值或清理数据以支持人类的期望,但在训练算法时需要代表性数据,也可能包括质量差的数据。构建预测性维护算法或将生成式AI(GenAI)应用于企业数据,显然需要更加不同的数据集。
这就引出了一个概念:AI-reday data(AI就绪数据)。
AI-ready data提供新思路
AI-ready data是指针对AI应用程序进行优化的高质量和精心准备的数据。它正在越来越多地包含元数据(metadata)和本体(ontologies),以提高数据的价值和可用性。
元数据提供有关数据的基本上下文和信息,本体提供特定域的结构化语义表示。这些额外的信息层可帮助数据科学家、数据科学家、研究人员和AI系统理解、解释和应用适当的算法和模型进行分析。
元数据和本体可实现跨系统一致的数据集成、互操作性和知识共享,促进知识渊博的AI应用程序。事实证明,这些系统对于支持 FAIR(可查找、可访问、可互操作和可重用)原则和可重复计算研究(RCR)至关重要。
Garter在相关报告中认为,AI-ready data意味着企业的数据必须代表用例、每种模式、错误、异常值和意外出现,这些都是训练或运行特定用途的AI模型所需要的。
那么,是不是只要企业建立一套AI-ready data机制,就能让数据成为面向AI应用的高效可用的数据,进而让AI Agnet能够发挥更好的功效呢?
事实没有那么简单,目前AI-ready data管道中开发、实施和维护元数据和本体的方法仍然不一致、繁琐且缺乏足够的支持。从数据创建、收集和研究,到数据保存、归档、重用和支持研究可重复性的长期目标,整个数据生命周期都面临着挑战。
此外,AI-ready data不是一朝一夕就能建立起来的,也不是提前为所有数据建立起来的。它是一个基于元数据可用性的过程和实践,用于对齐、验证和管理数据。
当前大部分企业并不具备构建AI-ready data的能力,这也是部署了大语言模型实施了AI Agent却达不到预期目标的主要原因。可以说,AI-ready data已经能够成为许多企业客户落地AI Agent或GenAI的最大障碍。为了保证AI Agent等应用能够快速应用于企业运营,就需要与技术供应商共同构建相应的应用环境。
AI-ready data是构建有效、高效和可靠AI系统的基础。准备这样的数据通常需要数据科学家和数据工程师进行大量的数据预处理工作,包括数据清洗、转换、规范化和增强等步骤。
AI-ready融合赋能组织Agent应用
对于旨在充分使用AI Agent的组织来说,创建AI-ready data数据环境是一项战略要务。但要实现AI ready,不只是需要积累大量数据或投资最新的AI工具。从根本上说,AI ready是要确保以符合清晰度、质量和可访问性原则的方式管理、治理和利用数据。
有些技术供应商及企业正在积极探索AI-ready data的最佳实现路径,同时各技术社区、开发者们也正在努力来解决当前的障碍,并最大限度地提高数据的价值和可靠性。比如“非侵入式数据治理方法”正在其中发挥关键作用,提供一种为AI准备数据的新途径。
AI-ready data是数据应用范式的转变,能够为生成式AI的高效应用创造最佳的应用环境。它不只要求企业重新定数据应用的方式,更要求AI Agent等技术供应商具备AI-ready的能力。
在这方面,一些意识到AI Agent应用落地问题的厂商已经开始做相应的尝试。比如联想就将AI PC的发展分为AI Ready、AI On两个阶段,AI Ready阶段产品具备基本的本地混合AI算力,为AI PC的软件及服务创新提供基本保障。还有一些企业会通过一些一体化办公等平台,整合分散的数据以实现AI-ready。
当然主打AI Agent产品与服务的厂商,就更加注重AI-ready data的构建。想要实现充分的市场布局,自然就要考虑企业部署AI Agent的全周期需求。从大语言模型的数据应用现状来看,部署Agent只是开始,广大组织在部署Agent以后仍然遇到数据带来的更多新问题。
**因此企业客户们需要的不只是单纯的Agent部署,还有能够解决包括数据高效应用在内的融合AI-ready data服务的Agent整体部署与应用解决方案。**这个需求同时也对技术供应商提出了更高的要求:既能帮助客户部署AI Agent,又能帮助客户解决数据应用相关的AI-ready data难题。
在王吉伟频道关注的技术厂商中,推出实在Agent的实在智能在这方面就已经走在了前列。这家拥有先进AI技术支持和最全自动化技术加持的AI Agent厂商,已经能够为客户提供AI-ready data获取的最佳路径,实现企业端隐私数据保护和AI-ready data的构建,从而且解决了企业客户使用GenAI时担心的投资成本浪费、数据不安全不懂业务、GenAI增强能力支持下出现的错误流程自动化等问题。
同时PC AI Agent、手机AI Agent、实在AIAgent置入英特尔AI PC端以及钉钉端进驻实在Agent平台等实践,也表明其对企业客户的隐私数据和AI Ready数据的问题解决方案是能落地的,且已经有真实可见的成果。
从具体应用来看,先期已经引入Agent相关解决方案的客户反馈很不错,这也是其刚开启公测就吸引大量用户积极体验的原因。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。