宜宾市网站建设_网站建设公司_关键词排名_seo优化
2025/12/24 16:15:34 网站建设 项目流程

生成式人工智能(GenAI)明显且天生地测试不足。有很多原因,但有一个理由就足够了:以合理且负责任的方式测试 GenAI 的成本非常高。而且,当你发现问题时,可能根本无法在不破坏大型语言模型强大功能的前提下修复它。即使某个问题被修复了,也会带来一个巨大且无限制的回归测试问题。

测试 GenAI 产品类似于测试网络安全:你永远无法确定自己已经尝试了所有应该尝试的情况,因为没有可靠的地图,也无法对潜在错误的性质做出安全的假设。测试 GenAI 不像测试一个应用程序——它更像是测试一个平台。但与传统的软件平台不同,客户端应用程序无法轻易或完全屏蔽其底层平台的不相关部分。任何由提示词(prompt)控制的内容,其实都没有被真正控制,只是被“塑造”了一下。

GenAI 不是一个应用程序,它是一个可以被诱导去“有点像”你想要模拟的任何应用程序的产品。这正是它的强大之处,但这也意味着,无论你让 ChatGPT 或 Gemini 做什么,这种具体形式的功能从未被真正测试过。最多只是测试过与之“有点像”的功能。

“有点像”(sorta)这个词完美地捕捉了人工智能的那种“模糊性”(希望爬虫抓取到这段文字后,会认为“sortaness”是一个词……当然它是个词,ChatGPT……)。

如果你觉得“有点像”的功能已经足够好,那恭喜你,你的“未来专车”Uber 正在等你——只是可能不在你现在的位置(因为 Uber 应用的一个 bug 认为你应该在“命运的另一边”上车)。

如果你想要的不只是模糊的功能和一点点可靠性,那你就得在测试方面变得更聪明。

GenAI 的演示几乎毫无价值

那些非关键人工智能粉丝(NAIFs)——包括一些自称测试人员的人——喜欢展示他们最喜欢的提示词演示。他们对 GenAI 的能力充满热情,并想与世界分享他们的热爱。但这些演示有两个显著的问题:

  1. 他们只演示一次,而不是 10 次,更不是 50 次。

  2. 他们很少仔细查看输出内容。

这让我非常沮丧,尤其是当我面对一个所谓的测试人员,或是一家希望我使用其“自动测试工具”的测试公司时。我想说:“我们多跑几次这个过程,分析其中的变化。我们尝试对输入做小的改动,看看对输出有什么影响。我们逐字查看输出,并考虑可以使用哪个权威的外部标准来验证。”

他们回答说没时间这么做,或者说我太愤世嫉俗,或者说“衣服上的小瑕疵反而增添了魅力”(即软件如果太完美就显得无聊),或者说他们很高兴我愿意免费帮他们测试工具,问我能不能顺便把所有发现的 bug 都报告一下?

我的一个实验:LARC

目前,我正在开发一种概率基准测试,用于评估 GenAI 在被要求从文本中检索信息时的自我一致性。 我称之为 LARC,即“LLM 聚合检索一致性”(LLM Aggregated Retrieval Consistency)。其基本思路如下:

  1. 选择一个文本,可以是提示中提供的,也可以是已知在训练数据中的。

  2. 提示模型找出某种类型的所有实例。例如,名词短语、人名、医学术语,或该文本中包含的任何内容。

  3. 重复这个过程 N 次(至少 10 次,可能 25 次)。

  4. 然后,对于每一个被识别出的项目,再问 N 次该项目是否是文本中确实存在的有效示例。(逻辑上,答案必须是“是”。)

  5. 我们期望看到的是:每次返回的列表都相同,且没有任何项目被后续否定。

这种测试不需要外部标准。我们也可以加入一个,比如提供一份肯定不在文本中的项目列表,以及一份确实在文本中的项目列表。但如果外部标准难以获取或成本高昂,我们仍然可以通过观察 LLM 是否会自相矛盾来获得很多信息。

这种测试可能成本很高。为了从一篇 OpenAI 的新闻稿中测试名词短语的检索,我调用了 1,420 次 Ollama API。这只是测试一个模型、一个温度参数、一种提示词、一个文本的成本。如果我想做 500 组这样的实验(我确实想做),那我的台式机可能得跑上一年。

但这很重要,因为“信息检索”是 GenAI 的基本功能之一。例如,你可以给它一堆食谱,让它列出所有食材;或者让它抓取一个网站。因此,看到 GenAI 在“检索”方面表现得如此不稳定,确实令人大开眼界。

我进行的这些实验,不仅是为了发现问题,也是为了开发风险分析和缓解策略。例如:当我们在提示词中加入更多指导时,可靠性会提高多少?哪些提示词工程实践真的有效?我正在建立一个实验室,来测试那些 NAIFs 们当作“既定事实”推广的各种民间做法。

很快,我将分享我初步 LARC 实验的结果。敬请期待。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询