本文介绍了四种提升大语言模型(LLM)应用性能的实用技巧:1)利用缓存token将静态内容放在提示开头,显著降低成本和提高速度;2)将用户问题置于提示末尾,可提升30%性能;3)使用提示优化器改进提示结构和内容;4)建立定制化基准测试选择最适合的LLM。这些方法简单易行,无需额外工作量即可同时提升响应质量并降低成本,适用于各类LLM项目。
大模型(LLM)能够自动化大量任务。自2022年ChatGPT发布以来,市场上涌现出越来越多利用 LLM 的AI产品。然而,我们在使用 LLM 的方式上仍有许多可改进之处。例如,使用提示词优化工具改进你的提示(prompt),以及利用缓存的token,就是两种简单却能显著提升 LLM 应用性能的技术。
在本文中,我将介绍几种具体的技巧,帮助你优化提示的创建与结构,从而降低延迟和成本,同时提升生成结果的质量。本文的目标是为你提供这些切实可行的方法,让你能够立即将其应用到自己的 LLM 项目中。
这张信息图突出了本文的主要内容。我将讨论四种不同的技术,可显著提升你的 LLM 应用在成本、延迟和输出质量方面的表现。具体包括:利用缓存 token、将用户问题置于提示末尾、使用提示优化器,以及建立你自己的定制化 LLM 基准测试。(图片由 Gemini 提供。)
为什么要优化你的提示?
在很多情况下,你可能已经有一个能在特定 LLM 上运行并产生尚可结果的提示。但很多时候,你并未花时间对提示进行优化,这就意味着你错失了大量潜在的性能提升空间。
我认为,通过本文介绍的具体技术,你可以轻松地在几乎不增加额外工作量的前提下,同时提升响应质量并降低成本。仅仅因为一个提示和 LLM 能“跑通”,并不意味着它已达到最优性能。事实上,在很多场景下,只需稍作调整,就能获得显著改进。
优化提示的具体技巧
在本节中,我将详细介绍可用于优化提示的几种具体方法。
1. 始终将静态内容放在提示开头
我要介绍的第一个技巧是:始终将静态内容(static content)放在提示的最前面。所谓静态内容,是指在多次 API 调用中保持不变的部分。
之所以要这么做,是因为所有主流 LLM 服务商(如 Anthropic、Google 和 OpenAI)都支持缓存 token(cached tokens)。缓存 token 是指在先前 API 请求中已被处理过的 token,再次使用时可以以更低的成本和更快的速度进行处理。不同服务商的具体策略略有差异,但通常缓存输入 token 的价格约为普通输入 token 的 10%。
缓存 token 是指在之前的 API 请求中已经被处理过的 token,再次使用时比普通 token 更便宜、更快。
这意味着,如果你连续两次发送完全相同的提示,第二次请求中的输入 token 成本将仅为第一次的十分之一。这是因为 LLM 服务商会对这些输入 token 的处理结果进行缓存,从而让新请求的处理更便宜、更迅速。
在实践中,要有效利用 token 缓存,关键在于将变量内容放在提示末尾。
例如,如果你有一个很长的系统提示(system prompt),而每次请求的用户问题不同,你应该这样组织提示:
prompt =f"""{long static system prompt}{user prompt}"""举个例子:
prompt =f"""你是一位文档专家…… 你应始终按以下格式回复…… 如果用户询问…… 你应该回答…… {user question}"""这里,我们将提示中不变的部分(静态内容)放在前面,而将变化的部分(用户问题)放在最后。
在某些场景中,你可能需要传入文档内容。如果你要处理大量不同的文档,应将文档内容放在提示末尾:
# 处理不同文档时 prompt =f"""{static system prompt} {variable prompt instruction 1} {document content} {variable prompt instruction 2} {user question}"""但如果你多次处理同一份文档,那么为了确保文档内容也能被缓存,你需要保证在文档内容之前没有任何变量内容:
# 多次处理相同文档时 prompt =f"""{static system prompt} {document content} # 确保在任何变量指令之前 {variable prompt instruction 1} {variable prompt instruction 2} {user question}"""需要注意的是,缓存 token 通常只有在两个请求的前 1024 个 token 完全相同时才会被激活。例如,如果上面示例中的静态系统提示长度不足 1024 个 token,你就无法利用缓存机制。
# 切勿这样做! prompt =f"""{variable content} <--- 这会完全破坏缓存机制 {static system prompt} {document content} {variable prompt instruction 1} {variable prompt instruction 2} {user question}"""最佳实践:
你的提示结构应始终遵循“从最静态到最动态”的原则——即先放变化最少的内容,再逐步加入变化最多的内容。
- 如果你有一个很长但不含变量的系统提示和用户提示,应将其放在最前面,变量放在最后。
- 如果你要从文档中提取文本(例如处理同一份文档多次),应确保文档内容位于所有变量之前,以充分利用缓存。
2. 将问题放在提示末尾
另一个提升 LLM 性能的有效技巧是:始终将用户问题放在提示的末尾。理想情况下,你的系统提示应包含所有通用指令,而用户提示仅包含用户的问题本身,如下所示:
system_prompt ="<通用指令>" user_prompt =f"{user_question}"Anthropic 在其提示工程文档中指出,将用户问题放在末尾最多可提升 30% 的性能,尤其是在使用长上下文时。把问题放在最后能让模型更清晰地理解当前任务目标,从而在多数情况下生成更高质量的回答。
3. 使用提示优化器(Prompt Optimizer)
人类编写的提示往往杂乱、不一致、包含冗余内容,且缺乏结构。因此,你应始终将提示通过一个提示优化器进行处理。
最简单的优化方式是直接让一个 LLM 来优化你的提示,例如:
“请优化以下提示:{prompt}”
LLM 会返回一个结构更清晰、冗余更少的新提示。
但更好的做法是使用专门的提示优化工具,例如 OpenAI 或 Anthropic 控制台中提供的优化器。这些工具是经过专门设计和调优的 LLM,专门用于优化提示,通常效果更佳。
此外,为了获得最佳优化结果,你应提供以下信息:
- 你希望完成的具体任务细节;
- 提示成功完成任务的示例(包括输入和输出);
- 提示失败的示例(同样包括输入和输出)。
提供这些额外信息通常能显著提升优化效果。很多时候,你只需花费 10–15 分钟,就能获得一个性能大幅提升的提示。因此,使用提示优化器是提升 LLM 性能所需 effort 最低的方法之一。
4. 对 LLM 进行基准测试(Benchmarking)
你所选用的 LLM 本身也会极大影响应用的整体性能。不同模型擅长的任务各不相同,因此你需要在自己的应用场景中测试多个 LLM。我建议至少接入主流 LLM 提供商,如 Google Gemini、OpenAI 和 Anthropic。设置这些服务非常简单,一旦凭证配置完成,切换模型通常只需几分钟。此外,你也可以考虑测试开源 LLM,尽管它们通常需要更多配置工作。
接下来,你需要为你的具体任务建立专属的基准测试,以评估哪个 LLM 表现最佳。同时,你还应定期检查模型性能,因为大型 LLM 提供商有时会在不发布新版本的情况下悄悄升级模型。当然,你也应随时关注各大厂商推出的新模型,并及时尝试。
结论
在本文中,我介绍了四种可用于提升 LLM 应用性能的技术:
- 利用缓存 token
- 将用户问题置于提示末尾
- 使用提示优化器
- 建立定制化的 LLM 基准测试
最后
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。
我整理出这套 AI 大模型突围资料包:
- ✅AI大模型学习路线图
- ✅Agent行业报告
- ✅100集大模型视频教程
- ✅大模型书籍PDF
- ✅DeepSeek教程
- ✅AI产品经理入门资料
完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
为什么说现在普通人就业/升职加薪的首选是AI大模型?
人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。
智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200%,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。
AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。
资料包有什么?
①从入门到精通的全套视频教程⑤⑥
包含提示词工程、RAG、Agent等技术点
② AI大模型学习路线图(还有视频解说)
全过程AI大模型学习路线
③学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的
④各大厂大模型面试题目详解
⑤ 这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势,构建起"前沿课程+智能实训+精准就业"的高效培养体系。
课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能 突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**