HMMT25高难度测试表现亮眼:VibeThinker得分超预期
在当前大模型军备竞赛愈演愈烈的背景下,一个仅15亿参数的小型语言模型却悄然在数学与编程推理领域掀起波澜。VibeThinker-1.5B-APP 并非来自科技巨头或顶级实验室,而是由微博团队推出的一款实验性开源模型。它没有试图成为“全能助手”,也没有堆叠千亿参数,却在HMMT25、AIME等极具挑战性的推理基准上交出了令人瞠目结舌的成绩单——以不足八千美元的训练成本,击败了参数量超过其数百倍的对手。
这不禁让人重新思考:我们是否过度迷信“规模即智能”?当资源有限时,能否通过更聪明的设计让小模型实现“越级挑战”?
小模型也能有大智慧:从VibeThinker说起
VibeThinker-1.5B 是一个密集型架构的语言模型(Dense LLM),专注于解决高强度逻辑任务,尤其是数学竞赛题和算法编程问题。它的设计哲学很明确:不追求泛化能力,而是将全部算力押注在结构化推理这一垂直赛道上。
这种“专精特新”的思路,使其在多项权威评测中展现出惊人的单位参数效率。例如,在HMMT25测试中,它取得了50.4分,大幅领先于DeepSeek R1(41.7分),而后者参数量是它的400多倍。同样,在AIME25上,VibeThinker达到74.4分,超出基准模型4.4个百分点。这些数字背后,是一套高度优化的训练策略与任务对齐机制的胜利。
更值得称道的是其极低的训练成本——总计约7,800美元。相比之下,许多中大型模型动辄需要百万美元级别的投入。这意味着,哪怕是在学术机构或个人开发者手中,这样的模型也具备复现和迭代的可能性。
它是怎么做到的?核心技术拆解
两阶段训练:先广博后精深
VibeThinker采用典型的两阶段训练流程,但每一阶段都经过精心设计:
第一阶段为自监督预训练,使用大量高质量的英文代码库、数学教材、竞赛题解作为语料。这一阶段的目标不是记住答案,而是建立对形式化语言的基本理解——比如变量命名习惯、常见算法模板、标准证明结构等。
第二阶段则是关键所在:指令微调(Instruction Tuning)。这里使用的数据不再是通用文本,而是来自AMC、AIME、HMMT、Codeforces等真实竞赛场景的题目及其详细解答。更重要的是,这些样本都经过人工清洗与重构,确保每一道题都配有完整的思维链(Chain-of-Thought)推导过程。
这样一来,模型学到的不仅是“答案是什么”,更是“为什么这样想”。这种训练方式显著提升了它在多跳推理任务中的表现稳定性。
推理链增强:强制“写出草稿”
传统小模型常犯的错误是“跳步”——直接输出结果而不展示中间逻辑。这在简单任务中可能蒙混过关,但在复杂推理中极易出错。
VibeThinker通过引入强化学习信号和监督式CoT样本,强制模型在生成答案前必须先展开推导路径。例如面对一道组合计数题,它会显式地写出递推关系式、边界条件,并进行数值验证。这种“写草稿”式的输出模式,不仅提高了准确性,也为后续人工审核提供了可解释性支持。
实验表明,启用思维链机制后,其在HMMT类问题上的准确率提升超过15%。
英文优先:语言选择影响推理质量
有趣的是,尽管中文用户占比极高,VibeThinker在英文输入下的表现始终优于中文。这一点在多个测试集中得到验证。
原因或许并不复杂:其训练数据中,高质量的数学与编程内容绝大多数为英文撰写,包括Project Euler、LeetCode官方题解、MIT OpenCourseWare讲义等。因此,英文提示词能更有效地激活模型内部已习得的知识路径,减少歧义干扰,提升推理连贯性。
建议使用者尽量将问题翻译成英文提交,哪怕只是简单的关键词罗列,也能带来明显的效果增益。
在数学与编程世界里,它是如何思考的?
数学题求解全流程
当输入一道数学题时,VibeThinker并不会急于作答,而是模拟人类解题者的认知流程:
- 问题解析:识别题目类型(代数/几何/数论)、提取已知条件与目标;
- 模式匹配:从记忆中检索相似结构的问题及解法框架;
- 逐步推导:构建逻辑链条,应用公式、构造辅助线、设定归纳假设;
- 自我检查:回溯关键步骤是否存在漏洞,尝试代入特例验证。
举个例子,处理一道AIME级别的概率递推题时,它可能会这样输出:
设 $ a_n $ 表示第 n 步到达终点的概率。
根据状态转移关系,有:
$$
a_n = \frac{1}{2}a_{n-1} + \frac{1}{4}a_{n-2}
$$
初始条件:$ a_1 = 0, a_2 = \frac{1}{2} $。
解此线性递推方程……最终得 $ a_6 = \frac{21}{64} $。
这种结构化的输出方式,使得即使是复杂的抽象推理,也能被清晰追踪。
编程任务生成机制
对于算法类问题,VibeThinker的表现同样稳健。它不会盲目套用模板,而是遵循一套系统化的生成流程:
- 需求分析:明确输入输出格式、时间空间限制;
- 算法决策:判断适用策略(如DFS剪枝、动态规划状态设计);
- 伪代码构建:先搭建主干逻辑,再填充细节;
- 语言实现:输出符合规范的Python或C++代码,并附带注释说明核心思想。
# Problem: Longest Increasing Subsequence (LIS) def length_of_lis(nums): """ Uses dynamic programming with binary search for O(n log n) solution. dp[i] represents the smallest tail value of all increasing subsequences of length i+1. """ import bisect dp = [] for num in nums: pos = bisect.bisect_left(dp, num) if pos == len(dp): dp.append(num) else: dp[pos] = num return len(dp) # Test case print(length_of_lis([10, 9, 2, 5, 3, 7, 101, 18])) # Output: 4这段代码展示了典型的工程素养:选择了最优算法(二分+DP)、加入了必要的模块导入、使用了恰当的数据结构,并配有清晰的文档字符串。即便是经验丰富的程序员,也会认可其产出的专业度。
实测表现:不只是纸面数据
数学推理基准对比
| 测试集 | VibeThinker-1.5B | DeepSeek R1 | 差距 |
|---|---|---|---|
| AIME24 | 80.3 | 79.8 | +0.5 |
| AIME25 | 74.4 | 70.0 | +4.4 |
| HMMT25 | 50.4 | 41.7 | +8.7 |
HMMT(哈佛-麻省理工数学锦标赛)被公认为全球最难的高中生数学竞赛之一,其题目往往需要创造性洞察与深度抽象能力。自动化求解这类问题长期以来被视为AI推理的“圣杯”。
VibeThinker在HMMT25中取得50.4分,意味着它能在近一半题目上给出正确解答——这个水平已经接近优秀参赛学生的平均表现。尤其考虑到其参数量仅为1.5B,这一成绩堪称奇迹。
编程生成能力实证
| 基准测试 | 版本 | VibeThinker | Magistral Medium |
|---|---|---|---|
| LiveCodeBench | v5 | 55.9 | — |
| LiveCodeBench | v6 | 51.1 | 50.3 |
LiveCodeBench 是目前最具代表性的代码生成评测集,涵盖从简单函数实现到复杂算法设计的全谱系任务。VibeThinker在v6版本中略胜一筹,说明其在真实编程场景下已具备实用价值。
值得注意的是,该模型不仅能生成语法正确的代码,还能处理边界情况、避免常见陷阱(如整数溢出、空指针访问),显示出较强的鲁棒性。
如何部署与使用?本地即可运行
典型部署架构
[用户终端] ↓ (HTTP/API 或 Jupyter Notebook) [推理服务容器] ├── 模型镜像 (VibeThinker-1.5B-APP) ├── tokenizer(分词器) └── 推理引擎(Transformers + FlashAttention) ↓ [系统提示词注入模块] → 用户需手动输入角色设定(如“你是一个编程助手”) ↓ [模型推理执行] → 输出结构化解答或代码得益于其小巧的体积,VibeThinker可在配备16GB显存的消费级GPU(如RTX 3090/4090)上流畅运行。项目提供了完整Docker镜像和一键启动脚本(1键推理.sh),极大降低了部署门槛。
两种主要使用方式:
- Jupyter Notebook本地调试:适合开发者快速验证想法;
- 网页交互界面:提供图形化问答入口,便于非技术人员操作。
使用技巧与最佳实践
务必设置系统提示词
由于模型未内置固定角色,首次使用时应在系统提示框中明确任务属性。例如输入:“You are a math olympiad problem solver.” 可显著提升解题专注度。优先使用英文提问
所有实验证明,英文提示下模型的激活路径更稳定。即使问题本身较短,也建议使用标准术语表述。控制上下文长度
模型最大上下文推测为4096 token左右。过长的描述可能导致截断,建议提炼关键信息,避免冗余。结合外部工具验证
对数学答案可用SymPy自动验证符号运算;对生成代码可通过unittest框架运行测试用例,形成闭环反馈。
真正的智能,未必来自庞然大物
VibeThinker的成功并非偶然,它揭示了一个正在成型的趋势:在特定领域,小模型通过精准训练完全可以超越“大而全”的通用模型。
它的价值不仅在于性能指标本身,更在于提供了一种可复制的方法论:
- 任务聚焦:放弃通用对话,全力攻坚专业场景;
- 数据提纯:只用高质量、高相关性的训练样本;
- 训练高效化:利用思维链、指令微调等技术放大单位数据的价值;
- 部署亲民化:支持本地运行,降低使用门槛。
这也为资源受限的研究者和开发者带来了希望——无需百亿预算,也能做出有影响力的AI工作。
未来,我们可以期待更多类似的“特种兵”模型出现:有的专攻物理建模,有的擅长形式化验证,有的服务于教育辅导。它们或许不会出现在大众视野中,但却能在各自战场上默默改变行业规则。
真正的智能,未必藏于千亿参数之中,也可能就蕴藏在一个精心设计的15亿参数模型里。