谷歌Gemma 4实测

张开发
2026/4/8 5:21:48 15 分钟阅读

分享文章

谷歌Gemma 4实测
谷歌正式发布了Gemma 4系列开源模型这是继Gemini 3系列之后谷歌在开源模型领域的又一次重要布局。官方将Gemma 4定位为”同等参数规模下最强的开源模型”强调其在高级推理和智能体工作流方面的突破性能力。Gemma 4共发布了四个尺寸版本本次评测的gemma-4-31b-it是其中参数量最大的Dense版本拥有310亿参数原生视觉理解、140语言以及原生函数调用能力。需要说明的是本次评测侧重中文场景下的综合能力考察。Gemma 4作为一款面向开发者的开源工具型模型其核心优势在于本地部署的推理效率、原生Agent工作流支持以及跨模态处理能力。在官方公布的Arena AI排行榜上Gemma 4 31B位列全球开源模型第3名展现出远超其参数规模的竞争力。以下数据更多反映的是该模型在中文文本理解与逻辑层面的表现而非其完整实力。gemma-4-31b-it版本表现测试题数约1.5万总分准确率52.5%平均耗时每次调用82s平均token每次调用消耗的token687平均花费每千次调用的人民币花费1.41、新旧对决全维度的代际跃升对比上一代版本gemma-3-27b-itgemma-4-31b-it在几乎所有维度上都实现了显著提升数据如下*数据来源非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark*输出价格单位 元/百万token整体性能显著提升新版本准确率从39.0%提升至52.5%提升了13.5个百分点排名从第146位升至第123位。对于一款310亿参数的开源模型而言这一提升幅度相当可观。法律与行政公务领域提升最为突出从39.7%大幅提升至65.7%26.0%这一维度的进步幅度在所有领域中最为显著表明新模型在法规条文理解和行政事务处理方面的中文能力有了质的改善。推理与数学计算能力稳步增强从43.4%提升至62.3%18.9%这与官方强调的”高级推理能力”定位相呼应逻辑推理能力的提升较为扎实。Agent与工具调用翻倍增长从17.6%提升至32.7%15.1%虽然绝对值仍处于较低水平但增幅接近翻倍反映了Gemma 4在原生函数调用架构上的改进。教育领域进步明显从29.6%提升至38.2%8.6%虽然整体水平尚待提升但进步幅度较为可观。语言与指令遵从提升幅度相对有限从49.1%提升至57.3%8.2%在所有维度中属于提升幅度较小的领域中文指令的精准理解仍是该模型需要持续优化的方向。医疗与金融领域同步提升“医疗与心理健康”从50.6%提升至58.3%7.7%“金融”从56.4%提升至63.6%7.2%两个领域均有稳步改善。Token消耗与成本gemma-4-31b-it的平均Token消耗为687输出价格为2.8元/百万token每千次调用花费仅1.4元极低的Token消耗量使得实际调用成本维持在极低水平。2、横向对比在当前主流大模型竞争格局中gemma-4-31b-it作为一款开源模型聚焦于本地部署、边缘推理等对模型体积有严格要求的场景。我们从三个维度进行横向对比分析*数据来源非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark同成本档位对比极低成本区间的有力选手gemma-4-31b-it每千次调用花费仅1.4元处于整个榜单的低成本区间。在低成本档位中与Doubao-Seed-2.0-lite73.9%5.4元相比虽然准确率差距明显52.5% vs 73.9%但花费仅为后者的约四分之一。与同为低成本的gpt-oss-120b59.1%2.9元相比gemma-4-31b-it在准确率上存在6.6个百分点的差距但花费不到其一半。与gpt-oss-20b54.1%2.1元相比gemma-4-31b-it以更低的花费1.4元 vs 2.1元实现了接近的准确率52.5% vs 54.1%两者表现基本持平。对于对成本极度敏感、同时需要本地部署的场景gemma-4-31b-it提供了一个参数规模适中、花费极低的选择。新旧模型对比代际进步幅度突出从gemma-3-27b-it的39.0%到gemma-4-31b-it的52.5%13.5个百分点的提升在同尺寸开源模型的迭代中属于较大幅度。这表明谷歌在Gemma系列的底层架构和训练数据上进行了深度优化。与谷歌自家旗舰模型的差距同为谷歌出品gemini-3.1-pro-preview74.8%250.5元和gemini-3-pro-preview72.5%247.3元的准确率远高于gemma-4-31b-it但两者定位完全不同——Gemini是闭源商用旗舰Gemma是开源轻量直接对比准确率意义有限。在同为谷歌系的轻量模型中gemini-3-flash-preview71.5%53.5元和gemini-2.5-flash60.8%43.2元均在准确率上领先gemma-4-31b-it但花费也分别高出数十倍。gemma-4-31b-it的核心价值在于其可本地部署的特性这是云端API模型无法替代的。开源VS闭源对比开源小模型的定位差异在开源阵营中gemma-4-31b-it的52.5%准确率与头部开源模型存在较大差距。qwen3.5-plus74.6%、Qwen3.5-27B72.4%、GLM-4.771.5%等开源模型的准确率均大幅领先。同为小参数开源模型的对比与参数规模更接近的gemma-4-26b-a4b-it50.3%排名130相比gemma-4-31b-it以31B Dense架构在准确率上领先了2.2个百分点验证了Dense架构在质量上的优势。而26B MoE版本的优势则在于推理速度更快两者形成了互补。在相近参数量级的竞争中gpt-5.4-nano-high62.0%13.2元和gpt-5-nano-high56.9%19.3元虽然准确率更高但花费也高出数倍甚至十倍以上且均为闭源商用模型。Gemma 4 31B的开源属性和Apache 2.0许可证赋予了开发者自主权这是闭源模型无法提供的。3、官方评测谷歌官方将Gemma 4定位为”同等参数规模下最强的开源模型”强调其在推理、Agent工作流和代码生成等方面的能力。以下是官方公布的关键评测数据Gemma 4在Arena AI文本排行榜上表现亮眼31B模型位列全球开源模型第3名26B MoE模型位列第6名。官方特别指出Gemma 4在该排行榜上超越了参数量达其20倍的模型截至 4 月 1 日。在官方公布的综合基准测试中Gemma 4 31B和26B MoE模型在多个维度上进行了横向对比Gemma 4的核心能力特性包括高级推理能力支持多步规划和深度逻辑推理在数学和指令遵从基准测试中表现优异。原生Agent工作流原生支持函数调用、结构化JSON输出和系统指令可构建能与不同工具和API交互并可靠执行工作流的自主Agent。代码生成支持高质量的离线代码生成可将工作站变成本地优先的AI代码助手。视觉与音频所有模型原生处理视频和图像支持可变分辨率擅长OCR和图表理解等视觉任务。E2B和E4B版本还支持原生音频输入。长上下文窗口边缘模型支持128K上下文窗口大尺寸模型支持最高256K。多语言支持原生训练支持140种语言。目前所有大模型评测文章在公众号大模型评测及优化NoneLinear

更多文章