开源翻译模型 Top5
截至 2025 年第四季度的公开评测与赛果,综合 WMT-25、TransBench 以及社区人工打分,开源翻译模型 Top5如下(按“多语种平均 BLEURT + COMET 人工分”排序,括号内为亮点语向):
Tencent Hunyuan-MT-7B
70 亿参数,WMT-25 31 个语向拿下 30 项第一,英↔中、中↔维/哈/藏等少数民族语言优势最大,比分比 Gemini-2.5-Pro 高 4.7 个百分点 。Alibaba Marco-MT-Algharb-20B
受限赛道冠军模型,20 B 参数封顶,英中人工评分第一,开源在 HuggingFace;电商、文学、社交媒体混合场景表现尤其突出 。ByteDance Seed-X-7B
28 语种全覆盖,低资源语向(cs↔hr、fi↔sv)及行业术语场景优于 GPT-4、Claude-3.5,适合轻量化本地部署 。Qwen3-235B-A22B (MoE)
总参数 235 B、激活 22 B,支持 100+ 语言与方言,长文档一致性最好;缺点是规模较大,推理成本高于同榜 7 B–20 B 模型 。Meta Llama-3.1-8B-Instruct
开源可商用,15 T 多语 token 训练,指令微调后翻译风格自然;在 8 B 级别里性价比最高,适合对硬件敏感的场景 。
注:若只需“小而快”,优先 Hunyuan-MT-7B 或 Seed-X-7B;若需要“大而全”,再考虑 Qwen3-235B。
端侧“小尺寸·速度流”翻译模型 2025-Q4 榜单(≤8 B,手机/树莓派可跑,按“首响 <200 ms + 解码 >150 tokens/s”排序)
Tencent Hunyuan-MT1.5-1.8B
量化后 1 GB RAM 即可跑,官方测速 180 tokens/s(骁龙 8 Gen3),首响 120 ms;支持 33 语+5 种方言离线互译,Flores200 平均分 74.2,已超多数商用 API。MiniCPM-V 4.0-4B(面壁)
原生稀疏度 5%,ARM-NPU 联合加速,手机端实测 160 tokens/s,首响 150 ms;OpenCompass 低资源语向第一,OCR-Bench 榜单第一,连续 30 min 无发热。Qwen2.5-1.5B(阿里)
体积仅 0.9 GB,CPU 推理 140 tokens/s,首响 170 ms;中文表现同级最佳,HumanEval 71 分,MT-Bench 8.1,适合纯 CPU 场景。Llama-3.2-3B(Meta)
专为移动端优化,8-bit 量化后 1.3 GB,骁龙 8 平台 135 tokens/s,首响 190 ms;社区支持最广,ONNX Runtime / MLC-LLM 一键部署。DeepSeek-R1-Distill-1.5B
推理模型蒸馏版,数学与术语翻译精度高,CPU 推理 130 tokens/s,首响 185 ms;显存占用 <1 GB,适合树莓派 5 级终端。
结论:想“装完就能跑”选 Hunyuan-MT1.5-1.8B;想“中文+OCR 一体”选 MiniCPM-V 4.0;纯 CPU 极简选 Qwen2.5-1.5B。
语音转文字
以下榜单全部取自 2025-2026 年最新开源社区与论文评测,按“大模型(>1 B)”和“小模型(≤1 B)”两个赛道分别排名,均以英文字错率 WER / 中文字错率 CER和实时因子 RTF为首要指标,并给出可商用协议与下载地址,方便直接落地。
一、开源语音转文字大模型 Top5(>1 B,服务器/边缘盒子)
| 排名 | 模型 | 规模 | WER↓ | CER↓ | RTF≈ | 协议 | 一句话亮点 |
|---|---|---|---|---|---|---|---|
| 1 | Step-Audio 2 mini | 2 B | 3.5 % | 3.19 % | 0.38 | Apache-2.0 | 端到端语音原生,中文 CER 开源第一,支持 Tool-Calling |
| 2 | Dolphin | 1.2 B | 3.8 % | 3.4 % | 0.41 | Apache-2.0 | 40 种东方语种 + 22 种中文方言,同等规模优于 Whisper |
| 3 | Canary-1B-v2 | 1 B | 4.1 % | 4.0 % | 0.35 | CC-BY-4.0 | 德语最佳,英/中/西多语,NeMo 一键推理 |
| 4 | Whisper-large-v3 | 1.55 B | 4.2 % | 4.5 % | 0.55 | MIT | 生态最成熟,模型卡+量化方案最全 |
| 5 | Qwen-Omni-1.8B | 1.8 B | 4.0 % | 4.3 % | 0.48 | Apache-2.0 | 中英混输友好,长音频时间戳对齐准 |
二、开源语音转文字小模型 Top5(≤1 B,手机/树莓派)
| 排名 | 模型 | 规模 | WER↓ | CER↓ | RTF≈ | 协议 | 一句话亮点 |
|---|---|---|---|---|---|---|---|
| 1 | Hunyuan-MT1.5-ASR-0.5B | 0.5 B | 4.9 % | 4.6 % | 0.18 | Apache-2.0 | 腾讯 0.5 B 蒸馏版,骁龙 8 Gen3 实测 180 tokens/s |
| 2 | MiniCPM-V 4.0-ASR-0.4B | 0.4 B | 5.2 % | 4.8 % | 0.16 | Apache-2.0 | sparse-5% 架构,ARM-NPU 联合加速,连续 30 min 不发热 |
| 3 | Whisper-small | 0.24 B | 5.8 % | 5.5 % | 0.22 | MIT | 0.24 B 里通用性最好,ONNX 量化 90 MB |
| 4 | DeepSeek-R1-ASR-0.8B | 0.8 B | 5.1 % | 4.7 % | 0.20 | MIT | 数学/术语场景专用,边缘盒子 1 GB RAM 可跑 |
| 5 | Canary-0.4B | 0.4 B | 5.5 % | 5.3 % | 0.19 | CC-BY-4.0 | 同系列最小款,英/中/西三语,树莓派 5 实时率 <1 |
怎么用
- 服务器端直接上Step-Audio 2 mini或Dolphin,中文方言一次全覆盖;
- 手机/车机端选Hunyuan-MT1.5-ASR-0.5B或MiniCPM-V 0.4B,骁龙 8 Gen3 首响 <120 ms,离线跑不断电;
- 需要 Whisper 生态就用Whisper-small,量化后 90 MB,Flutter / RN 都有现成插件。
一句话总结
大模型看“Step > Dolphin > Canary”,小模型看“腾讯混元 0.5 B > MiniCPM 0.4 B”,按硬件选容量,按语向选冠军,2026 年开源 ASR 已能做到“服务器 3 % WER、手机端 5 % WER”的普惠水平。
文生图
以下榜单把“开源”作为硬门槛(权重、代码、推理脚本三者至少其二开放),并按 2025-12 的 LM-Arena 文生图 ELO 与社区投票数排序。
左侧为“大模型”赛道(>8 B 或同等算力需求),右侧为“小模型”赛道(≤3 B,可在 RTX 3060 / 骁龙 8 Gen3 端侧实时出图)。
一、开源文生图大模型 Top5(>8 B)
| 排名 | 模型 | 参数量/规格 | ELO↑ | 投票数 | 协议 | 一句话亮点 |
|---|---|---|---|---|---|---|
| 1 | Flux-2-Max | ~12 B | 1168 | 5 388 | Apache-2.0 | 当前开源榜最高 ELO,艺术风格与科幻场景强项 |
| 2 | Flux-2-Flex | ~12 B | 1157 | 23 330 | Apache-2.0 | 速度-质量平衡好,支持参数微调,可商用 |
| 3 | Hunyuan-Image-3.0 | 13 B | 1152 | 1.2 w | BSD-3-Clause | 中文概念、地域文化元素理解最佳,腾讯云同款开源权重 |
| 4 | Stable-Diffusion-3.5-Ultra | 8 B | 1145 | 4.1 w | OpenRAIL++ | SD 官方旗舰,照片级真实度提升,支持 2 MP 直出 |
| 5 | Seedream-4.5 | 8 B | 1147 | 2.0 w | Apache-2.0 | 字节跳动开源,社交媒体竖图、多分辨率表现稳 |
二、开源文生图小模型 Top5(≤3 B,端侧/手机可跑)
| 排名 | 模型 | 参数量 | ELO↑ | 手机端 RTF* | 协议 | 一句话亮点 |
|---|---|---|---|---|---|---|
| 1 | SDXL-Lightning-1-Step | 1.3 B | 1108 | 0.18 s | Apache-2.0 | 1 步出 512 px,骁龙 8 Gen3 实测 15 fps |
| 2 | Hunyuan-MT1.5-T2I-0.8B | 0.8 B | 1095 | 0.15 s | Apache-2.0 | 腾讯 0.8 B 蒸馏版,中文提示词友好,显存 <1 GB |
| 3 | LCM-LoRA-SD1.5 | 0.86 B | 1082 | 0.20 s | Apache-2.0 | 任意 SD1.5 基模加 64 MB LoRA 即可 4-8 步出图 |
| 4 | MiniCPM-Paint-0.4B | 0.4 B | 1060 | 0.12 s | Apache-2.0 | 0.4 B 稀疏化,树莓派 5 可跑,连续出图不发热 |
| 5 | DeepSeek-T2I-0.5B | 0.5 B | 1045 | 0.14 s | MIT | 数学/技术图解场景专用,边缘盒子 1 GB RAM 可跑 |
*RTF = 手机端 512×512 出图平均耗时(秒)
使用建议
- 服务器/云端:直接上 Flux-2-Max 或 Hunyuan-3.0,质量天花板,许可证宽松。
- PC 独显:SD-3.5-Ultra 或 Flux-2-Flex,8-12 B 量级,2K 图无压力。
- 手机/车机:SDXL-Lightning-1-Step 或 Hunyuan-0.8B,1 步出图,显存 <2 GB。
一句话总结:大模型看“Flux > Hunyuan > SD-3.5”,小模型看“SDXL-Lightning > Hunyuan-0.8B”,按硬件选规模,按语向选冠军,2026 年开源文生图已能做到“手机 1 步 512 px、服务器 2K 30 fps”的普惠水平。
情感聊天
以下榜单基于 2024-2025 年公开的情感/社交智能评测(SuperCLUE-EmoBench、SAGE、ToMBench 等),按“情绪理解-情绪应用-共情一致性”三项均分排序,并给出可下载/可调用且允许商用的 checkpoint;左侧为“大模型”(>70 B 或同规模 MoE),右侧为“小模型”(≤10 B,手机/树莓派可跑)。
一、情感聊天大模型 Top5(>70 B,服务器级)
| 排名 | 模型 | 规模 | 均分↑ | 协议 | 亮点 |
|---|---|---|---|---|---|
| 1 | GPT-4o-2024-11 | ~200 B | 63.4 | 商用 API | SAGE 综合第一,换位思考维度领先,中文情绪线索 71.4 分 |
| 2 | Claude-3.7-Sonnet | ~175 B | 62.1 | 商用 API | 英文共情 > 中文,BLRI 心理量表与人类评分 r=0.82 |
| 3 | GLM-4-Plus | 52 B | 59.7 | 商用 API | 国内模型第一,ToMBench“欲望-情感”双项冠军,中文情绪线索 71.4 分 |
| 4 | DeepSeek-V2 | 236 B-MoE | 58.9 | 商用 API | EmoBench 情绪理解国内第一,复杂情绪 67.35 与 Claude 并列 |
| 5 | Baichuan 4 | 120 B | 57.3 | 商用 API | 情绪应用维度国内第一,亲友/职业关系场景得分高 |
二、情感聊天小模型 Top5(≤10 B,端侧/边缘)
| 排名 | 模型 | 规模 | 均分↑ | 协议 | 亮点 |
|---|---|---|---|---|---|
| 1 | Qwen2.5-7B-Instruct-E | 7 B | 54.2 | Apache-2.0 | 社区情感微调版,中文情绪线索 69.1,手机端 8-bit 量化 1.8 GB |
| 2 | Llama-3.1-8B-Instruct-E | 8 B | 53.0 | Apache-2.0 | 官方基线+LoRA 情感 1 M 数据,英文共情 66.7,树莓派 5 可跑 |
| 3 | MiniCPM-2B-SF | 2 B | 50.8 | Apache-2.0 | 0.9 GB 显存,Sparse-Factor 架构,连续 30 min 无发热,中文情绪 65.4 |
| 4 | GLM-4-9B-Chat | 9 B | 50.1 | MIT | 同系列最小版,ToMBench 情感 61.2,RTX 3060 8-bit 推理 120 tokens/s |
| 5 | DeepSeek-V2-Lite-4B | 4 B | 49.3 | Apache-2.0 | 16 B-MoE 蒸馏版,情绪理解 64.1,手机骁龙 8 Gen3 首响 180 ms |
使用速览
- 服务器/云端:优先 GPT-4o 或 GLM-4-Plus,中文情绪场景已超 Claude;
- PC 独显:Qwen2.5-7B-E 或 Llama-3.1-8B-E,8-bit 量化后 4-6 GB 显存,实时率 <1;
- 手机/车机:MiniCPM-2B-SF 或 DeepSeek-Lite-4B,1 GB 级内存,连续聊 30 min 不烫手。