MiniMax M2.7 上手体验:国产大模型的“推理派“选手

张开发
2026/4/17 19:49:27 15 分钟阅读

分享文章

MiniMax M2.7 上手体验:国产大模型的“推理派“选手
前两天用阿里的接口感觉慢了很多国外的模型也被封了实在受不了一个任务卡半天瞧着MiniMax上市的股票涨的那么猛是不是可以试试于是我把我的龙虾的模型换成了MiniMax-M2.7,和之前的GLM-5执行同样的任务对比了一下效果。先说结论这玩意儿是个偏科的选手推理能力挺强但创意写作这块和 GLM-5、Qwen 比起来还有差距。接入过程比想象中顺利MiniMax 的 API 接入其实挺简单。官方文档给的是 OpenAI 兼容格式所以理论上任何支持 OpenAI API 的项目都能直接用。我用的是 OpenClaw一个 AI Agent 管理工具配置就几行{ providers: { minimax: { baseUrl: https://api.minimax.chat/v1, apiKey: 你的key, api: openai-completions } } }模型 ID 直接填MiniMax-M2.7上下文官方说是 1M tokens输出上限 16K。这个参数在国产模型里算比较猛的了毕竟 Qwen3-max 也就 262K 上下文。接入后跑了一下连通测试响应速度还行平均 2-3 秒出结果比 GLM-5 略快一点和 Qwen3.5-plus 差不多。推理任务确实有点东西我先用几个代码生成任务测了一下。测试 1写一个 Python 分布式锁实现这个任务不算特别复杂但需要考虑并发场景下的边界条件。M2.7 给出的代码结构挺清晰import redis import time import uuid class DistributedLock: def __init__(self, redis_client, lock_name, expire_time10): self.redis redis_client self.lock_name lock_name self.expire_time expire_time self.identifier str(uuid.uuid4()) def acquire(self, retry_times3, retry_delay0.2): for _ in range(retry_times): if self.redis.set(self.lock_name, self.identifier, nxTrue, exself.expire_time): return True time.sleep(retry_delay) return False def release(self): script if redis.call(get, KEYS[1]) ARGV[1] then return redis.call(del, KEYS[1]) else return 0 end return self.redis.eval(script, 1, self.lock_name, self.identifier)注意它用了 Lua 脚本保证释放锁的原子性这个细节很多模型会漏掉。GLM-5 在同样的任务上给出的方案就没考虑到并发释放的问题可能会出现误删别人的锁的情况。测试 2解释一段复杂的业务逻辑代码扔了一段 200 多行的老旧 Java 代码给它里面有各种继承、代理、反射。M2.7 花了大约 5 秒给出了一个挺完整的调用链分析还指出了几个潜在的空指针风险点。这个表现比 GPT-4o-mini 好一些后者经常只给出一个笼统的概述然后让你自己去看。总的来说代码和逻辑类任务上M2.7 确实有点实力。不一定是最强的但在国产模型里能排进前三。创意写作有点拉胯然后我测了几个内容生成任务这块的表现就不太理想了。任务写一篇公众号文章主题是「Claude降智背后AI公司正在看人下菜碟」同样的主题我之前用 GLM-5 写了一篇开头是这样的昨天凌晨两点我还在给一个 Side Project 改代码。本来一切都挺顺的Claude 3.5 Sonnet 写代码那叫一个丝滑...代入感挺强像真人在讲故事。M2.7 给出的开头前两天有个读者在群里吐槽说他订阅的 Claude 3 Opus 最近像是被夺舍了...还行但更离谱的是它的标题你的测试问题集这什么玩意儿一眼 AI 生成的痕迹。好像它把某个内部测试 prompt 的开头当成了文章标题。我又跑了一次换个主题标题变成了「这是一个故意设计得有点坏的 Prompt」。这种感觉就很明显了M2.7 不太理解标题这个概念在中文内容创作里的意义。它更像是在执行一个任务而不是在创作。对比了一下用 GLM-5 生成的几篇文章标题风格是这样的「Claude 3.5 变傻了别天真了AI 公司正在对你看人下菜碟」「国产大模型崛起MiniMax M2.7 能打赢 GPT-5 吗」这种标题一看就是人写的有观点、有情绪、有传播性。我大概跑了 5 次M2.7 的标题每次都像测试文本。内容质量还行但标题这块明显是短板。和其他国产模型比一比我这段时间测了几个国产大模型简单说一下感受模型推理能力创意写作响应速度成本MiniMax-M2.7⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐中等GLM-5⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐低Qwen3.6-plus⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐中等Kimi-k2.5⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐中等GLM-5 在内容创作上明显更强标题、开头、叙事节奏都更像人写的。Qwen3.6-plus 综合能力最好推理和写作都不拉胯。Kimi 的长上下文是个亮点但整体能力中规中矩。M2.7 的定位更像是个理科生代码写得好逻辑理得清但让它写篇文章就像让数学老师去教语文有点不对路。适合什么场景基于这些测试我觉得 M2.7 比较适合这些场景推荐使用代码生成和重构Bug 定位和修复复杂逻辑的代码解释算法实现技术方案评审不太推荐公众号文章、营销文案创意型写作需要人味儿的内容输出如果你是做技术开发的日常要处理大量代码任务M2.7 可以作为一个不错的选项。它比 GPT-4o-mini 更理解中文开发者的语境比 GLM-5 更擅长复杂逻辑。但如果你是做内容运营的需要写公众号、写产品文案那还是用 GLM-5 或 Qwen 更靠谱。毕竟让推理模型去写情感类文章就像让博士去写公众号鸡汤——能力是有的但味道不对。小结MiniMax M2.7 是个有特点的模型不是那种什么都行但什么都不突出的平庸选手。它的推理能力值得肯定代码生成质量在国产模型里算上游水平。但创意写作这块明显是短板至少从我几天的测试来看还不太适合内容创作类场景也可能我的样本比较少不代表模型的真实能力欢迎大家指正批评。

更多文章