实测两款预测型大模型:Echo 押对了交易,MiroThinker 提前15天算准金价走势

张开发
2026/4/5 3:19:51 15 分钟阅读

分享文章

实测两款预测型大模型:Echo 押对了交易,MiroThinker 提前15天算准金价走势
一个提前15天预测黄金价格误差仅0.08%。另一个在全球预测排行榜上以 Elo 1034.2 分碾压 GPT-5.2、Claude-4.6-Opus拿下第一。大模型正在从「帮你写」进化到「帮你判断」。Echo「面向未来训练」 的大模型Echo 是 UniPat AI 和北京大学联合推出的预测大模型——一个全栈预测智能系统。它的核心能力不是生成文本也不是画图写代码而是预测未来。不是占卜不是猜测而是基于证据、推理、概率分布给出结构化的预测报告。更反常识的是它的训练方式——「在未来的数据上训练」。Echo 的三大支柱Echo 不是单一模型而是一个完整的预测系统围绕核心模型EchoZ-1.0构建包含三大组件1. General AI Prediction Leaderboard通用AI预测排行榜这是一个动态评估引擎用来评估模型的预测能力。为什么要单独做一个排行榜现有的预测基准有两个致命缺陷•时间不对称性临近事件解决时信息更丰富早期预测更难。一个在事件发生前 7 天预测的模型和一个在事件发生前 1 天预测的模型难度完全不同。直接比较它们的准确率是不公平的。•问题来源单一现有基准过度依赖预测市场如 Polymarket忽视了专业领域科学、工程、医学和新兴话题。Leaderboard 如何解决它采用了一个「多时点对齐的 Elo 框架」• 只在同一问题、同一预测时点比较模型• 使用 Brier Score布赖尔分数评估预测质量• 通过 Bradley-Terry 模型和最大似然估计计算 Elo 评分Leaderboard 构建了一个三阶段流程以实现公平且可扩展的预测评估。首先它从三个互补的数据源获取问题以确保覆盖面广。其次它在每个问题的生命周期内安排预测样本的优先级。最后评估过程被设计成两两对决并采用全局 Elo 式优化算法生成最终排行榜。该算法强调稳健性、可靠性、速度、多样性和灵活性。评估指标的优势指标表现鲁棒性在缺失预测时点下Elo 排名波动比平均 Brier Score 低 1.4–1.8 倍可靠性移除部分模型后排名一致性高达 0.978–0.994快速收敛新模型加入后Elo 排名在 5.4 天收敛比平均 Brier 快 2.7 倍多样性覆盖政治、经济、体育、加密货币等 7 大领域灵活性支持自由提交预测无需固定时间表数据从哪里来Leaderboard 从三个来源采集数据1.预测市场如 Polymarket2.趋势合成基于 Google Trends 和网络爬虫3.专家标注科学、工程、医学等领域的专业问题Echo 的题库涵盖 7 个领域政治与治理、经济与金融、体育与娱乐、科学与环境、加密货币与数字资产、电子竞技与游戏以及其他。每天都会添加新问题以确保基准测试能够持续涵盖正在发生的现实世界事件。各领域的分布情况如下如何调度预测它采用一个「两阶段预测调度算法」•Phase 1根据问题生命周期按对数函数估算预测点数Ti round(1.35·ln(Di) 0.5)•Phase 2基于优先级分数Si Wi·Ri/Di选择每日预测问题2. Train-on-Future面向未来上训练这是 Echo 的核心创新。传统模型的训练方式是Train-on-Past——在历史数据上训练让模型学习过去的模式。但预测任务有个特殊情况历史数据里藏着答案。Train-on-Past 的两个缺陷•工程悖论无法完全屏蔽历史答案泄露。模型可能「偷看」到了结果而不是学会了推理。•结果导向偏差模型容易过拟合噪声事件学会了「事后诸葛亮」而不是前瞻推理。Train-on-Future 如何解决它采用三大机制机制一动态问题合成基于实时数据流生成未来事件问题避免数据泄露。问题不是从历史数据库里提取的而是从实时数据流中合成的。这些问题在未来才会解决所以模型无法「偷看」答案。机制二规则搜索Rubrics Search为每个领域搜索最佳评分规则使模型排名与真实 Elo 排名一致。预测轨迹会按多个维度评分比如• 解析解决标准• 区分修辞与执行• 主要机构来源验证• 程序约束评估这些维度不是人工设计的而是通过Spearmans ρ 最大化自动搜索出来的——让规则排名与 Elo 排名一致。机制三Map-Reduce 智能体架构基于 ReActReasoning-Acting框架模型通过多步推理生成预测•Map 阶段将宏观问题分解为子任务并行收集信息•Reduce 阶段聚合多源信息输出合成概率决策这就像一个研究团队有人负责收集数据有人负责分析最后汇总形成结论。3. AI-native Prediction APIAI原生预测接口这是 Echo 的应用层。输入一个结构化的预测问题返回完整的分析报告包括•概率分布不是单一答案而是候选答案的概率分布•证据库支持结论的证据来源•反事实脆弱性评估什么情况下预测会逆转•监控建议应该关注哪些时间节点示例输出摘要领域预测问题结论概率金融NVIDIA 在 2026年3月31日是否为全球最大市值公司是0.98政治伊利诺伊州共和党初选胜者Darren Bailey0.999加密货币ETH 是否在3月31日前创历史新高否0.99体育NBA 西部第一种子Oklahoma City Thunder0.899电子游戏GTA VI 新预告片是否在3月发布否0.96报告质量特征•证据粒度每份报告包含 4–6 条分类证据•概率严谨性基于数学约束和市场共识•反事实完整性明确逆转场景•可操作监控具体时间戳监控项Echo 的性能如何参数敏感性测试Elo 排名在 σ∈[0.01, 0.50] 范围内稳定EchoZ 始终排名第一。胜率对比人类市场在政治领域、长期预测、市场不确定场景下Echo 都超越了人类市场预测。在 Echo 的官网上展示了它对未来一些问题的预测有兴趣的可以去验证像上图中的第二个问题2026年4月1日美国东部时间中午12点比特币的价格会超过6万美元吗总结EchoEcho 不是单一的技术突破而是三层能力的整合1.评估层General AI Prediction Leaderboard 解决了预测评估的时间不对称性和来源单一性。2.训练层Train-on-Future 范式避免了历史答案泄露和结果导向偏差。3.应用层AI-native Prediction API 提供了结构化、可解释的预测报告。它提出了一个新的研究方向大模型的价值不只是生成内容而是推理未来。预测的核心不是信息量而是推理过程的严谨性。证据从哪里来如何权衡概率如何计算在什么情况下会逆转Echo 的解法是用未来的数据训练用推理的过程预测用结构化的报告交付。下面我们来看另外一个预测未来的大模型。MiroThinker 不追求速度追求可验证MiroThinker 是陈天桥投资的 MiroMind 团队推出的推理大模型最新版本为 MiroThinker-1.7 和 MiroThinker-H1。MiroThinker-1.7 系列发布即霸榜多项深度研究任务测试。MiroThinker-H1 刷新 SOTA超越 Gemini-3.1-Pro、GPT-5.4-Thinking、Claude-4.6-Opus 等一众行业顶尖闭源模型BrowseComp网页检索类大模型基准测试88.2%BrowseComp-ZHBrowseComp 的中文适配版本84.4%GAIA-Val-165GAIA 基准测试验证集88.5%HLE-Text人类终极测试47.7%另外开源模型 MiroThinker-1.7235B和小尺寸的 MiroThinker-1.7-mini30B也在效率与性能之间达到了最优平衡。新模型不仅通用任务强在科技金融等专业领域同样表现亮眼。它跳出了传统 LLM 聊天交互的范畴转而能够承担起真实的长链条智力任务。而这是以牺牲模型推理速度为代价的。当其它大模型厂商都在卷速度MiroThinker 系列专为复杂长期任务而生结果 V1.5 大获全胜、V1.7 再度突破。下面介绍它的战绩。预测赛车结果、黄金价格F1 上海站正赛预测众所周知受赛车性能、车手状态、环境因素影响F1 比赛结果预测难度相当之高。这就非常考验模型实时抓取信息、综合判断多方面因素的能力。测试团队在比赛前 2 小时、比赛中 1 小时、比赛最后半小时三个关键时间节点分别让 MiroThinker 实时预测排名情况并与真实结果进行比对。赛前 2 小时在即将举办的 F1 上海站上对选手排名进行预测。预测结果如何暂且不提光论推理过程和答案的详实程度就已经遥遥领先。仔细看模型思考过程MiroThinker 建立起一条极为完整的信息搜索路径包括比赛策略、车队实力情况、潜在变数等确认正赛时间和地点 → 收集最新的上海站排位赛、冲刺赛以及当前赛季情况辅助 → 从规则变化到天气情况逐步细化 → 汇总给出合理预测。其中每一步都在反复验证以确保后续推理的可靠性。至于最终给出的赛前预测也很全面先是直接甩出核心结论一目了然预测梅赛德斯大获全胜、法拉利紧随、迈凯伦和红牛位列第二梯队。然后给出简要的预测逻辑以及观赛建议用户体验感拉满。值得一提的是MiroThinker 还支持一键生成网页报告。就这排版这审美妥妥的打工人福音。测试团队也将该问题同时交给 ChatGPT、Gemini 和 DeepSeek 进行预测ChatGPT回答相对简略对影响变量和预测理由描述较少。Gemini亮点是除了列举选手排名还提供赛事核心看点但在整个答案的完整度上还是 MiroThinker 占优。DeepSeek预测结果只关注到了选手历史成绩和车辆情况考虑得不够深入。反观 MiroThinker它是所有模型中唯一关注到当前天气状况的推理大模型足以证明其专业度。提前 15 天预测黄金价格2026 年 2 月 25 日测试团队问 MiroThinker2026 年 2 月 25 日的黄金价格XAU/USD会是多少模型当时预测金价是$5185/oz实际 Fortune 报价 $5181150 Currency 报价 $5185.89CME GCG26 收盘价为 $5206.40误差仅为0.08%$4保持在合理误差范围之内。综合来看无论是短期的通用场景预测还是中长期的专业场景预估MiroThinker 都能做到有理有据实际结果与模型预测高度吻合且思考过程全部清晰可见。虽然它还没有做到像其它模型一样秒出答案需要一到两分钟的等待时间但在答案完整度和逻辑链上已经是不在一个层级足以应对绝大多数真实推理任务。并非简单做加法而是精准 Scaling为什么 MiroThinker 能够做到这一点还要说回模型的核心技术突破——重型求解器heavy-duty solver。当前行业内要提升推理深度普遍采用的方案是通过强化学习将模型 CoT 运算时间延长这类优化后的模型在数学、编程等领域表现突出。而 MiroThinker-1.7 不仅仅是延长思考时间更是强调模型的可验证性和有效交互。具体表现在两项关键技术升级上① 升级智能体原生训练MiroMind 注意到一个现象如果模型每一步决策本身就质量不高即使让模型完成更多轮的交互最终结果也只是在放大低质量决策。所以提升推理性能的关键不是交互次数的叠加而是专注增强每一步的质量也就是提升模型的智能体原生能力agent-native competence包括三步规划更可靠一开始就把问题拆对、把路选对。推理更准确每一步判断都经得起验证和反思。长程不走偏在复杂任务中始终对齐最终目标。为此MiroThinker-1.7 在训练过程中新增了一个 mid-training中期训练阶段。借助大规模的高质量任务数据重点训练模型的规划、推理和总结能力使其建立起更强的 Agent 基础能力。比如目标分解、选择合适的工具调用、理解工具返回结果、整合生成最终答案。同时该阶段也扩大了模型的通用性。在此基础之上还会加入 SFT监督微调、DPO偏好优化、RL强化学习进一步将 Agent 能力内化实现长时任务稳定推理。② 以验证为核心的重型推理模式然而要提升单步推理质量也不能仅仅依靠模型自身的 Agent 推理能力还需要引入验证器加以约束可分为局部验证和全局验证局部验证在推理的每一步系统都会停下来自我审查。只有通过了局部验证系统才会允许继续探索该条路径。在一定程度上局部验证能够打破传统 AI 的概率偏置找到也许当下瞬时概率较低但实则最正确的路径。全局验证在系统生成了几条完整的推理路径后模型会回溯整条数据链确保最终答案是推理环节最严密的而不是语义最流畅、看似逻辑自洽的。总的来说前者显著增强智能体原生能力后者提升交叉验证可信度二者深度融合让模型在面对复杂推理问题时能够表现出精准可验证的交互潜力。一个反直觉现象另外值得关注的是MiroMind 还观察到一个「反直觉」现象在引入验证机制后模型交互步骤数量明显减少。按照常规逻辑往往步数越多、思考越久模型性能就越强即 Heavy-duty重型。而该现象则说明验证器在这里充当的还有过滤器的作用能够帮助模型及时筛除掉没有信息增益的步骤将算力集中分配到真正推动问题求解的环节上。虽然总步数减少了但每一步包含的逻辑推理质量更高了整个推理过程变得高效且精密。这就引出了 MiroThinker 系列模型的核心理念——扩展有效交互。抓住交互关键「慢」也能弯道超车从 V1.5 到 V1.7模型的每一次迭代都能产生行之有效的结果这未尝不是对 MiroThinker 交互理念的有力验证。简单来说MiroThinker 强调慢下来、想更多。虽然通过增加对话次数、工具调用能够非常直观迅速地刷新基准测试分数但一旦中间步骤错误错误就会像滚雪球一样累积直至系统彻底崩溃。而「慢」推理不追求秒回而是在行动前暂停、验证、权衡确保在当前复杂场景下推得深、推得对。这种看似不讨巧的选择反而成就了 MiroThinker 在大模型市场中独树一帜的风格——不急于给出答案而是专注求证问题背后的深层逻辑。在算力约束与复杂任务的博弈中MiroThinker 没有盲目堆砌算力而是更像一位深谙最优路径的理科生精打细算将算力落在该去的地方。结果也很显而易见只要踏实做好有效交互慢也不等同于落后反倒是助力 LLM 走向真实物理世界更扎实。所以我去测试了一个问题美以伊战争会如何走向它对全球的经济、黄金、A股会有什么影响经过它的搜索资料推理再搜集资料再推理总结如下你可以点击这个地址查看最终推理的结果https://dr.miromind.ai/report/share/eOHyjeG4tTkAL6Dj这两款模型目前都已经对外开放Echo提供预测问题和排行榜提供API没有对话框。https://echo.unipat.aiMiroThinker提供对话式推理可以提问预测。https://dr.miromind.ai它们不是水晶球预测结果不能作为投资建议。它们提供了一种新的决策辅助方式给你一个完整的推理过程和证据链。预测的核心不是信息量是推理过程的严谨性。如果有希望大模型能预测你希望问什么问题欢迎评论区留言。-END-15 分钟上线开源克隆网站 一键部署搭建你自己的产品AI 不是在抢我的工作Harness 正在重构软件工程让 Agent 完成任何复杂任务效率提升 10 倍OpenClaw OpenCLI 实战体验给 OpenClaw 接入10000工具和数据为你盯盘给出独家策略让你的OpenClaw替你打工从0到1跑通小红书运营全流程实战教程谷歌提示工程白皮书Google Prompt Engineering White-paper

更多文章