
开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@瓒an、@鲍勃
01 有话题的技术
1、OpenAI 发布 GPT‑5.2‑Codex,强化防御性网络安全应用

今天,OpenAI 正式发布智能体编码模型 GPT‑5.2‑Codex,定位为「迄今最前沿的智能体编码模型」,面向复杂的软件工程与防御性网络安全场景。
该模型基于 GPT‑5.2 定向优化,具备更强的长程任务执行能力、代码重构与迁移性能、原生 Windows 环境适配,以及对截图、技术图表和用户界面的精准理解。
OpenAI 表示,GPT‑5.2‑Codex 已在 Codex CLI、IDE 扩展、云端与代码审查场景向付费 ChatGPT 用户开放,API 接入将在未来数周逐步启用。

在性能方面,GPT‑5.2‑Codex 在 SWE‑Bench Pro 基准测试中准确率达到 56.4%,在 Terminal‑Bench 2.0 中准确率为 64.0%,均较前代模型有所提升。
模型通过原生上下文压缩提升长周期任务的稳定性与 token 使用效率,并在终端任务中展现更高成功率与可靠性。
此前,研究人员已利用 GPT‑5.1‑Codex‑Max 在 React 框架中发现并披露漏洞,显示该系列模型在现实防御性研究中的潜力。
在网络安全方面,OpenAI 强调 GPT‑5.2‑Codex 虽未达到「高」级能力门槛,但已显著增强防御性能力。公司同步推出「可信访问计划」,仅限邀请安全专业人士与具备明确应用场景的机构参与,用于漏洞研究、授权红队测试等防御性工作。
OpenAI 表示,随着模型能力持续提升,将以负责任的方式逐步开放访问,并与安全社区保持紧密合作,以降低滥用风险。
(@APPSO、@新智元)
2、烁谷科技 Vocu V3 语音合成模型:登顶 HuggingFace TTS Arena 榜单
广州烁谷科技自研的 Vocu V3 语音合成模型(海外版,国内版为悟声)在 HuggingFace TTS Arena 榜单上获得第一名。该模型在海量用户盲测中,凭借语音质量和情感表现力超越了 Inworld 和 Eleven Labs 等国际厂商。
-
HuggingFace TTS Arena 榜单第一:该榜单采用 Elo 社区评分机制,基于全球用户匿名投票,动态更新,被视为衡量语音合成技术实力的「试金石」。
-
3 秒声音样本完成 99.5% 相似度音色克隆 :Vocu V3 能够基于极短的音频样本,实现高精度、高相似度的音色克隆。
-
支持数十种语言及方言,具备影视级性能: V3.1 版本全面支持中文、英语、韩语、法语、德语、西班牙语、葡萄牙语等数十种语言及粤语等方言,在情感张力、相似度、稳定性、自然度、语义理解等方面表现领先。
-
「悟声」语音合成算法:实现了从「感知文本」到「再生语音」的跨越,能深度理解文本语义与情感,自动匹配多种音色和口音,并精准演绎情感起伏。
-
VocaMark 音频隐形水印与 VocaAntiFake 鉴伪大模型: 构建了 AI 生成音频的安全闭环,实现无痕溯源与高精度鉴别,抵御恶意攻击。
相关链接:
https://www.vocu.ai/
(@南都大数据研究院)
3、美团 LongCat-Video-Avatar 开源 SOTA 级虚拟人视频生成模型
美团 LongCat 团队开源了 LongCat-Video-Avatar 虚拟人视频生成模型。该模型在动作拟真度、长视频稳定性和身份一致性方面取得显著突破,支持 AT2V、ATI2V 及视频续写功能,旨在解决虚拟人长视频生成中的痛点。
-
SOTA 级动作拟真度: 通过 Disentangled Unconditional Guidance 训练策略,实现嘴型、眼神、表情及肢体动作的同步拟真,支持「静音」状态下的自然微动作(如眨眼、调整姿势)。
-
长时序视频稳定性: 采用 Cross-Chunk Latent Stitching 训练策略,在潜在空间(latent space)直接拼接上下文,避免 VAE 解码再编码带来的画质退化,实现长达 5 分钟视频生成时的色彩和细节稳定性。
-
商用级身份一致性: 升级基座模型至 LongCat-Video,并引入带位置编码的参考帧注入模式与 Reference Skip Attention 机制,在确保身份(ID)一致性的同时,抑制动作僵化与重复。
-
多模态输入支持: 原生支持 Audio-Text-to-Video (AT2V)、Audio-Text-Image-to-Video(ATI2V) 及视频续写(inpainting/continuation)等核心功能。
-
权威基准评测领先: 在 HDTF、CelebV-HQ、EMTD 等数据集上,多项核心指标(Sync-c/Sync-D, FID, FVD, CSIM)达到 SOTA 水平。
项目地址:
GitHub:https://github.com/meituan-longcat/LongCat-Video
Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar
Project:https://meigen-ai.github.io/LongCat-Video-Avatar/
(@龙猫 LongCat)
4、Mistral AI 发布 Mistral OCR 3:OCR 性能提升 74%,支持复杂表格与手写体,API 价格降至 $1/千页


Mistral AI 推出了其最新 OCR 模型 Mistral OCR 3,在表单、扫描文档、复杂表格和手写体识别方面,相较前代模型 Mistral OCR 2 整体性能提升 74%。该模型现已通过 API 和 Document AI Playground 提供,将 OCR 成本降低至 $1/千页(批量 API)。
-
74% 提升率: Mistral OCR 3 在表单、扫描文档、复杂表格和手写体识别上,相比 Mistral OCR 2 实现了 74% 的总体胜率。
-
复杂表格结构重构: 模型能够精确识别并输出带有 colspan/rowspan 属性的 HTML 表格标签,保留了包括表头、合并单元格和多行块在内的复杂表格布局。
-
手写体与表单理解增强: 显著提升了对草书、混合内容注释、打印表单上的手写文本,以及复杂表单布局(包括标签、勾选框和密集排列的字段)的识别能力。
-
成本优化: API 价格为 2/千页,通过 Batch-API 优惠后,成本降至 1/千页。
-
Document AI Playground: 提供拖拽式界面,支持将 PDF/图像解析为纯文本或结构化 JSON。
相关链接:
https://mistral.ai/news/mistral-ocr-3
( @Mistral AI Blog)
02 有亮点的产品
1、千问 App 全面接入高德地图

昨天起,千问 App 全面接入高德地图能力,围绕导航与生活服务实现深度打通:用户在千问 App 中可一体化完成路线规划、周边餐饮娱乐检索与「顺路」店铺筛选,提升复杂出行需求的响应效率。
此次接入覆盖新能源车出行、限行规避与服务信息等关键场景。
用户提供出发地、目的地与车辆续航信息后,千问 App 将参考高德路线数据自动规划沿途充电站;同时支持依据车牌尾号、出行时间与目的地生成合规出行方案,并在路线规划界面同步展示收费站、服务区与限行提示。
高德称,未来将与千问在餐饮、娱乐、休闲等生活场景继续扩展智能服务体验。
( @APPSO)
2、3299 元,XREAL 推出新一代 AR 眼镜 1S

昨天,AR 眼镜厂商 XREAL 正式发布新品 XREAL 1S,面向更广泛的年轻消费群体,主打「一副眼镜,开启 500 英寸随身空间巨幕时代」,核心亮点包括:
-
搭载自研 X1 空间计算芯片,支持实时 2D 转 3D 功能;
-
配备 Sony Micro-OLED 微显示屏,双眼 1200p 分辨率与 700 尼特亮度,并获得 TÜV 莱茵眼舒适五星认证;
-
原生 3DoF 空间显示能力,无需手机 App 或额外配件即可实现稳定画面;
-
全链路优化,M2P 延迟低至 3ms,显著降低眩晕感;
-
提供多规格鼻托与柔性铰链,确保长时间佩戴舒适;
跨生态即插即用,支持 iPhone、Android 手机、Steam Deck、Windows PC 与 MacBook。XREAL 创始人兼 CEO 徐驰在发布会上表示,眼镜是最接近人类感知的终端,也是最有可能承载下一代计算形态的入口。
XREAL 强调,X1 芯片的使命是「Spatial Display for All」,即不挑设备、不设门槛,让任何人都能随时拥有可靠的空间屏幕。
XREAL 1S 定价 3299 元,已在京东与天猫开启预约,并将在 12 月 22 日 20:00 正式发售。
( @APPSO)
3、Amazon 为门铃推出 Greetings 功能:Alexa 智能识别访客并代为应答

Amazon 为 Ring Doorbell 推出名为「Greetings」的新功能,整合了 Alexa 的对话式 AI 能力。该功能可识别访客身份(如快递员、销售人员),并根据预设指令进行交互,同时支持亲友留言。
-
访客识别与响应: 利用 Ring 的视频描述技术,识别摄像头前人物的服饰、动作和携带物品,从而判断其身份(如快递员、销售人员、亲友),并根据用户指令生成相应回复。
-
自定义交互指令: 用户可为不同类型访客设置具体指令,例如:指示快递员放置包裹的位置、提供饮水零食、处理签收事宜;礼貌拒绝推销人员;或让亲友留言。
-
对话式 AI 集成: 集成 Alexa 对话式 AI,实现更自然的语言交互,而非预设脚本。
-
隐私与安全考量: Amazon 声明该功能不识别具体个人身份,仅基于视觉描述生成响应。
-
兼容性与部署: 该功能兼容 Ring Wired Doorbell Pro (3rd Gen) 和 Ring Wired Doorbell Plus (2nd Gen),需要 Ring Premium Plan 和已启用的视频描述功能。
( @TechCrunch)
4、Stripe Press 发布系列短纪录片《Tacit》:AI 时代下,大师级工艺的隐性之美

Stripe Press 近日推出纪录片系列《Tacit》,首两集聚焦调香大师 Christophe Laudamiel,探讨 AI 浪潮下「大师级技艺」的存续。
Laudamiel 曾操刀多款现象级香水。影片记录了他从零构建香氛的全过程,展现了专业直觉如何通过数万次实验与错误(如排除尴尬的异味)转化为卓越的产品。这正是「隐性知识」——一种无法通过简单指令习得、深植于经验之中的判断力。

Stripe Press 负责人 Tamara Winter 强调,隐性知识不仅是匠心所在,更是经济持续增长的关键要素。当这种知识的代际传递出现断裂——例如当今大师级调香师的数量已稀缺至低于宇航员时——整个行业的繁荣根基将面临崩塌。
除了影像记录,《Tacit》配套网站还整理了相关经典书单,旨在为这一深刻课题提供更广阔的理论支撑。( @Stripe Press)
03 有态度的观点
1、小米语音首席科学家:AI 发展的本质就像生物进化,不开源要慢 1000 倍
在量子位 MEET2026 智能未来大会上,著名的「Kaldi 之父」、小米集团首席语音科学家、IEEE Fellow Daniel Povey 提出:就像生物进化一样, AI「配方」的设计本质上就是一个不断试错的过程,而进化的速度,取决于「复制」一个新想法所需的时间。
他也将开源视为 AI 进化的核心加速器——若没有开源,行业的进化速度恐怕要慢上一千倍;正是因为有了开源,技术才能像生物适应新环境一样,经历「长期停滞+瞬间爆发」的非线性跃迁。
至于如何在未来的竞争中生存,在他看来,大公司最明智的策略是「两条腿走路」——一边利用 Transformer 赋能当下的产品,一边保留资源探索未知,赌中下一个颠覆世界的机会。
(@量子位)
04 社区黑板报
招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)
1、硬件日招募!「对话式 AI+硬件」系列活动@深圳丨 RTE Meetup+TEN Workshop
2025 年 RTE 开发者社区的收官活动,将再次落地硬件之都深圳,一起畅想 2026!
聚焦「对话式 AI+硬件」主题, 来自通义百聆 Fun-CosyVoice、声网、Lookee 盒智科技、TEN Framework、TEN VAD、Amphion 的技术专家和创业者将呈现多种类型活动。
上午主题分享+圆桌,下午动手工作坊——无论你是产品人、开发者、创业者还是硬件极客,总有一款适合你!
12 月 27 日,深圳科创学院,欢迎参加~



阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示:个人观点,仅供参考