石嘴山市网站建设_网站建设公司_关键词排名_seo优化
2026/1/5 21:42:52 网站建设 项目流程

 

image

 

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@瓒an、@鲍勃

01 有话题的技术

1、清华等联合发布 UltraEval-Audio v1.1.0:引入隔离推理机制,支持 TTS/ASR/Codec 模型一键复现

 

image

 

 

清华、OpenBMB、面壁智能联合发布 UltraEval-Audio v1.1.0 版本,在原有的「一键测评」音频模型的基础上,重点新增热门音频模型的一键复现能力,扩展对 TTS/ASR/Codec 等专业模型与专项评测的支持,并引入隔离推理运行机制,以在工程层面降低复现门槛、提升评测流程的可控性与可迁移性。

 

在 v1.1.0 中,打破了「仅评测通用音频大模型」的边界,将评测能力下探至 TTS(语音合成)、ASR(语音识别)与 Audio Codec(音频编解码) 三大专有领域,打造全链路的音频评测基础设施。

 

  • TTS 语音合成:聚焦任务多样性

  • 针对 TTS 模型,集成了权威数据集 Seed-TTS-Eval,CV3-Eval, Long-TTS,支持 VC 音色克隆与长语音合成等典型任务场景,为模型在合成文本准确性,音色模仿,声学自然上的表现提供多维度定量基准。

  • ASR 语音识别:多场景覆盖

  • 针对 ASR 模型,支持了包括 LibriSpeech、Common Voice、AISHELL-1、WenetSpeech 在内的十余个主流数据集。评测范围横跨清晰朗读(AISHELL-1)到复杂真实环境(WenetSpeech),从单一语种(LibriSpeech)到多语种(MLS、FLEURS),确保评测结果具有广泛的鲁棒性参考价值。

  • Audio Codec 音频编解码:构建三维评测体系

  • Codec 作为音频基础模型的底层组件,其重建质量至关重要。针对现有评测标准不统一的痛点,构建了语义、音色、声学的「三维评测体系」,为模型优化提供精细的诊断工具:

  • 语义: 采用 Whisper-large-v3 与 Paraformer-zh 计算 WER(词错率),确保内容不丢失;

  • 音色: 基于 WavLM-large 提取声纹特征并计算余弦相似度,衡量音色保真度;

  • 声学: 结合 UTMOS(自然度)与 DNSMOS(抗噪/音质),客观量化听感体验。

 

v1.1.0 版本已在 GitHub 开源,并同步发布包含官方复现脚本与 Benchmark 报告的文档目录。

 

GitHub:https://github.com/OpenBMB/UltraEval-Audio

 

(@OpenBMB 开源社区)

02 有亮点的产品

1、Looki 获蚂蚁美团 A 轮融资:自研「场景自适应智能」架构,实现 7.9 小时长时多模态记录

 

image

 

 

 

AI 硬件初创公司「Looki」完成超 2000 万美元 A 轮融资,由蚂蚁集团领投、美团龙珠等多家机构跟投。公司产品 Looki L1 通过记录多模态上下文构建个人生活图谱,目前正从被动响应模式转向基于「场景自适应智能」的主动服务阶段。

 

  • 从响应式向主动式 AI 演进:Looki 推出「场景自适应智能」架构。设备通过对实时环境和用户行为的持续学习,从被动等待 Prompt 转向主动识别关键时刻,实现如咖啡过量提醒、久坐提醒、CES 逛展自动总结等前瞻性功能。

  • 长时穿戴数据验证:Looki L1 采用非事件驱动的产品形态,用户人均使用时长已从 6.2 小时提升至 7.9 小时。这一数据证明了设备在采集高密度、长时段多模态生活碎片数据方面的可行性。

  • 非结构化数据自动化处理:系统支持将采集到的视频、图片和音频碎片自动加工,生成每日总结 Vlog、生活洞察分析以及连载漫画。利用大模型能力实现对个人生活数据的语义化索引与二次创作。

  • 核心团队技术背景:创始人孙洋与 CTO 刘博聪均为 CMU 校友,曾分别在 Google Assistant、美团智能硬件、Momenta 及 Pony.ai 担任核心职务,具备将自动驾驶级别感知算法应用于消费级硬件的技术底层支撑。

 

( @Founder Park)

 

2、夸克 AI 眼镜更新:新增录音纪要、图文备忘录、大模型多意图理解与执行等功能

 

image

 

 

昨天,搭载千问 AI 助手的夸克 AI 眼镜迎来首次 OTA 升级,新增录音纪要、图文备忘录、大模型多意图理解与执行、蓝环支付、社区服务五项功能,并同步优化翻译、行程查询、音乐播放等常用场景。

 

在录音场景中,升级后的夸克 AI 眼镜可实现十米范围内收音并有效降噪;系统可识别不同说话对象,对录音内容进行 AI 要点提炼,并自动生成待办事项。目前支持中文、英语、日语、韩语四种语言的录音转写及互译。

 

在备忘录场景中,用户可通过拍照或语音方式记录信息。系统具备 AI 分类与语义理解能力,可根据用户提问自动检索历史记录,如在询问「最近一个月我想买的家具有哪些」时,眼镜会汇总相关内容并给出结果。

 

本次升级的核心亮点是大模型支持的多意图理解与执行能力。相比多数仅能处理单一指令的 AI 眼镜,夸克 AI 眼镜已可理解并执行 2 至 3 个复合任务,如地图、音乐、日历等,提高工作与生活场景的效率。

 

随身翻译功能也同步增强,支持 89 种语言,覆盖英、日、韩、法、德等主流语种及多个国家和地区的小众语言,适用于跨境旅行与商务交流。

 

夸克 AI 眼镜目前已推出 S1、G1 两个系列共六款产品。作为阿里千问 C 端事业群的重要业务方向,千问 AI 助手正以 APP 为核心入口,加速向眼镜、PC、汽车等多终端延伸。

 

( @APPSO)

 

3、首款「语音转艺术」智能画布将亮相 CES 2026

 

image

 

 

据 The Verge 报道,Fraimic 将在今年 CES 2026 上首次公开展示其号称「市场首款语音转艺术」的智能画布 Fraimic Smart Canvas。

 

据悉,Fraimic Smart Canvas 采用全彩 Spectra 6 电子墨水屏,主打类纸质哑光观感、无眩光显示,并因仅在「换画」时耗电,可实现多年级别的电池续航。

 

用户只需轻触画框边缘垫子并描述想看到的画面,系统即可在数秒内生成 AI 艺术作品。Fraimic 强调设备无需 App、无需订阅、不依赖云端,可在本地私密运行;用户也可通过手机访问本地网页上传图片,无需安装额外应用。

 

Fraimic 表示,该产品的核心理念是「以硬件为中心」,将其视为可长期使用的艺术展示载体,而非以 AI 为主导的数码设备。其设计获得 BIG SEE Product Design Award 2026 等多项国际奖项。

 

产品将提供两种尺寸:

 

  • 标准版 13.3 英寸(适配 14×18×2 英寸画框)

  • 大号版 31.5 英寸(适配 24×36×2 英寸画框)

 

支持上墙或搁架摆放,均为无电源线设计。预购价格分别为 399 美元与 999 美元,众筹平台 Kickstarter 预计今年 5 月发货,面向消费者的直销渠道预计今年 6 月启动。

 

Fraimic 去年完成预生产样机,并在 Kickstarter 上筹集超过 100 万美元,目前正与 Sungale Electronics 合作推进量产准备,包括测试、验证与合规流程。

 

( @APPSO)

 

4、Subtle 发布无线语音耳机:搭载定制芯片唤醒锁屏 iPhone,转录错误率较 AirPods Pro 3 降低 80%

 

image

 

4a0c4ef7aa5ebd30edd54fea3ebe1ec8

 



 

语音 AI 初创公司 Subtle 推出集成原生语音隔离模型的无线耳机。该设备通过定制硬件实现了在 iPhone 锁定状态下的免按键 AI 唤醒与交互,旨在提供高精度的移动端语音输入接口。

 

  • 定制芯片突破系统限制:内置专用芯片支持在 iOS 设备锁屏状态下直接唤醒 AI,解决了第三方应用在移动端交互路径冗长的问题。

  • 5 倍于竞品的转录精度:官方测试数据显示,其语音捕捉错误率比「AirPods Pro 3」配合「OpenAI」转录模型的方案低 5 倍,支持在极度嘈杂环境及低声耳语状态下准确识别。

  • 全场景听写集成:耳机配合其 iOS 和 Mac 应用,可实现在任何第三方 App 中进行全局语音听写,直接竞争对手锁定「Wispr Flow」和「Superwhisper」。

  • 底层模型工程化背景:公司此前已向「Qualcomm」及「Nothing」授权降噪隔离算法,本次发布标志着其从算法供应商向垂直整合的硬件厂商转型。

 

售价 199 美元(包含一年期订阅),提供黑白两色,已在官网开启预购,预计未来几个月内在美国市场发货。

 

早些时间在 25 年 11 月,加州初创公司 Subtle Computing 宣布完成 600 万美元种子轮融资,由 Entrada Ventures 领投。该公司正通过其专有的语音分离模型,解决嘈杂环境下人声捕获的关键难题。

 

( @TechCrunch)

 

5、Plaud 升级录音胶囊 NotePin S,从硬件扩展至会议转录软件市场

 

硬件厂商「Plaud」于 CES 2026 前夕发布 AI 录音胶囊新版本 「NotePin S」及配套桌面端应用程序。该更新标志着 Plaud 从单一的线下录音硬件扩展至线上会议转录市场,旨在通过硬件控制与多模态软件输入,构建完整的会议记录工作流。

 

  • 新增物理交互与重点高亮功能:设备增加实体按键用于控制录音起止。在录音过程中,用户可点击按键手动标记重点,功能逻辑与高端型号 「Plaud Note Pro」对齐。

  • 硬件参数与存储规格:内置 64GB 闪存,支持连续 20 小时录音;搭载双 MEMS 麦克风阵列,有效拾音半径为 9.8 英尺(约 3 米)。

  • 接入 Apple「Find My」生态:硬件原生支持苹果查找网络,可通过 iOS 设备定位追踪。随机附带四种佩戴配件(夹扣、挂绳、磁贴、腕带),覆盖多种移动办公场景。

  • 桌面端系统音频采集系统:新推出的桌面 App 支持通过 Mac 系统音频直接采集线上会议内容,具备自动检测会议活动并触发转录的能力,直接竞争对手包括 Granola 与 Fireflies。

 

image

 

 

  • 多模态记录:桌面端支持在音频转录的同时,同步嵌入图像素材与手动输入的文本笔记,将纯音频转录升级为结构化的多模态文档。

 

Plaud NotePin S 定价 179 美元,包含全套佩戴组件;每月提供 300 分钟免费转录额度。桌面端应用已同步上线。

 

( @TechCrunch)

03 有态度的观点

1、Google 工程师:Claude Code 一小时完成团队一年工作量

 

image

 

 

Google 资深工程师亚娜・多根(Jaana Dogan)近日在 X 平台公开表示,Anthropic 推出的 Claude Code 在仅一小时内生成了一套可用系统,其完成度已接近她所在团队过去一年构建的成果,引发业内广泛关注。

 

多根在 Google 负责 Gemini API 相关工作。她透露,此次测试中,她向 Claude Code 提交的提示词并不复杂,仅包含三段内容,且未使用任何 Google 内部资料,而是基于公开信息构建了一个简化版需求。

 

Claude Code 在短时间内生成的系统核心为「分布式智能体编排器」,用于协调多个人工智能体协同工作。多根称,Google 团队此前曾尝试多种技术路线,但始终未能达成一致。

 

她强调,Claude Code 的输出仍需进一步优化,但其整体表现已足够令人惊讶。

 

她建议对代码生成工具持怀疑态度的开发者,尝试在自身熟悉的专业领域进行测试,以获得更直观的判断。多根同时确认,Google 内部禁止在非开源项目中使用 Claude Code。

 

在被问及 Gemini 是否会达到类似能力时,多根回应称团队正在全力推进模型与工具链的研发。她表示,人工智能行业并非零和竞争,在竞争对手取得进展时给予肯定是合理的做法。

 

多根还回顾了人工智能辅助编程技术的演进,她坦言,过去对技术进展的预期已被现实超越:

 

  • 2022 年:仅能完成单条代码补全;

  • 2023 年:可处理完整代码片段;

  • 2024 年:扩展至跨文件协作,可构建简单应用;

  • 2025 年:已能独立构建并重构完整代码库。

 

多根近期在 X 上的发言也反映出她对行业现状的思考。她指出,软件行业复杂度与流程摩擦不断上升,开发者难以「直接把事情做成」,而围绕编码智能体的争议只是行业结构性问题的表象。

 

( @APPSO)

 

1585abdbe094ab29ea1d8109723eb553

 

 

77928d349b295cfc40ae7a01a1f08cbe

 

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

image

 

 

作者提示:个人观点,仅供参考

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询