今天分享的是我们 Mixlab AI 编程训练营第 20 期学员林薇(化名)做的作品,博物馆沉浸式音景导览。
林薇做这个项目的出发点让我印象很深。她说她观察到一个现象:那种遍布景点和博物馆的导览器,虽然市占率很高,但使用体验其实很糟糕。你得不停地对着展品找编号,点击,等待,听完再走到下一个。整个过程一直在打断你的观看。
这个观察触动了我。我自己也用过很多次那种导览器,但从来没有意识到「打断」才是问题的核心。我以为是内容不够好,或者声音不够吸引人。但她说的对,真正的问题是:你要不停地在「看」和「听」之间切换注意力。
她说最好的导览其实是人工讲解。讲解员的声音就在你耳边,你可以听,也可以走神,不需要特意去操作什么。你跟着走,自然就能有所获得。
这让我重新思考了一个问题:为什么我们总是习惯把交互做得很复杂?好像功能越多,产品就越好。但其实最好的体验往往是最简单的——就像人工讲解,只有一个声音,一段连续的叙述。
林薇的产品演示很简单。打开 APP,选一个展览,比如「大唐盛世」,点进去之后就是一个巨大的播放按钮。点击,音频就开始播放:「想象我们正站在公元 745 年……」
想暂停就暂停。想问问题就按住按钮说话。比如她问「请解释这个是什么」,AI 就会停下主线讲解,告诉你这是唐代的三彩马,是丝绸之路上的见证,然后问你「要不要我们继续听主线讲解」。
整个过程就是这么简单。没有复杂的菜单,没有地图导航,没有编号输入。如果能用一个按钮解决,就不要用更多东西。
但简单的背后,她想得很细。比如她提到一个问题:如果你跟着音频走,音频说的内容必须和你眼前看到的东西是一致的。这就需要定位。传统做法是在展厅里布满蓝牙信号器,甚至用 UWB 定位系统——国外很多博物馆这么做,但成本要几百万。
她的解决方案是:当你发现自己迷路了,用摄像头扫一下眼前的展品,AI 就能告诉你在哪里,应该往哪走。
还有个功能我觉得很有意思:打标签。你听到某一段特别精彩,双击按钮,就像在书里做了个书签。最后在用户中心会帮你整理出来:这个展览你感兴趣的是哪些东西。
她说这些载体可以是 APP,可以是小程序,也可以是一副骨传导耳机加摄像头的眼镜——不需要 AR 功能,不需要复杂的镜片,就是最简单的工具。
我问她为什么要做这个?
她说博物馆的语音导览项目一直都是定制化的,价格很高,但从来没有人想过做一个标准化的产品。现在有了 AI,可以用更低的成本制作内容——传统方式要去录音棚、找录音师、策展员写稿子,AI 可以让这个过程快很多。
这个想法让我想起之前和她聊到的一个话题:好的产品不是功能最多的,而是最准确地解决了某个被忽视的问题。
传统导览器功能很全,但忽视了「打断」这个核心痛点。人工讲解体验很好,但成本太高。
AI 音频导览可能正好在这个空隙里。
我很期待看到这个产品真正上线的样子。
2天从0到上线:用 Gemini 与 Cursor 打造你的第一个AI应用#N22报名