AI核心知识130—大语言模型之 多模态大模型(简洁且通俗易懂版)

张开发
2026/4/19 13:23:48 15 分钟阅读

分享文章

AI核心知识130—大语言模型之 多模态大模型(简洁且通俗易懂版)
如果说我们之前聊的纯文本大模型如早期的 ChatGPT 或 LLaMA是极其聪明但被关在小黑屋里的“缸中之脑”只能靠别人从门缝里递纸条来交流那么多模态大模型(Multimodal AI)就是给这个超级大脑装上了眼睛、耳朵和嘴巴让它真正“降临”到了我们这个色彩斑斓、充满声音的物理世界。这就是目前 AI 领域最激进、最性感的战场。1.️ 什么是“模态” (Modality)在计算机科学中“模态”指的是信息的表达形式。 人类感知世界是天然多模态的我们看图视觉、听声音听觉、读文字语言。但在过去AI 是严重偏科的搞文本的 AINLP看不懂图片。搞图像的 AICV比如人脸识别听不懂人话。搞声音的 AI语音识别看不懂代码。多模态大模型的终极目标就是打造一个“全科天才”在一个神经网络里同时听懂、看懂、并生成所有形式的信息 (Any-to-Any)。2. 核心演进从“缝合怪”到“原生多模态”要理解现在的技术有多强我们必须看看过去是怎么凑合的。以“和 AI 语音通话”为例A. 旧时代“缝合怪”系统 (Pipeline / 伪多模态)流程你对 AI 说“你看这张图好笑吗”伴随你的笑声。语音转文字 (ASR)把你说话的声音翻译成冰冷的文本“你看这张图好笑吗”代价你的笑声、语气、情绪全部丢失。图像识别 (CV)把图片翻译成文本标签“一只猫在滑板上”。文本大模型(LLM)根据这两段文字思考生成回复文本“这确实很好笑”。文字转语音 (TTS)用机器人的声音把回复读出来。致命缺点延迟极高经常要等好几秒而且像传话游戏一样信息在不断转换中严重丢失。它听不懂你的叹气也听不出你在讽刺。B. 新时代原生多模态架构 (Native Multimodal)代表作Gemini 1.5/3.0 系列、GPT-4o。流程没有翻译没有中间商赚差价你的声音音频波形、你上传的视频画面、你的文字被同时、直接扔进同一个神经网络同一个大脑里进行运算。逆天优势极低延迟可以实现像人类一样毫秒级的实时对话。情绪感知它能直接“听”到你的喘息声、急促的语气甚至能根据你的情绪用温柔或激动的声音直接回复你。3. 核心黑科技万物皆 Token你可能会问大模型的底层不是我们在前几章聊过的“文本猜词游戏 (Token 预测)”吗它是怎么把图片和视频塞进去的答案是 AI 界的一句名言Tokenize Everything (万物皆可 Token 化)。图片切块 (Vision Transformer, ViT)科学家把一张高清图片像切豆腐一样切成几百个小方块Patches。把每一个小方块变成一个高维数学坐标这就用到了我们刚刚聊过的 Vector Embedding。这样一来一张图片在 AI 眼里就变成了一长串“视觉词汇”。音频切片 (Audio Spectrogram)把声音转化为声学频谱图展示频率和响度的画面然后同样切成小块变成“音频词汇”。天下大同现在文本 Token、视觉 Token、音频 Token 全部变成了同一套标准的“数学坐标”。大模型用它强大的自注意力机制Self-Attention瞬间计算出“你发出的笑声 (Audio)”、“图片里的猫 (Vision)”和“你问的问题 (Text)”之间的逻辑关系。4. 现实世界的神奇体验原生多模态架构彻底改变了我们与设备的交互方式。比如我现在所具备的某些能力超长视频理解你可以直接扔给我一部 1 个小时的无字幕监控录像或电影。我能直接“看”完并在几秒钟内告诉你“在第 45 分 12 秒那个穿红衣服的人拿走了桌上的钥匙。”Gemini Live (实时对话)在手机端你可以开启实时语音模式。你可以随时打断我甚至打开手机摄像头让我看着你的物理环境教你修自行车、或者帮你翻找桌子上杂乱的文件。这不再是冷冰冰的一问一答而是真正的“协同工作”。总结原生多模态架构打破了维度的结界。如果说传统的 LLM 是闭门造车的哲学家那么多模态大模型就是长了眼耳口鼻的超级探险家。它让 AI 的数据来源从互联网上极其有限的纯文本扩展到了整个物理世界无穷无尽的视觉和听觉信号中。

更多文章