目录
总场景:做一个「直播 / 会议 / 短视频 / AI 语音通用音频系统」
一、PCM / WAV / MP3 / AAC —— 在系统里的真实角色
🎤 现场输入
✅ PCM(系统内部的“通用语言”)
WAV 是什么?
MP3 / AAC 是什么?
四者对照(场景化)
二、采样率 / 位数 / 声道 —— 为什么系统一开始就要统一
🎤 现实情况
❌ 不统一会怎样?
✅ 工程做法
常用统一规格
三、音频帧 vs 音频包 —— 系统为什么要“切块”
🎙️ 场景:实时会议
编码前
编码时
网络时
真实后果
四、音频编码流程(完整实战链路)
🎤 麦克风输入
🎛️ 编码器内部
🎯 为什么不是“直接压缩 PCM”?
五、重采样、混音 —— 直播系统里的必经之路
🎧 场景:直播间
正确顺序(死记)
重采样在干嘛?
混音在干嘛?
六、常见编码格式(结合大厂场景)
AAC(视频/内容平台王者)
AAC-LC
HE-AAC
HE-AAC v2
Opus(实时语音之王)
场景
为什么大厂爱用?
七、完整「真实系统」音频链路(终极整合)
八、你现在应该具备的“工程直觉”
九、给你一句“音频工程终极总结”
总场景:做一个「直播 / 会议 / 短视频 / AI 语音通用音频系统」
我们从麦克风进来,到用户耳朵出去。
一、PCM / WAV / MP3 / AAC —— 在系统里的真实角色
🎤 现场输入
麦克风采到的是模拟电信号
ADC 转成:
✅ PCM(系统内部的“通用语言”)
PCM = [ -1230, -1200, -1180, ... ]未压缩
所有处理都用它
网络绝不直接传
WAV 是什么?
WAV = PCM + 文件头
🎬 场景:录音保存到本地
DAW / 录音软件 → WAV
好处:不失真
坏处:巨大
👉WAV ≠ 编码格式,本质还是 PCM
MP3 / AAC 是什么?
PCM 经过编码 + 压缩后的“传输形态”
🎥 场景:发视频 / 推流 / 存储
PCM → 编码 → MP3 / AAC
体积小
可网络传
四者对照(场景化)
| 角色 | 系统位置 | 是否压缩 |
|---|---|---|
| PCM | 内部处理 | ❌ |
| WAV | 本地保存 | ❌ |
| MP3 | 老牌发布 | ✅ |
| AAC | 现代主流 | ✅ |
二、采样率 / 位数 / 声道 —— 为什么系统一开始就要统一
🎤 现实情况
麦克风:48k / 24bit / mono
背景音乐:44.1k / 16bit / stereo
系统提示音:44.1k / 16bit / mono
❌ 不统一会怎样?
音画不同步
混音失真
AI 模型拒绝输入
✅ 工程做法
所有输入 → 重采样 → 位深对齐 → 声道对齐常用统一规格
48k / 16bit / stereo三、音频帧 vs 音频包 —— 系统为什么要“切块”
🎙️ 场景:实时会议
编码前
PCM 是连续流
不方便处理
编码时
PCM → Frame(20ms) → Frame → Frame👉音频帧 = 时间上的最小可解码单位
网络时
Frame + Frame → Packet👉音频包 = 为网络传输服务
真实后果
丢包 = 丢一段声音
帧大小 = 延迟大小
四、音频编码流程(完整实战链路)
🎤 麦克风输入
模拟声波 → ADC → PCM(48k/16bit)🎛️ 编码器内部
PCM → 分帧 → 频域分析 → 心理声学建模 → 压缩 → Bitstream输出:
AAC / Opus
🎯 为什么不是“直接压缩 PCM”?
因为:
人耳不线性
有掩蔽效应
可丢的远多于你想的
五、重采样、混音 —— 直播系统里的必经之路
🎧 场景:直播间
输入:
主播麦:48k
嘉宾语音:16k(网络)
BGM:44.1k
正确顺序(死记)
先重采样 → 再混音 → 再编码重采样在干嘛?
统一时间刻度
防止变调、漂移
混音在干嘛?
多路声音相加
控制能量
防爆音
六、常见编码格式(结合大厂场景)
AAC(视频/内容平台王者)
AAC-LC
🎬 视频 / 音乐
中高码率
音质稳定
HE-AAC
📶 低带宽
高频复制(SBR)
HE-AAC v2
📻 超低码率
参数立体声(PS)
👉抖音 / B 站 / YouTube 都在用
Opus(实时语音之王)
场景
会议
直播连麦
游戏语音
WebRTC
为什么大厂爱用?
6–510 kbps 自适应
低延迟
抗丢包
语音/音乐自动切换
👉微信 / Discord / Zoom / WebRTC
七、完整「真实系统」音频链路(终极整合)
麦克风 → PCM → 重采样 → 混音 → 分帧 → AAC / Opus 编码 → Packet → 网络 → 解包 → 解码 → PCM → 播放八、你现在应该具备的“工程直觉”
PCM:内部处理专用
WAV:存档
AAC:内容分发
Opus:实时语音
帧:时间单位
包:运输单位
重采样:统一时间
混音:能量管理
九、给你一句“音频工程终极总结”
系统里永远处理 PCM
网络上永远跑编码流
时间轴先统一,再谈混音和编码