音频的产生

物体振动产生声音，声音是一种波，可以在介质中传播，并被人或动物感知。（小知识：声波在水和空气中传播时是纵波，也就是介质是顺着声波的传播方向压缩和膨胀的，但声波在金属等固体中传播则是横波和纵波都有，并且两种波的传播速度不一样，参考地震波。）

音频三要素

频率：音频的快慢，也就是振动频率，单体赫兹（Hz）。

振幅：振动的幅度，对应音量，单位分贝（dB）。

音色：声音的谐波成份，比如用不同的乐器演奏同一份乐谱，每种乐器发出的声音都不一样，这就是由谐波成份不一致导致的。

音视频开发 > 音频基础知识 > image2023-1-27_22-13-11.png

对音量的量化实际是对声压级（sound pressure level）的量化，声压级的单位是帕斯卡（Pa），和压强是一样的。人耳可听的声压幅值波动范围为0.00002Pa~20Pa。

虽然音量对应压强，但音量的单位分贝却不是直接对应压强，而是通过声压幅度和和听阈声压幅度（0.00002Pa）的比值取再以10为底取对数后得到的（实际还要再乘以20）。这种量化的原理是人类耳朵对声音强度的感知是成对数的形式的，也就是声压幅度按倍数增长时，人耳对音量的察觉近似线性。dB的计算公式如下：

音视频开发 > 音频基础知识 > image2023-1-27_22-34-3.png

按这种计算方式，0dB对应声压幅度为0.00002Pa，而人耳可听的最大声压幅度20Pa则对应120dB（20Pa/0.00002Pa = 1000000，20*log₁₀1000000 = 120dB ）。

人耳听觉范围20Hz~20kHz。小于20Hz的是次声波，大于20kHz的超声波。

人声的频率范围在100Hz（男低音）到10000Hz（女高音）范围内，正常语音频率范围是300Hz~3400Hz（这也解释了为什么电话的采样率到8k就够用了，参考奈奎斯特采样定理）。

钢琴中央C的频率261Hz，按十二平均律，每高一个八音，频率翻倍。

人耳可听的声压幅值波动范围为0.00002Pa~20Pa，对应分贝值是0dB~120dB。

常见环境下的声音分贝数与声压对应：

音视频开发 > 音频基础知识 > image2023-1-27_22-47-12.png

简称ADC，用于声音采样与量化，将自然的模拟音频转换成计算机可处理的数字信号。采样必须满足奈奎斯特采样定理，也就是采样频率必须大于等于最高信号频率的两倍。

ADC的相关参数有采样率与量化精度，比如常见的8k 16bit量化，表示按8k采样率采样，每次采样的数据使用16bit进行量化。

音视频开发 > 音频基础知识 > image2023-1-27_22-55-1.png

PCM，Pulse-code modulation，脉冲编码调制，代表的是原始音频数据，也就是无损音频数据，未压缩，且未包含额外的封装信息，参考以下音频量化过程，最后生成的二进制数据就是音频PCM编码数据：

音视频开发 > 音频基础知识 > image2023-1-27_23-16-41.png

声音量化参数：

PCM数据包含以上全部信息，计算数据量时使用相乘关系。

WAV是一种音频的封装格式，既可以存储原始PCM数据，也可以存储其他编码格式的数据。WAV格式可以指定PCM的相关参数，便于播放器播放。WAV格式封装了PCM的采样率，采样深度，声道数关于WAV封装格式的介绍：WAV - 维基百科，自由的百科全书。

重点：

音视频开发 > 音频基础知识 > image2023-1-28_0-14-50.png

以下第一个采样点是左声道，值是0x04e8（小端模式，e8是低地址，04是高地址）。

音视频开发 > 音频基础知识 > image2023-1-28_0-15-40.png