音频的产生

物体振动产生声音,声音是一种波,可以在介质中传播,并被人或动物感知。(小知识:声波在水和空气中传播时是纵波,也就是介质是顺着声波的传播方向压缩和膨胀的,但声波在金属等固体中传播则是横波和纵波都有,并且两种波的传播速度不一样,参考地震波。)

音频三要素

频率:音频的快慢,也就是振动频率,单体赫兹(Hz)。

振幅:振动的幅度,对应音量,单位分贝(dB)。

音色:声音的谐波成份,比如用不同的乐器演奏同一份乐谱,每种乐器发出的声音都不一样,这就是由谐波成份不一致导致的。

对音量的量化实际是对声压级(sound pressure level)的量化,声压级的单位是帕斯卡(Pa),和压强是一样的。人耳可听的声压幅值波动范围为0.00002Pa~20Pa。

虽然音量对应压强,但音量的单位分贝却不是直接对应压强,而是通过声压幅度和和听阈声压幅度(0.00002Pa)的比值取再以10为底取对数后得到的(实际还要再乘以20)。这种量化的原理是人类耳朵对声音强度的感知是成对数的形式的,也就是声压幅度按倍数增长时,人耳对音量的察觉近似线性。dB的计算公式如下:

按这种计算方式,0dB对应声压幅度为0.00002Pa,而人耳可听的最大声压幅度20Pa则对应120dB(20Pa/0.00002Pa = 1000000,20*log101000000 = 120dB )。

常用的声音指标

人耳听觉范围20Hz~20kHz。小于20Hz的是次声波,大于20kHz的超声波。

人声的频率范围在100Hz(男低音)到10000Hz(女高音)范围内,正常语音频率范围是300Hz~3400Hz(这也解释了为什么电话的采样率到8k就够用了,参考奈奎斯特采样定理)。

钢琴中央C的频率261Hz,按十二平均律,每高一个八音,频率翻倍。

人耳可听的声压幅值波动范围为0.00002Pa~20Pa,对应分贝值是0dB~120dB。

常见环境下的声音分贝数与声压对应:

模数转换

简称ADC,用于声音采样与量化,将自然的模拟音频转换成计算机可处理的数字信号。采样必须满足奈奎斯特采样定理,也就是采样频率必须大于等于最高信号频率的两倍。

ADC的相关参数有采样率与量化精度,比如常见的8k 16bit量化,表示按8k采样率采样,每次采样的数据使用16bit进行量化。

PCM与WAV

PCM,Pulse-code modulation,脉冲编码调制,代表的是原始音频数据,也就是无损音频数据,未压缩,且未包含额外的封装信息,参考以下音频量化过程,最后生成的二进制数据就是音频PCM编码数据:

声音量化参数:

  • 采样率:每秒采样几次,常用8K, 16K, 32K, 44.1K, 48K
  • 采样大小(采样位深):单次采样采样多少bit进行量化,常用16bit
  • 声道数:单声道、双声道、多声道等。

PCM数据包含以上全部信息,计算数据量时使用相乘关系。

WAV是一种音频的封装格式,既可以存储原始PCM数据,也可以存储其他编码格式的数据。WAV格式可以指定PCM的相关参数,便于播放器播放。WAV格式封装了PCM的采样率,采样深度,声道数关于WAV封装格式的介绍:WAV - 维基百科,自由的百科全书

PCM数据格式

参考:PCM数据格式 - 简书

重点:

  • 双声道PCM数据排布,左右声道间隔存储采样点数据。
  • 采样格式16LE,“LE”代表Little Endian,代表2 Byte采样值的存储方式为高位存在高地址中。

以下第一个采样点是左声道,值是0x04e8(小端模式,e8是低地址,04是高地址)。










  • 无标签