物体振动产生声音,声音是一种波,可以在介质中传播,并被人或动物感知。(小知识:声波在水和空气中传播时是纵波,也就是介质是顺着声波的传播方向压缩和膨胀的,但声波在金属等固体中传播则是横波和纵波都有,并且两种波的传播速度不一样,参考地震波。)
频率:音频的快慢,也就是振动频率,单体赫兹(Hz)。
振幅:振动的幅度,对应音量,单位分贝(dB)。
音色:声音的谐波成份,比如用不同的乐器演奏同一份乐谱,每种乐器发出的声音都不一样,这就是由谐波成份不一致导致的。
对音量的量化实际是对声压级(sound pressure level)的量化,声压级的单位是帕斯卡(Pa),和压强是一样的。人耳可听的声压幅值波动范围为0.00002Pa~20Pa。 虽然音量对应压强,但音量的单位分贝却不是直接对应压强,而是通过声压幅度和和听阈声压幅度(0.00002Pa)的比值取再以10为底取对数后得到的(实际还要再乘以20)。这种量化的原理是人类耳朵对声音强度的感知是成对数的形式的,也就是声压幅度按倍数增长时,人耳对音量的察觉近似线性。dB的计算公式如下: 按这种计算方式,0dB对应声压幅度为0.00002Pa,而人耳可听的最大声压幅度20Pa则对应120dB(20Pa/0.00002Pa = 1000000,20*log101000000 = 120dB )。 |
人耳听觉范围20Hz~20kHz。小于20Hz的是次声波,大于20kHz的超声波。
人声的频率范围在100Hz(男低音)到10000Hz(女高音)范围内,正常语音频率范围是300Hz~3400Hz(这也解释了为什么电话的采样率到8k就够用了,参考奈奎斯特采样定理)。
钢琴中央C的频率261Hz,按十二平均律,每高一个八音,频率翻倍。
人耳可听的声压幅值波动范围为0.00002Pa~20Pa,对应分贝值是0dB~120dB。
常见环境下的声音分贝数与声压对应:
简称ADC,用于声音采样与量化,将自然的模拟音频转换成计算机可处理的数字信号。采样必须满足奈奎斯特采样定理,也就是采样频率必须大于等于最高信号频率的两倍。
ADC的相关参数有采样率与量化精度,比如常见的8k 16bit量化,表示按8k采样率采样,每次采样的数据使用16bit进行量化。
PCM,Pulse-code modulation,脉冲编码调制,代表的是原始音频数据,也就是无损音频数据,未压缩,且未包含额外的封装信息,参考以下音频量化过程,最后生成的二进制数据就是音频PCM编码数据:
声音量化参数:
PCM数据包含以上全部信息,计算数据量时使用相乘关系。
WAV是一种音频的封装格式,既可以存储原始PCM数据,也可以存储其他编码格式的数据。WAV格式可以指定PCM的相关参数,便于播放器播放。WAV格式封装了PCM的采样率,采样深度,声道数关于WAV封装格式的介绍:WAV - 维基百科,自由的百科全书。
参考:PCM数据格式 - 简书
重点:
以下第一个采样点是左声道,值是0x04e8(小端模式,e8是低地址,04是高地址)。