Linux Audio 编程 | 小众声学

发表评论

A+

一、数字音频
音频信号是一种连续变化的模拟信号，但计算机只能处理和记录二进制的数字信号，由自然音源得到的音频信号必须经过一定的变换，成为数字音频信号之后，才能送到计算机中作进一步的处理。数字音频系统通过将声波的波型转换成一系列二进制数据，来实现对原始声音的重现，实现这一步骤的设备常被称为模/数转换器（A/D）。A/D转换器以每秒钟上万次的速率对声波进行采样，每个采样点都记录下了原始模拟声波在某一时刻的状态，通常称之为样本（sample），而每一秒钟所采样的数目则称为采样频率，通过将一串连续的样本连接起来，就能在计算机中描述一段声音了。对于采样过程中的每一个样本来说，数字音频系统会分配一定存储位来记录声波的振幅，一般称之为采样分辩率或采样精度，采样精度越高，声音还原时就会越细腻。数字音频涉及到的概念非常多，对于在Linux下进行音频编程的程式员来说，最重要的是理解声音数字化的两个关键步骤：采样和量化。采样就是每隔一定时间就读一次声音信号的幅度，而量化则是将采样得到的声音信号幅度转换为数字值，从本质上讲，采样是时间上的数字化，而量化则是幅度上的数字化。下面介绍几个在进行音频编程时经常需要用到的技术指标：

1. 采样频率
采样频率是指将模拟声音波形进行数字化时，每秒钟抽取声波幅度样本的次数。采样频率的选择应该遵循奈奎斯特（HarryNyquist）采样理论：如果对某一模拟信号进行采样，则采样后可还原的最高信号频率只有采样频率的一半，或说只要采样频率高于输入信号最高频率的两倍，就能从采样信号系列重构原始信号。正常人听觉的频率范围大约在
20Hz~20kHz之间，根据奈奎斯特采样理论，为了确保声音不失真，采样频率应该在40kHz左右。常用的音频采样频率有8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz等，如果采用更高的采样频率，还能达到DVD的音质。

2. 量化位数
量化位数是对模拟音频信号的幅度进行数字化，他决定了模拟信号数字化以后的动态范围，常用的有8位、12位和16位。量化位越高，信号的动态范围越大，数字化后的音频信号就越可能接近原始信号，但所需要的存贮空间也越大。

3. 声道数
声道数是反映音频数字化质量的另一个重要因素，他有单声道和双声道之分。双声道又称为立体声，在硬件中有两条线路，音质和音色都要优于单声道，但数字化后占据的存储空间的大小要比单声道多一倍

二、声卡驱动

出于对安全性方面的考虑，Linux下的应用程式无法直接对声卡这类硬件设备进行操作，而是必须通过内核提供的驱动程式才能完成。在Linux上进行音频编程的本质就是要借助于驱动程式，来完成对声卡的各种操作。对硬件的控制涉及到寄存器中各个比特位的操作，通常这是和设备直接相关并且对时序的需求非常严格，如果这些工作都交由应用程式员来负责，那么对声卡的编程将变得异常复杂而困难起来，驱动程式的作用正是要屏蔽硬件的这些底层
细节，从而简化应用程式的编写。目前Linux下常用的声卡驱动程式主要有两种：OSS和ALSA。最早出目前Linux上的音频编程接口是OSS（Open Sound System），他由一套完整的内核驱动程式模块组成，能为绝大多数声卡提供统一的编程接口。OSS出现的历史相对较长，这些内核模块中的一部分（OSS/Free）是和Linux内核源码一起免费发布的，另外一些则以二进制的形式由4FrontTechnologies公司提供。由于得到了商业公司的鼎力支持，OSS已成为在Linux下进行音频编程的事实标准，支持OSS的应用程式能够在绝大多数声卡上工作良好。虽然OSS已非常成熟但他毕竟是个没有完全开放原始码的商业产品，ALSA （Advanced Linux SoundArchitecture）恰好弥补了这一空白，他是在Linux下进行音频编程时另一个可供选择的声卡驱动程式。ALSA除了像OSS那样提供了一组内核驱动程式模块之外，还专门为简化应用程式的编写提供了相应的函数库，和OSS提供的基于ioctl的原始编程接口相比，ALSA函数库使用起来要更加方便一些。ALSA的主要特点有：

支持多种声卡设备
模块化的内核驱动程式
支持SMP和多线程
提供给用研发函数库
兼容OSS应用程式

ALSA
和OSS最大的不同之处在于ALSA是由志愿者维护的自由项目，而OSS则是由公司提供的商业产品，因此在对硬件的适应程度上OSS要优于ALSA，他能够支持的声卡种类更多。ALSA虽然不及OSS运用得广泛，但却具有更加友好的编程接口，并且完全兼容于OSS，对应用程式员来讲无疑是个更佳的选择。

三、编程接口

怎么对各种音频设备进行操作是在Linux上进行音频编程的关键，通过内核提供的一组系统调用，应用程式能够访问声卡驱动程式提供的各种音频设备接口，这是在Linux下进行音频编程最简单也是最直接的方法。

3.1 访问音频设备

无论是OSS还是ALSA，都是以内核驱动程式的形式运行在 Linux内核空间中的，应用程式要想访问声卡这一硬件设备，必须借助于Linux内核所提供的系统调用（systemcall）。从程式员的角度来说，对声卡的操作在非常大程度上等同于对磁盘文件的操作：首先使用open系统调用建立起和硬件间的联系，此时返回的文件描述符将作为随后操作的标识；接着使用read系统调用从设备接收数据，或使用write系统调用向设备写入数据，而其他所有不符合读/写这一基本模式的操作都能由ioctl系统调用来完成；最后，使用close系统调用告诉Linux内核不会再对该设备做进一步的处理。

open系统调用
系统调用open能获得对声卡的访问权，同时还能为随后的系统调用做好准备，其函数原型如下所示： int open(const char *pathname, int flags, int mode); 参数pathname是将要被打开的设备文件的名称，对于声卡来讲一般是/dev/dsp。参数flags用来指明应该以什么方式打开设备文件，他能是O_RDONLY、O_WRONLY或O_RDWR，分别表示以只读、只写或读写的方式打开设备文件；参数mode通常是可选的，他只有在指定的设备文件不存在时才会用到，指明新创建的文件应该具有怎样的权限。如果open系统调用能够成功完成，他将返回一个正整数作为文件标识符，在随后的系统调用中需要用到该标识符。如果open系统调用失败，他将返回-1，同时还会设置全局变量errno，指明是什么原因导致了错误的发生。

read系统调用
系统调用read用来从声卡读取数据，其函数原型如下所示： int read(int fd, char *buf, size_t count); 参数fd是设备文件的标识符，他是通过之前的open系统调用获得的；参数buf是指向缓冲区的字符指针，他用来保存从声卡获得的数据；参数count则用来限定从声卡获得的最大字节数。如果read系统调用成功完成，他将返回从声卡实际读取的字节数，通常情况会比count的值要小一些；如果read系统调用失败，他将返回-1，同时还会设置全局变量errno，来指明是什么原因导致了错误的发生。

write系统调用
系统调用write用来向声卡写入数据，其函数原型如下所示：

size_t write(int fd, const char *buf, size_t count); 系统调用write和系统调用read在非常大程度是类似的，差别只在于write是向声卡写入数据，而read则是从声卡读入数据。参数fd同样是设备文件的标识符，他也是通过之前的open系统调用获得的；参数buf是指向缓冲区的字符指针，他保存着即将向声卡写入的数据；参数count则用来限定向声卡写入的最大字节数。如果write系统调用成功完成，他将返回向声卡实际写入的字节数；如果read系统调用失败，他将返回-1，同时还会设置全局变量errno，来指明是什么原因导致了错误的发生。无论是read还是write，一旦调用之后Linux内核就会阻塞当前应用程式，直到数据成功地从声卡读出或写入为止。

ioctl系统调用
系统调用ioctl能对声卡进行控制，凡是对设备文件的操作不符合读/写基本模式的，都是通过ioctl来完成的，他能影响设备的行为，或返回设备的状态，其函数原型如下所示：

int ioctl(int fd, int request, ...);

参数fd是设备文件的标识符，他是在设备打开时获得的；如果设备比较复杂，那么对他的控制请求相应地也会有非常多种，参数request的目的就是用来区分不同的控制请求；通常说来，在对设备进行控制时还需要有其他参数，这要根据不同的控制请求才能确定，并且可能是和硬件设备直接相关的。

close系统调用
当应用程式使用完声卡之后，需要用close系统调用将其关闭，以便及时释放占用的硬件资源，其函数原型如下所示：

int close(int fd);

参数fd是设备文件的标识符，他是在设备打开时获得的。一旦应用程式调用了close系统调用，Linux内核就会释放和之相关的各种资源，因此建议在不必的时候尽量及时关闭已打开的设备。

3.2 音频设备文件

对于Linux应用程式员来讲，音频编程接口实际上就是一组音频设备文件，通过他们能从声卡读取数据，或向声卡写入数据，并且能够对声卡进行控制，设置采样频率和声道数目等等。

/dev/sndstat
设备文件/dev/sndstat是声卡驱动程式提供的最简单的接口，通常他是个只读文件，作用也仅仅只限于汇报声卡的当前状态。一般说来，/dev/sndstat是提供给最终用户来检测声卡的，不宜用于程式当中，因为所有的信息都能通过ioctl系统调用来获得。Linux提供的cat命令能非常方便地从/dev/sndstat获得声卡的当前状态：cat /dev/sndstat

/dev/dsp

声卡驱动程式提供的/dev/dsp是用于数字采样（sampling）和数字录音（recording）的设备文件，他对于Linux下的音频编程来讲非常重要：向该设备写数据即意味着激活声卡上的D/A转换器进行放音，而向该设备读数据则意味着激活声卡上的A/D转换器进行录音。目前许多声卡都提供有多个数字采样设备，他们在Linux下能通过/dev/dsp1等设备文件进行访问。DSP是数字信号处理器（Digital Signal Processor）的简称，他是用来进行数字信号处理的特别芯片，声卡使用他来实现模拟信号和数字信号的转换。声卡中的DSP设备实际上包含两个组成部分：在以只读方式打开时，能够使用A/D转换器进行声音的输入；而在以只写方式打开时，则能够使用D/A转换器进行声音的输出。严格说来，Linux下的应用程式要么以只读方式打开/dev/dsp输入声音，要么以只写方式打开/dev/dsp输出声音，但事实上某些声卡驱动程式仍允许以读写的方式打开/dev/dsp，以便同时进行声音的输入和输出，这对于某些应用场合（如
IP电话）来讲是非常关键的。

在从DSP设备读取数据时，从声卡输入的模拟信号经过A/D转换器变成数字采样后的样本（sample），保存在声卡驱动程式的内核缓冲区中，当应用程式通过read系统调用从声卡读取数据时，保存在内核缓冲区中的数字采样结果将被复制到应用程式所指定的用户缓冲区中。需要指出的是，声卡采样频率是由内核中的驱动程式所决定的，而不取决于应用程式从声卡读取数据的速度。如果应用程式读取数据的速度过慢，以致低于声卡的采样频率，那么多余的数据将会被丢弃；如果读取数据的速度过快，以致高于声卡的采样频率，那么声卡驱动程式将会阻塞那些请求数据的应用程式，直到新的数据到来为止。在向DSP设备写入数据时，数字信号会经过D/A转换器变成模拟信号，然后产生出声音。应用程式写入数据的速度同样应该和声卡的采样频率相匹配，否则过慢的话会产生声音暂停或停顿的现象，过快的话又会被内核中的声卡驱动程式阻塞，直到硬件有能力处理新的数据为止。和其他设备有所不同，声卡通常不会支持非阻塞（non-blocking）的I/O操作。无论是从声卡读取数据，或是向声卡写入数据，事实上都具有特定的格式（format），默认为8位无符号数据、单声道、8KHz采样率，如果默认值无法达到需求，能通过ioctl系统调用来改动他们。通常说来，在应用程式中打开设备文件/dev/dsp之后，接下去就应该为其设置恰当的格式，然后才能从声卡读取或写入数据。

/dev/audio
/dev/audio类似于/dev/dsp，他兼容于Sun工作站上的音频设备，使用的是mu-law编码方式。如果声卡驱动程式提供了对/dev/audio的支持，那么在Linux上就能通过cat命令，来播放在Sun工作站上用mu-law进行编码的音频文件： cat audio.au > /dev/audio

由于设备文件/dev/audio主要出于对兼容性的考虑，所以在新研发的应用程式中最佳不要尝试用他，而应以/dev/dsp进行替代。对于应用程式来说，同一时刻只能使用/dev/audio或/dev/dsp其中之一，因为他们是相同硬件的不同软件接口。

/dev/mixer
在声卡的硬件电路中，混音器（mixer）是一个非常重要的组成部分，他的作用是将多个信号组合或叠加在一起，对于不同的声卡来说，其混音器的作用可能各不相同。运行在Linux内核中的声卡驱动程式一般都会提供/dev/mixer这一设备文件，他是应用程式对混音器进行操作的软件接口。混音器电路通常由两个部分组成：输入混音器（input mixer）和输出混音器（output mixer）。

输入混音器负责从多个不同的信号源接收模拟信号，这些信号源有时也被称为混音通道或混音设备。模拟信号通过增益控制器和由软件控制的音量调节器后，在不同的混音通道中进行级别（level）调制，然后被送到输入混音器中进行声音的合成。混音器上的电子开关能控制哪些通道中有信号和混音器相连，有些声卡只允许连接一个混音通道作为录音的音源，而有些声卡则允许对混音通道做任意的连接。经过输入混音器处理后的信号仍然为模拟信号，他们将被送到A/D转换器进行数字化处理。

输出混音器的工作原理和输入混音器类似，同样也有多个信号源和混音器相连，并且事先都经过了增益调节。当输出混音器对所有的模拟信号进行了混合之后，通常还会有一个总控增益调节器来控制输出声音的大小，此外更有一些音调控制器来调节输出声音的音调。经过输出混音器处理后的信号也是模拟信号，他们最终会被送给喇叭或其他的模拟输出设备。对混音器的编程包括怎么设置增益控制器的级别，及怎样在不同的音源间进行转换，这些操作通常来讲是不连续的，而且不会像录音或放音那样需要占用大量的计算机资源。由于混音器的操作不符合典型的读/写操作模式，因此除了open和close两个系统调用之外，大部分的操作都是通过ioctl系统调用来完成的。和/dev/dsp不同，/dev/mixer允许多个应用程式同时访问，并且混音器的设置值会一直保持到对应的设备文件被关闭为止。
为了简化应用程式的设计，Linux上的声卡驱动程式大多都支持将混音器的ioctl操作直接应用到声音设备上，也就是说如果已打开了/dev/dsp，那么就不用再打开/dev/mixer来对混音器进行操作，而是能直接用打开/dev/dsp时得到的文件标识符来设置混音器。

/dev/sequencer
目前大多数声卡驱动程式还会提供/dev/sequencer这一设备文件，用来对声卡内建的波表合成器进行操作，或对MIDI总线上的乐器进行控制，一般只用于计算机音乐软件中

本文来自ChinaUnix博客，如果查看原文请点：http://blog.chinaunix.net/u1/38994/showart_525779.html