音频信息隐藏技术研究

发表评论

A+

[摘要] 音频信息隐藏技术作为信息隐藏技术的一个重要分支，主要涉及的域有时域、频域、离散余弦变换(DCT)域、小波(Wavelet)域、压缩域等。其中，时域和频域的嵌入方法相对容易实现，但鲁棒性相对较差；DCT域和Wavelet域方法透明性好，鲁棒性也不错，尤其是在抵抗模/数转换(A/D)、数/模转换(D/A)攻击时有着非常优秀的表现，但其操作复杂，实现难度相对较高；压缩域隐藏算法一般有较好的透明性，但鲁棒性相对较差。音频信息隐藏在许多场合取得了很好的应用效果，但面对重录音攻击，尚且没有一种很好的方法。解决这一难题的关键是精确同步信息的嵌入和强鲁棒隐藏方法的研究。

[关键词] 音频信息隐藏；人耳听觉系统；听觉阈值；听觉掩蔽效应；相位不敏感

[英文摘要]Audio information hiding technology is an important branch of steganography, which is related to the domains such as time, frequency, Discrete Cosine Transform (DCT), Wavelet and compressed. Among them, the algorithms in time and frequency domains are simple, but the robustness of them is weak. The technologies in DCT and Wavelet domains own good invisibility and robustness. When attacked by A/D、D/A convert, their performances are specially excellent. However, their complexity is so high, making them difficult to implement. Although the methods in compressed domain have good invisibility, they are, however, vulnerable. Audio information hiding is well-applied in many occasions. However, when in the face of re-record attack, there is no satisfactory resolution. The research shows that precise synchronization information imbedding and strong hiding methods are the two key points to solve this problem.

[英文关键字] audio information hiding; human auditory system; hearing threshold; auditory masking effect; phase-u

基金项目：国家重点基础研究发展规划项目(973计划)(No.2007CB311203)；国家自然科学基金资助项目 (No.90604022)

传统的保密通信技术主要是以密码学为基础，将待传输信息进行充分置乱，使得非法用户无法正确获取原文。与此不同，信息隐藏作为近年迅速发展起来的一种保密通信技术，它首先将待传输信息嵌入到诸如音频、视频、文件等载体中，使得非法第三方不易觉察到秘密信息的存在，然后通过携密载体的传送，实现秘密信息的保密传输。在这里，为了满足不易引起非法第三方注意这一要求，嵌入信息后的携密载体应对听觉、视觉等人类知觉系统具备一定的透明性。

根据隐藏载体不同，可将信息隐藏技术分为视频信息隐藏、图像信息隐藏、音频信息隐藏和文本信息隐藏等几大类。由于以下两方面原因，音频信息隐藏成为了信息隐藏研究的重点和热点：其一，音频是人类交流的一种重要工具，是日常生活中不可或缺的一个要素；其二，音频中存在足够多的信息冗余，可以给信息嵌入提供一个很好的应用环境。音频信息隐藏的核心思想是以音频作为隐藏载体，在其中寻找到一些对人耳听觉相对透明的特性，然后根据待隐藏信息对这些特性的某些参数进行修改，从而实现待隐藏信息在音频中的嵌入，最后将携密音频传输给接收方，完成整个待隐藏信息的保密传输过程。文献[1-6]都很好地体现了这一技术实现思想。

1 音频信息隐藏基本原理
音频信息隐藏的主要方法就是根据待隐藏信息，对人耳听觉不敏感的音频参数进行修改，以达到信息嵌入的目的。因此寻找人耳听觉不敏感的音频参数就成了音频信息隐藏的首要任务。

      根据前人的研究，听觉阈值、听觉掩闭效应等特征很大程度上影响了人耳听觉的敏感性。
      (1)听觉阈值
      在声学中，用I 表示声强，它是指单位时间内通过垂直于声波传播方向的单位面积的声波能量。取I 0 =10 -2Wm   -2 作为声强的基准，把音频信息隐藏技术研究称为声强级。如果声波的频率在20 Hz～20 kHz之间，而声强又达到一定的强度，该声波就能被人耳所感知，此时的声波强度被称为听觉阈值。前人大量的实验测试结果[7-8]表明，人耳对不同频率的声波主观上感受到相同响度时的声强是不同的，这就引出了声学上的听觉等响曲线，如图1所示。

音频信息隐藏技术研究

图中最下方的一条虚线表示人耳能感知在当前频率的声波所需的最低声强，即为听阈曲线。由图1中听阈曲线的形状可得：人耳对两端频段上的声波反应较为迟钝，而对中间频段上的声波反应相对较为敏感。这是音频信息隐藏的一个重要理论依据。

(2)听觉掩蔽效应
一方面，如果时间上相邻的两个声波同时存在，且其中一个声波较强，而另一个较弱，则较弱的一个声波会因为较强声波的存在而被人耳听觉所忽略；另一方面，如果频率相近的两个声波同时存在，且其中一个声波较强，而另一个较弱，则较弱的一个频率会因为较强频率的存在而被人耳所忽略。这两种现象在声学上被称为人耳听觉掩蔽效应[9-10]，其中前一种称为时域听觉掩蔽效应，而后一种被称为频域听觉掩蔽效应。听觉掩蔽效应是一种常见的心理声学现象，是心理声学中一个很重要的特征，也是音频信息隐藏的一个重要理论基础。最不重要位(LSB)、频带分割等音频信息隐藏技术都充分利用了人耳听觉的这一特性。

(3)相位不敏感
人耳对不同强度、不同频率声音的听觉范围称为声域。在人耳的声域范围内，声音听觉心理的主观感受主要有响度、音高、音色等特征。其中，主观上的响度、音高和音色可以分别用振幅、频率和相位3个物理量来进行描述。其中，人耳对振幅，频率的变化较为敏感，而对相位变化的敏感程度则要欠缺得多。这使得相位问题成了实现音频信息隐藏的一个重要参考方向。

2 音频信息隐藏主要技术指标
音频信息隐藏的主要技术指标有透明性、鲁棒性、不可检测性和安全性等。这些技术指标是衡量音频信息隐藏算法优劣成败的重要依据。

(1)透明性
透明性也叫隐蔽性，是指嵌入载体中的信息不容易引起非法第三方注意的特性。为了满足透明性要求，在设计音频信息隐藏算法时，一方面，对人耳听觉不敏感的音频特性充分加以利用，使嵌入待隐藏信息后的携密音频与原始音频在听觉效果上保持很好的一致性；另一方面，充分研究和利用其他音频处理技术，使得携密音频在面对频谱分析、语谱分析时也有不错的表现。

(2)鲁棒性
鲁棒性对信息隐藏非常重要，它是指携密音频不会因为经过了音频文件的改动、信号处理技术的加工或是环境噪声的攻击而导致隐藏信息丢失的能力。为了保证隐藏信息的鲁棒性，音频信息隐藏时，一方面会选择不变性较好的音频特性作为操作对象，另一方面会引入纠错编码，同时增加隐藏的强度，使得携密音频在经过某些文件操作或者信号处理后仍能很好地将隐藏信息恢复出来。

(3)不可检测性
不可检测性是指携密音频应该具有不被隐藏分析工具所检测的特性。近年来，隐藏分析技术的研究取得了很大的进步，对简单LSB、改进的LSB，甚至是一些其他更为复杂的信息隐藏算法，都取得了很好的检测效果。因此，在设计音频隐藏算法时，不可检测性就成了其中必须考虑的一个重要的因素，其核心思想就是要求携密载体与原始载体在统计特性上具有很好的一致性。

(4)安全性
安全性是指隐藏信息不易被非法用户恢复，或者即使恢复出隐藏信息，也无法获取信息的真实含意的特性。提高信息隐藏算法的安全性主要有两种方法：首先，对隐藏技术的关键参数(也称隐藏密钥)进行严格保密，使非法用户很难正确地对隐藏信息进行恢复；其次，将密码学应用到信息隐藏技术中，在进行信息嵌入之前，先对待隐藏信息进行加密处理，使得非法用户即使采用手段正确恢复出隐藏信息，也很难理解隐藏信息的真正含意。

3 音频信息隐藏模型
音频信息隐藏系统模型主要由隐藏模型和解隐藏模型组成。隐藏模型用来描述信息嵌入到音频载体的过程，而解隐藏模型则用以描述从携密载体中恢复隐藏信息的过程。

(1)隐藏模型
典型的隐藏模型如图2所示，待隐藏信息的嵌入步骤如下：

音频信息隐藏技术研究

获取音频、图像、文本等原始待隐藏信息；
为了提高隐藏方法的安全性，可对待隐藏信息进行加密处理；
为了增强隐藏方法的鲁棒性，可选择对待隐藏信息进行纠错交织；
考虑到隐藏时通常是逐位进行的，因此需要对纠错交织后的数据进行并串转换；
读取原始载体音频，如果是变换域隐藏算法，则需要对载体音频进行相应的变换；
为了能够对隐藏信息进行准确的盲检测，通常需要在信息嵌入之前，先在载体音频中加入同步信号；
完成信息嵌入、音频反变换，再将音频数据传输给接收方。
在一些具体应用环境中，可能因为信息隐藏的特殊性而使得模型会有所差异。

(2)解隐藏模型
典型的解隐藏模型如图3所示，隐藏信息的提取步骤如下：

音频信息隐藏技术研究

从发送方获取携密音频，音频可能以音频文件或者是音频流等形式出现；
如果信息隐藏是在变换域中进行的，则需要对携密音频进行相应的变换；
获取同步信息，为准确提取隐藏信息做准备。在许多应用场合，这是极为关键的一步，它严重地影响着信息提取的正确性；
串并转换，解纠错交织，解密，最后得到恢复后的隐藏信息。

在某些场合，由于考虑到接收端音频的听觉效果，还需要对音频进行去隐藏、滤波、音频平滑等处理。

4 音频信息隐藏分类
音频信息隐藏的分类标准有很多，嵌入信息所采用的域是其中最为常用的一种。以嵌入信息所采用的域为依据，可将音频信息隐藏划分为时域音频隐藏、频域音频隐藏、离散余弦变换(DCT)域音频隐藏，小波(Wavelet)域音频隐藏和压缩域音频隐藏等。

(1)时域隐藏
时域音频信息隐藏选择直接对音频信号的幅度或者音频文件结构进行处理，是较为简单的一类隐藏方法。它主要包括LSB及改进LSB隐藏、回声隐藏和音频文件结构隐藏等。

LSB隐藏是用待隐藏信息按一定的规律对音频数据的最不重要位进行替换的隐藏方法，其容量大，实现容易，但鲁棒性相对比较差，甚至不能抵抗微弱噪声的攻击，抗检测性也不强。

回声隐藏在待隐藏信息在音频信号上叠加一些微弱的回声，然后通过对回声的识别实现对信息进行提取。其听觉透明性较好，是一种不错的强鲁棒性音频信息隐藏方法。

音频文件结构隐藏是对音频文件中一些并非必须的结构段进行操作，从而实现信息嵌入的一类隐藏方法。其实现简单，鲁棒差，因此实际应用价值并不高。

(2)频域隐藏
频域音频信息隐藏是对音频进行离散傅立叶变换(DFT)变换，然后对音频的频域特征进行处理以实现信息嵌入的一类方法，因此又称为DFT域音频信息隐藏。它主要包括频域LSB隐藏、扩频隐藏、相位隐藏和频带分割隐藏等。

频域LSB隐藏与时域LSB相似，具有操作简单，隐藏容量大，但鲁棒性差等特点。

扩频隐藏借用了扩频通信思想，将待隐藏信息以伪噪声的形式扩散到整个音频通带上，因此透明性好，抗噪能力强，具有很高的实用价值，是频域音频信息隐藏算法中较为成功的一类。

相位隐藏算法充分利用人耳听觉对绝对相位并不敏感这一特点，通过对相位的改变实现信息的嵌入。该类隐藏方法透明性好，但对噪声的抵抗能力不甚理想。

频带分割隐藏将音频载体的频带分割成无数个子带，充分利用听觉阈值和听觉掩蔽效应等人耳听觉特性，在人耳听觉不太敏感的子带上进行隐藏。这类方法隐藏容量大，听觉透明性好，但频域透明性较差。

(3)离散余弦变换域隐藏
DCT域隐藏是对音频载体进行DCT变换，然后对DCT系数进行某些操作，从而完成信息嵌入的一类音频信息隐藏方法。

该类隐藏方法最大的优点是对模/数转换(A/D)、数/模转换(D/A)影响的抵抗能力非常强，有很高的实用价值，因此应用极为广泛。

DCT域LSB方法与上两类LSB相似，具有相似的优缺点。
DCT域相位隐藏对DCT相位进行改动，以实现信息的嵌入。该类隐藏方法与频域相位隐藏相似，也具有很好的透明性。

DCT域上还有许多根据不同值域内数量，不同频段数据奇偶性等特征进行信息嵌入的方法，都具有很好的透明性和鲁棒性。

(4)小波域隐藏
Wavelet域隐藏方法是对音频载体进行Wavelet变换，然后对其系数进行修改，以实现信息嵌入的一类隐藏方法。该类隐藏方法与DCT隐藏一样，在抵抗A/D、D/A攻击方面有着非常优秀的表现。

Wavelet域LSB隐藏方法对Wavelet系数的最不重要位进行替换。其实现方法与其他域的LSB隐藏相似。

Wavelet域能量比隐藏通过比较和修改不同Wavelet级上的能量，或是对同一Wavelet级上某一能量值范围内的系数数量、奇偶性等进行修改，从而实现信息的嵌入。

Wavelet域上还有许多隐藏方法，都是针对Wavelet系数进行某些操作以完成信息嵌入。这是目前研究较热，应用较多的一类隐藏方法。

(5)压缩域隐藏
压缩域隐藏方法是近年来才出现的一类隐藏方法。该类方法的主要目标是将信息嵌入到压缩算法的码流或相关码表中去，如MP3哈夫曼码表，MIDI乐器码表等。

这一类方法的透明性很好，但对音频格式变换、信号处理等攻击的抵抗能力不强。

5 结束语
音频信息隐藏作为信息隐藏的一个重要分支，它主要涉及的域有时域、频域、DCT域、Wavelet域、压缩域等。其中，时域和频域的嵌入方法相对容易实现，但鲁棒性相对较差；而DCT域和Wavelet域方法透明性好，鲁棒性也不错，尤其是在抵抗A/D、D/A攻击时有着非常优秀的表现，但其操作复杂，实现难度相对较高；压缩域隐藏算法一般有较好的透明性，但鲁棒性相对较差。
音频信息隐藏技术发展到现在，音频信息隐藏在许多场合取得了很好的应用效果，也解决了不少实际的生活难题。然而，面对重录音攻击，尚且没有一种很好的方法。大量的实验结果表明，解决这一难题的关键是精确同步信息的嵌入和强鲁棒隐藏方法的研究。后一问题可以在DCT域或Wavelet域内寻求解决途径，而前一问题则还没有太好的思路，还有大量的研究工作有待进一步展开。

6 参考文献
[1] JI Rongrong, YAO Hongxun, LIU Shaohui, et al. Genetic algorithm based optimal block mapping method for LSB substitution [C]//Proceedings of International Conference on Intelligent Information Hiding and Multimedia Signal Processing (IIH-MSP’06), Dec 18-20, 2006, Pasadena, CA, USA. Piscataway, NJ, USA:IEEE, 2006: 215-218.
[2] LIN C, PAN J S, SHIEH C S. A subsampling and PSK based watermarking scheme resisted the permutation attacking [C]//Proceedings of International Conference on Intelligent Information Hiding and Multimedia Signal Processing (IIH-MSP’06), Dec 18-20, 2006, Pasadena, CA, USA. Piscataway, NJ,USA: IEEE, 2006: 113-116.
[3] ZHANG L k, LIU S. Secret telephone technology based on information hiding and encryption [C]// Proceedings of International Conference on Information Acquisition (ICIA'06), Aug 20-23, 2006, Jeju, Korea. Piscataway, NJ, USA: IEEE ,2006: 155-159.
[4] LI Ming, LEI Y, LIU J. A novel audio watermarking in wavelet domain [C]//Proceedings of International Conference on Intelligent Information Hiding and Multimedia Signal Processing (IIH-MSP’06), Dec 18-20, 2006, Pasadena, CA, USA. Piscataway, NJ,USA: IEEE, 2006: 27-32.
[5] CAI R, LU L, HANJALIC A. A flexible framework for key audio effects detection and auditory context inference [J]. IEEE Transactions on Audio, Speech and Language Processing, 2006, 3(14): 1026-1039.
[6] AIS O, NOUREDDINE E . A speech analysis technique based on temporal and frequency masking properties of the auditory system [C]//Proceedings of International Conference on Systems, Man and Cybernetics (SMC’02): Vol 6, Oct 6-9, 2002, Hammamet, Tunisia. Los Alamitos, CA, USA: IEEE Computer Society, 2002: 6-12.
[7] 诸挥明, 梁路光, 付妍. 人耳听阈曲线的测定 [J]. 大学物理实验, 2006, 16(1): 43-46.
[8] BAUER B B, TORICK E L. Researches in loudness measurement [J]. IEEE Transactions on Audio and Electroacoustics, 1966, 3(14): 141-151.
[9] 周克兰, 张玉华. 基于听觉掩蔽效应和小波变换的音频水印 [J]. 微电子学与计算机,2005,22(3): 185-188.
[10] 贾骏, 王朔中, 张新鹏. 一种基于人耳听觉特性的数字音频水印方案 [J].西安电子科技大学学报:自然科学版, 2004, 31(4): 652-655.

收稿日期：2007-07-30

发表评论取消回复

登录 找回密码

登录找回密码