一种自适应混合域音频无声水印

本文首发于:行者AI

随着数字音频技术的不断发展,音乐版权问题受到重视。用于音频版权保护的技术得到越来越多的研究与关注,无声水印技术就是其中之一。同时互联网在线会议越来越受到欢迎,音频无声水印技术也可以在保证会议的保密性的同时追踪泄密源头。

由于人类听觉系统(HAS)极为灵敏,音频感知冗余较小,水印同时满足隐蔽性和鲁棒性的困难很大,同时音频压缩算法例如MP3因为其出色的压缩率和音质,随着网络时代的到来已经成为数字音频的主流压缩方式。然而MP3编码有损压缩,音频经过压缩后水印信息也将被破坏,因此音频水印的研究相对于图像水印算法更具有挑战性。

本算法目的在于提供一种自适应混合域音频水印嵌入方法,在保证隐蔽性的同时,能够在相同音频信号的情况下嵌入更多的水印信息,从而在一定程度上提高音频水印的抗剪辑攻击性。

1. 基础知识

1.1 量化

将值映射在坐标系上,然后按照一个量化因子(也称之为步幅),对坐标系进行划分并假设其每一个步幅中所代表的值。水印算法中通常使用转换成二进制编码的嵌入信息,该嵌入信息的原始信息可以是图片也可以是文本等,那么假设量化因子为Δ0-Δ代表0Δ-2Δ代表1,则有如图所示的量化结果。从下图中可以看出-Δ-0代表10-Δ代表0Δ-2Δ代表12Δ-3Δ代表03Δ-4Δ代表1

1.2 掩蔽效应

掩蔽效应是在人类听觉系统( HAS)中存在的一种效应:短时间内能量高的将遮蔽能量低的,使得人类只能听到能量高的部分。掩蔽效应根据高低能量部分出现的情况不同分为超前掩蔽、同时掩蔽和滞后掩蔽。 超前掩蔽即后部分能量高于前部分那么只能听到后部分,反之即有滞后掩蔽;同时掩蔽即前后能量高于当前部分,那么当前部分将不会被听见而被前后的声音所掩蔽。掩蔽效应如下图所示。

1.3 MP3压缩

MP3压缩会导致时域偏移和频域幅值变化。

音频经过MP3有损压缩后,时域上的表现不仅仅只是幅度的变化还存在时序上的偏移。因为MP3压缩正交重叠变化时头尾帧需要补0,从而产生边缘效应,解码后这部分数据也加入到音频之中,即压缩后产生了时序上的偏移。

利用声音的频域掩蔽效应使量化噪音处于频域掩蔽阈值之下,去除了音频感知的冗余部分。这就会导致高频压缩后变化大,而低频变化相对较小。

1.4 DWT变换

(1) 小波转换后将得到低频的近似系数和高频的细节系数。
(2) 可以进行多次(阶)小波转换,最大阶level=log2(n)n为时域采样点。
(3) 经过多阶转换后将得到level+1个系数。

1.5 预处理

针对音频文件格式参数不同,我们统一将文件转变为44.1kHz立体声位宽为16bitwav文件,并将文件读取到内存转变为2int16的数组。2int16的数组表示左右声道、位深为16bit,即采样点的值占用16bit大小。

同时将要嵌入的水印信息构造为灰度图片,以增加系统的鲁棒性,此处用二进制表示水印信息。

2. 实现步骤

2.1 音频分帧

a. 嵌入单元

前面提到了为了解决MP3压缩时间偏移的问题,采用计算每个嵌入段的能量,过滤能量低的段,这里我们将每个嵌入段称之为嵌入单元。而每个嵌入单元我们又按照长度均分为两个小区域:嵌入区和定位区。

对于DWT,每一阶变换就会得到一个近似和细节系数。假设有一段长度为x的信号,最大能进行的变换次数(阶)level为:

level=logx2level = log_x^2

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享