一种自适应混合域音频无声水印-一一网

本文首发于：行者AI

随着数字音频技术的不断发展，音乐版权问题受到重视。用于音频版权保护的技术得到越来越多的研究与关注，无声水印技术就是其中之一。同时互联网在线会议越来越受到欢迎，音频无声水印技术也可以在保证会议的保密性的同时追踪泄密源头。

由于人类听觉系统（HAS）极为灵敏，音频感知冗余较小，水印同时满足隐蔽性和鲁棒性的困难很大，同时音频压缩算法例如MP3因为其出色的压缩率和音质，随着网络时代的到来已经成为数字音频的主流压缩方式。然而MP3编码有损压缩，音频经过压缩后水印信息也将被破坏，因此音频水印的研究相对于图像水印算法更具有挑战性。

本算法目的在于提供一种自适应混合域音频水印嵌入方法，在保证隐蔽性的同时，能够在相同音频信号的情况下嵌入更多的水印信息，从而在一定程度上提高音频水印的抗剪辑攻击性。

1. 基础知识

1.1 量化

将值映射在坐标系上，然后按照一个量化因子（也称之为步幅），对坐标系进行划分并假设其每一个步幅中所代表的值。水印算法中通常使用转换成二进制编码的嵌入信息，该嵌入信息的原始信息可以是图片也可以是文本等，那么假设量化因子为Δ，0-Δ代表0，Δ-2Δ代表1，则有如图所示的量化结果。从下图中可以看出-Δ-0代表1，0-Δ代表0，Δ-2Δ代表1，2Δ-3Δ代表0，3Δ-4Δ代表1。

1.2 掩蔽效应

掩蔽效应是在人类听觉系统( HAS)中存在的一种效应：短时间内能量高的将遮蔽能量低的，使得人类只能听到能量高的部分。掩蔽效应根据高低能量部分出现的情况不同分为超前掩蔽、同时掩蔽和滞后掩蔽。超前掩蔽即后部分能量高于前部分那么只能听到后部分，反之即有滞后掩蔽；同时掩蔽即前后能量高于当前部分，那么当前部分将不会被听见而被前后的声音所掩蔽。掩蔽效应如下图所示。