英语原文共 4 页,剩余内容已隐藏,支付完成后下载完整资料
毕业论文(设计)
译文
题 目 数字音乐资源管理系统
文献题目:Content-Based Methods for the Management of Digital Music
基于数字内容的音乐管理方法
摘要
基于内容的音乐检索通过MIDI技术巧妙处理了很多声学问题。这篇论文涉及的内容则是基于内容的典型数字音乐存档的分类和检索技术。我们对这两大统计类技术进行了研究和评估。针对一个音乐分类问题我们利用高斯混合模型计算方法计算出了其精准度为92%。一个基于树型结构的矢量量化方案在一个需求更快的、更灵活多变的框架结构下相对其表现出的精准度就没有这么好了。而针对相似音乐检索,使用相同的技术我们也得到了很好的结果。美尔倒谱系数(MFCC)很好对音频进行了参数化,即使其在压缩域的进程比较缓慢。我们也使用了一种新的参数化(MP3CEP)方法,即针对MP3格式的音频进行局部解压,这种方法建议应用于加快音频交互速度。总体来说,我们在此提到的这种技术针对典型的数字音乐库的管理将提供很有用的工具。
1.介绍
在MP3的流行普及下,数字音乐的分类归档在近年来已经越来越普遍。这种趋势日益加快的情况下,我们需要一些工具来对数字音乐进行分类和管理操作。这篇论文主要概括了两个有其功能的工具,用于对音乐资源进行内容分类和检索。这样做的目的是为了能够有助于检索基于样本音乐资源情况下对相对稀少的资源进行检索分类操作。
音乐类型信息能够帮助用户对自己的喜好进行判断。与此同时,很多的压缩格式并不完善,都需要用分类释文来加以补充。这些释文通常也并不是很准确,有时甚至会让人看起来太过宽泛或是太过简单。其实这些文本注释也可以被加以补充或者替换成用户个人所需要的设定分类。基于内容的音乐检索其实潜在地更需要这些分类。拥有通过一首歌或者一段音乐能够找到另外一段相似风格的音乐的能力的工具在某种程度上就意味着能够在迎合用户的喜好基础上帮助他们找到新的歌曲(在网络范围)。类似于分析购买方式的现有技术需要大量的数据支持并且也只能在发布后使用一段时间。这些相同基础的技术也有一些别的应用。比如记录下用户对于音乐的偏好喜爱及讨厌之后对其进行预测,将不同的音乐归类到其喜欢的或者讨厌的目录之下。这样做法使得对文档就可以进行潜在的附件进行归类过滤,就像数字广播电台对用户的音乐进行个人化。
在这篇论文中,有两种核心技术将应用于音乐处理。首先,高斯混合模型将会对声道分布建立模型并用于音频分类。其次,一个基于树型结构的矢量量化方案被认为是一种非常有识别力的方法。这两种方法都需要对音频样例进行参数化成为特征矢量。我们所拥有的基准结果也都是运用了MFCC参数化的结果,这种参数方法在语言社区中非常常见。我们运用了一种可实现的方法来避免音频完全失真同时对实验波形进行参数化。在这种方案下,MP3CEP这种多维倒谱参数将很快从MP3格式的音频中产生。这篇论文详细地讨论了这些技术以及参数设定。最后,这些技术都将会被用于分类以及检索的实验中。
2.技术
2.1 高斯混合模型
高斯混合模型已经成功被用于一系列音频分类任务,像扬声器识别。在这片论文中,这个技术奖被用于对一首歌或者一段音乐生成一个概率密度函数(称为PDF),方法是用一个由高斯函数构成的概率密度函数的加权组合。由于特征向量在使用时会有无关成分,我们可以使用矩阵来计算对角协方差。高斯混合模型参数有可以将训练观测序列的可能性提升至最大化。我们通常用高斯混合模型来确定一个属于该模型的特征矢量在测试中概率。通过重复的观测,我们可以生成对一整首歌曲的记录。并不是简单地直接对歌曲进行记录,不过,我们也对格式进行结构规范化来限定对于单个框架的生成。
2.2基于树形结构的矢量化
第二种技术不同地使用了矢量化而不是试着去直接用音频生成模型。在扬声器识别以及对音频的检索方面运用该技术我们也得到了相应的结果。我们将实验结果首先进行了参数化将其设置成了特征向量。每一个实验样本都和一个诸如艺术家或者歌曲风格分类有关。在生成一颗量化树时,将会自动区分特征空间划分其区域,对总体做到最大区别化。一旦生成了量化树,我们就可以用其对一首歌构成一个直方图模板。所有的特征向量将会成为树上的叶子结点。样本的相关数量在每个结点上构成了一个直方图样板。这些样板则是一首歌音频的压缩表示,任意两者间的距离则表示了其音频相似度,即距离越近,相似度越高。虽然现在有很多技术能够比较两个向量,但在此论文中我们仅使用余弦距离测量法。
3.参数化方案
音乐处理的第一步需要对被压缩的MP3格式的数字音乐进行参数化,使之成为合适的特征向量。这些向量需要拥有明显有用的信息同时还能够舍弃不必要的音频细节。梅尔倒谱系数法通过了测试。该处理过程需要音频完全被解压。结果则是在参数化过程中,数字波形将会回到一个谱域中,尽管是一个不一样的谱域。在第二步是,MP3CEP参数化方法的局部冗余在直接使用来自MP3的部分波段数据时会被消除。
3.1 MFCC(梅尔倒谱系数)
梅尔倒谱系数普遍应用于语音处理并且在河里的噪音鲁棒性方面有很显著的作用。即使其最初被设计的目的是用于语音而不是音乐,然而梅尔倒谱系数对于音乐处理来说是一个很好的开端。在我们的方案中,25毫秒的音频窗口将以10毫秒为单位分开。一个离散傅里叶函数变换将每一个窗口转换成一个频谱。这些频谱系数将累计构成梅尔系数,即一个强调感知相对重要的中低频区域的非线性系数。相应的二进制数值将利用离散余弦变换转换成12个合理的不相关倒谱系数。另外还将附加上一个能量项日志。一个由13个元素组成的特征向量也将以每秒100个的频率生成。
3.2 MP3CEP参数化方法
这个处理过程以正常的MP3格式解压为开端,解压的内容包括数码流解析以及频率样本的非量化。由于部分波段数据是可以提供的,这些数据便成为了参数化的来源而不是用于合成用综合滤波器实现的实际样本。每一个MP3格式的框架(相对应1152PCM个样例)有两个颗粒组成。以一首音频为44.1kHZ标准的歌曲为例,一个颗粒大约每隔13ms就会产生,同样的序列在MFCC结构下则是每隔10ms。为了能够复制MFCC模式的窗口大小(25ms),特征向量将通过两个邻近颗粒的部分波段数据来生成。
两个颗粒包含了36个部分波段样本,其中每个部分波段样本由一个矢量为32(相等间隔)的频率频带振幅组成。一个部分频带幅值向量由36个部分波段样本向量的幅值组成。作为结果的32个组成向量在梅尔系数的作用下减少至20个组成向量。在逐渐增长的大数据中显示出,相对较低的频率构成对象是不能够改变的,然而相对较高的频率构成对象则是被相结合的。在记录每一个构成值的日志后,利用离散余弦变换我们得到了12个倒谱系数。最后,通过对所有部分波段的幅值的求和所估算出一个能量项,该能量项即为附加值。
3.3 参数化次数
梅尔倒谱系数化方案预计能够呈现很好的表现,同时MP3CEP参数化方案的优势则在于速度。图表一展示了两种参数化方法针对同一首典型的MP3格式歌曲进行参数化所需要的时间。实际值相对于他们的比率来说其实没那重要,毕竟还能有很多种优化方法能用于这两种方案上。我们可以看到MP3CEP参数化方案的参数化速度大约是梅尔倒谱系数参数化方案的6倍。虽然它的精准度不及梅尔倒谱系数方案并且其格式固定。关于这些缺点是否比其速度优势更重要就要看其应用到哪些方面了。
图一:一个处理时间的对比图(以秒为单位, 针对一首典型的MP3格式歌曲(3分45秒)进行解压和分别用MFCCamp;MP3CEP参数化成特征矢量所花费的时间
4.实验
4.1 音乐类型分类
两种技术和参数方法最先被试用于音乐类型分类的任务。一个典型的个人MP3音乐文件夹被用于为这些实验提供音乐。为了能更好的进行分类,我们对音乐进行了六种分类来提供足够的实验材料。这六种类型是:布鲁斯,轻音乐,经典,歌剧,舞曲以及独立摇滚。每个类型的音乐在测试以及实验数据中的分配都是很平均的。最终的测试将设定每个类型都会由175首歌曲组成,多余的音乐则会一个一般音乐种类或称为“垃圾模式”
4.1.1 高斯混合模型
为了评估高斯混合模型法在音乐分类上的表现,一个高斯模型将会试用于每一个音乐类型(包括一般类型)来进行评测。每一首测试歌曲反过来也会被贴上所有歌曲种类的标签,然后根据高斯混合模型的分析进行分类。我们进行了很多次实验来评估拥有MFCC特征向量的各种不同作品的表现。表1分别针对了4,8,32以及64首混合歌曲,用百分比的形式展现了不同的分类精确度。在第一行,我们使用的是没有能量项的基础倒谱元素。而在第二行我们则添加了能量项,第三行和第四行和第一二行很相似但是我们还加了delta;这一项(使向量长度增加了一倍)。表中显示出能量项大大增加了分类精确度。不仅如此,利用delta;系数也在进准度上获得了提高。而运用12个MFCC元素以及能量项和其第二派生物最大的好处则体现在该表的最后一行。我们将这样的参数配置运用在接下来所有的实验中,无论是MFCC还是MP3CEP参数化方法。最后一行的数据同样表明了混合歌曲仅为4首的情况下,精准度也很好。当然其精准度在混合歌曲为32首的情况下达到了最好。在配置最好的系统的情况下,175首歌曲有92%被正确分类。
表1.用MFCC的高斯混合模型系统对歌曲进行分类的精确度。带有e和delta;的可比较的结果也包括在内。
4.1.2 判定树系统
为了使用判定树矢量量化,所有用于某一特定歌曲类别的实验数据将构成一个独立的种类。这七种类别(一般类型包括在内)备用一构成一个试图将不一样的实验种类的样本构成不同的叶子结点的量化树。叶子结点的内容也被用于针对每一个音乐类别和测试文件构成一个直方图样板。每一个测试文件都由其余弦距离测度来决定其种类,根据其最接近匹配的直方图样板。具有不同叶子数量(100,500,1000)的树进行了比较。其百分制的精确度数据也在表2所显示。第一行显示的数据是用了MFCC参数化(包括e和delta)。由于判定树结构的规模是呈线性的,更好的时间变化效果模型图可以通过构成连接本地指令的超向量来体现。第二行测显示了运用五个连接向量的滑动窗口的分类结果。结果显示运用指令以及由500个叶子构成的树可以进行最有效的分类,其精确度达到了89.7%
表2.运用判定树系统对歌曲进行分类的精确度。首先运用MFCC向量随后再愚弄五个框架超向量。
4.2 对高斯混合模型以及判定树技术的比较
表三的第一列总结了高斯混合模型表中以及判定树表中各自最好的实验结果。最佳的判定树精确度89.7%相对于高斯混合模型的最佳精确度92%还是要低一点的。然而运用高斯混合模型的一个问题则预估和测试数据的计算成本。即使方案已经被提出要减少这类问题,但是依旧会有很严重的缺陷存在。判定树方案的速度但是相对来说是要快一点的,尤其是在量化方面。不仅如此,寻找相似的样板的处理过程使其具有了类似于M树的高效的索引结构。总而言之,如果真的要加以应用的话,考虑到速度和可扩展性,判定树还是较好的选择。
表3.用于高斯混合模型法(32首歌)和判定树的对歌曲分类的精确度,MFCC和MP3CEP参数化方法的特征向量都被使用到的情况下。
4.3 参数化方法的比较
表3的第二列则复制了用MP3CEP参数化方法的实验结果而不是MFCC的参数化结果。高斯混合模型所呈现的实验结果依旧要比判定树系统的实验结果要好一点。一个很有趣的实验结果是用了MP3CEP参数化方法的高斯混合模型精确度要比用了MFCC参数化方法的低1.2%。这是一个非常出乎意料的结果以为我们还还少用了超过20%的特征向量。针对判定树系统,MFCC参数化方法的精确度要优于MP3CEP参数化方法将近5%。但是,这种表现落差可能是由于运行音乐处理过程能够以交互式速度进行所带来的代价。MP3CEP参数化方法的主要缺点则是其MP3特殊性。同时在可行的音频压缩方案方面相似的技术也是可行的,比如MPEG2-AAC格式,兼容性可能不大容易实现以及在一个混合格式文档中进行调配也不大合适。
4.4 音乐检索
在进一步的实验中,这两种技术被用于在一个音乐相似度检索的任务中进行比较。我们依旧使用了与音乐分类实验相同的音乐库。每个“专辑”中我们抽取了10首歌,并将其分配两个收藏集中:五首用于随机测验还有剩下的五首则是用于可检索的候选曲目。在可检索的候选曲目集中我们还增加了很多其他类型的歌曲来隐藏起相关的歌曲,让实验的难度有所增加。最后的实验设定则是由150首歌曲构成。
4.4.1 高斯混合模型
为了能用高斯混合模型来对音乐进行检索,一个由16个构成元素的高斯混合模型被用于从可检索的候选曲目中寻找相似曲目。每一首测试曲目将会被进行参化以
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[30106],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。