英语原文共 4 页,剩余内容已隐藏,支付完成后下载完整资料
播放标签:实时标签的音乐播放器
台湾台北大学电气工程系王菊江1,2,王新民2和谢康1
1台湾台北中央研究院信息科学研究所
电子邮件:{asriver,whm}@iis.sinica.edu.tw,skjeng@cc.ee.ntu.edu.tw
摘要
在播放期间可视化音频信号一直是音乐播放器的基本功能。然而,大多数视觉效果是由音频信号处理直接产生的,并使用户无意义或难以理解的显示。在本文中,我们将介绍一款名为带标签播放(PWT)音乐播放器的智能音乐播放器。通过集成实时音乐标签器,PWT播放器可以通过一组与音乐同步移动的标签条显示动态标签分发。为了同步标签分发,音乐标签器必须能够在线识别音乐标签。我们利用高斯混合模型(GMM)作为听觉特征编码参考和基于标签的方面模型(TBAM)的混合来预测播放音乐的短滑动块的标签分布。为了评估实时标记功能,我们模拟短音乐块上的标签预测。MajorMiner数据集的实验结果证明了所提出的音乐标记方法的潜力和有效性。
关键词:在线音乐标签注释,实时音乐可视化,概率标签方面的模型。
- 引言
在播放期间可视化音频信号一直是音乐播放器的基本功能。例如,数字家庭立体声系统通常配备一个显示频谱条形图的小屏幕; 并且Windows Media Player提供了几种视觉效果,例如颜色飞溅,几何形状和随机图形,供用户在播放音乐时进行选择。大多数视觉效果都是通过基于低级别特征(如时域波形或频域频谱)的音频信号处理直接生成的。这种可视化通常是无意义的或不可理解的,因为纯音频信号不包含任何语义,并且用户不能直接读取它。如果音乐播放器能够与正在播放的音乐同步显示音乐概念,那将会更加有趣和有趣。 这些信息还可以帮助一般用户理解该语义的含义音乐曲目旨在表
这项工作部分得到台湾国家科学理事会赞助的台湾电子学习和数字档案计划(TELDAP)的资助:NSC 100-2631-H-001-013。
图1. 00:50 PWT音乐播放器的可视化功能屏幕截图,用于Radiohead的专辑“Pablo Honey”中歌曲“Ripcord”的第一个合唱。条形图显示动态标签分布并与音乐同步移动。
达。在本文中,我们将介绍一款名为带标签播放(PWT)音乐播放器的智能音乐播放器,该播放器包含一个实时音乐标签器,可在播放过程中识别并显示当前音频内容的动态标签分布。如图1所示,表示当前标签分布的条形,就像移动光谱一样随着音乐伸缩。音乐播放器可以在线识别音乐的滑动块的音乐标签并且使预测标签分配的显示与正在播放的音乐同步。音乐播放器可用于任何计算设备平台。
音乐标签是从大众分类中产生的,这是一种全面的音乐分类,反映了当前互联网用户的使用情况[1]。例如,Last.fm是一个协作型社交标签网络播放器,它根据音乐标签收集关于用户音乐习惯的信息。另外,还有几款基于网络的音乐标签游戏,比如MajorMiner[2]和Tag A Tune [3]是为了收集有用的标签而创建的。这些应用程序为研究人员提供标记的音乐资源来调查用户的标记行为。标签可以提供关于音乐的不同方面的信息,例如流派,心情,仪器和原创艺术家。但是,收集的音乐标签仅与现有音乐曲目相关,即标签不平衡或不适用于新曲目。 这个所谓的冷启动问题激发了对未标记音乐数据库中许多主题的研究,如自动音乐标签注释[3-7]和基于标签的音乐检索[3-8]。
大多数现有的音乐标注方法专注于音乐标签注释和检索的离线标签预测。相反,我们提出了一种高效的生成方法,将高斯混合模型(GMM)和基于标签的方面模型(TBAM)混合用于实时标签预测。为了使动态视觉标签分布与正在播放的音乐同步,标签预测是在固定长度的音乐块上执行的,其中少量帧以正在播放的音乐的下采样速率滑动。我们利用GMM作为听觉特征参考来对固定维特征向量中的音频块的帧向量进行编码。要在线预测音频音乐曲目的滑动块的标签分布,标签预测器必须非常高效。在音频特征提取和基于GMM的听觉特征表示步骤之后,基于TBAM的在线标签预测中的计算是线性的。
本文的其余部分安排如下。第2节概述了提议的PWT音乐播放器。 在第3节中,我们描述音频特征提取和表示组件以及同步模式。在第4节中,我们介绍基于TBAM的音乐标签预测。在第5节中,我们讨论在线标签预测的模拟并评估MajorMiner数据集的性能。第6节包含结论和我们未来的工作。
- 系统总览
所提出的PWT音乐播放器分为两个阶段实施,即模型训练阶段和音乐播放阶段,如图2所示。在模型训练阶段,标记音乐数据库中的每个音乐片段都是以一组基于帧的音频特征向量; 然后应用预训练GMM将帧矢量编码成固定维特征矢量。最后,从固定维特征向量和相关的标签标签中学习TBAM。在音乐播放阶段,要播放的音乐曲目被缓冲的音频特征提取器提取到帧向量中。然后,将滑动块的帧矢量编码为固定维特征矢量,并且使用GMM和TBAM来生成块的标签分布。计时器同步显示每个块的标签分配和音频播放。滑动块的标签分布将显示在块的末尾,如图3所示。换句话说,用户总是可以看到音乐播放器刚刚播放的短块的标签分布。
3.音频特征提取和播放同步
在这项工作中,音频特征提取组件和片段级(或块级)特征表示是修改的,从我们以前的工作[8]。为了满足要求对于实时处理,我们只利用音色的特点,即可以比音频回放更快地提取的梅尔频率倒谱系数(MFCCs),delta-MFCCs和delta-delta MFCCs,以形成39维帧矢量。 每个帧都以窗口大小提取d = 0.05秒,帧移位速率h = 0.5。
图2.PWT音乐播放器的流程图。
图3.动态标签分发显示和音乐播放的同步示意图,其中滑动块的标签分布显示在块的末尾。
如图3所示,为了使动态标签分布的显示与音乐重放同步,对由音频重放时以降低采样率R滑动的T帧组成的块执行标签预测。当块跳大小HS被设置为4帧时,下采样率为441,其中是音频重放的采样率,即44100Hz即玩家每0.01秒更新一次标签分布。 播放时间(例如,t1,t2和t3)对应于组块的最后(最右边)帧(即,红色,绿色和蓝色帧)。通过这种方式,用户总是可以看到音乐播放器刚刚播放的短片段的标签分布。
为了产生可用于任何音乐信号的标准听觉特征参考,我们应用训练成随机选择的特征向量集合的全局GMM来编码音频帧。 在GMM中,我们定义了一组“潜在特征类”,,每一个对应于第k个高斯分量,记为,混合权重,平均向量和协方差矩阵。 歌曲的第t帧矢量由,上的一组后验概率编码,如下:
(1)
我们不考虑混合权重,因为它在我们以前的工作中没有用[9]。大块的帧矢量是在线标签预测的基本单位。假设组块在播放歌曲的时间开始。然后它的块级音频后验表示可以通过计算
(2)
其中是的第k个分量。由于相邻大块有许多相互重叠的帧,相邻块的后面的音频变化不显著,并且由此产生的动态标签分布将会平滑地变化。请注意,与因特网视频流一样,虽然音乐播放器的在线标签预测方法是有效的,但要保证动态标签分发和音乐播放的同步是一个很短的缓冲区。如果定时器(见图2)发现标签预测不能与播放同步,它将指示播放功能暂停,直到有足够的预测标签分发被缓存为止。
4.实时标记预测
为了实现实时标签预测,我们应用TBAM [8],一种概率生成模型,该模型将公式(2)和标签的音频后验分布与训练音乐数据库中每个片段的计数相结合。
假设训练音乐数据库包含J个音频片段,,以及具有计数的相应标签,它表示标签次数的非负整数来自预定义标签集的wm已经被分配给。由于实时标签预测应用于块级音频后验分布,所以每个训练音频片段被均匀地分成个T帧的块。我们假设训练音频片段的标签可以由其组件块1共享。因此,训练音乐数据库包含训练块,,以及它们对应的标签,其计数为。给定一个潜在特征类,我们将其相应的TBAM定义为具有参数的多项式分布,其第m个分量对应于标记并且受到的影响。可以通过以下方式通过最大化以下对数似然来学习期望最大化算法:
(3)
其中是公式(2)中的第k个分量。表示的音频内容与相似的概率,即预训练的GMM中的第k个高斯分量。
在播放阶段,给定滑动块的音频后验分布,标签对块的亲和力通过混合概率的线性组合来计算,每个混合概率具有预先学习的模型参数:
(4)
1如果训练片段很短,这个假设是有效的,因为标签在短片段上通常是一致的。 在这项工作中,训练片段的长度是10秒。
图4.标签关联的预测流程。
标记预测的直观性如图4所示。假设由全局GMM(即)描述的人类记忆存储K个离散音色模式,其中每个由并且具有相应的共同标签分布。如果一个用户刚听过一个可以用完全描述的块(即,对于,且),则标签亲和性将精确地遵循分布。
公式(4)的计算是线性给定的。因此,当计算方程式(1)和(2)中的时,发生在线标签预测的瓶颈,其复杂度与潜在特征类别的数量成正比。尽管降低可以使计算更有效,但它也可能显着降低标签预测性能,因为对应于音频后验的分辨率表示。如果音乐播放器在计算能力较弱的手持设备上实现,则应该仔细选择(主要因素),和。
5.实验
我们在MajorMiner数据集上评估了建议的系统[2]。该数据集可从MajorMiner网站获得,该网站使用游戏收集音乐的信息性自由文本标签。 我们下载了与网站上45个最常用标签相关的所有音乐片段。结果数据集包含2472个10秒音频片段以及标签标签。我们执行三次交叉验证10次。在一组随机分裂的三个褶皱中,1,648个片段用于训练,824个用于测试。 为了模拟实时标记场景,每个10秒的测试片段被统一划分为不重叠的1秒(即,T = HS = 40帧)块。由于测试片段较短,标签通常在短片段内保持一致,所以每个块都会继承其源片段的标签。本文仅评估短块上的实时标签预测。目前PWT音乐播放器是用Matlab环境实现的。我们将在会议上演示PWT音乐播放器。
我们考虑两种处理训练片段的策略,即片段级训练(TrClip)和大块级训练(TrChunk)。在TrClip中,我们不会将训练片段分成块,即TBAM在上训练,。而在TrChunk中,与测试片段一样,每个10秒的训练片段被分成10个1秒的块,并且TBAM在,。训练GMM,我们在整个数据集中随机选择25%的基于帧的特征向量(约235K帧)。GMM 训练和TBAM训练的停止标准是目
标函数增加的比率小于0.0001。我们将我们的方法与码字伯努利平均(CBA)方法[6]进行比较,该方法使用码本对片段或块的基于帧的特征向量进行编码。我们的基于GMM的TBAM方法比CBA有两个优点。首先,当T和K都很小时,基于GMM的后验表示比基于矢量量化(VQ)的直方图表示提供了更好的模型泛化。 其次,在TBAM中使用多项分布可以对标签共生和标签计数进行建模。
图5显示10倍三倍交叉验证的平均表现,以每个组块的受试者工作特征曲线(ROC)曲线下面积(AUC)表示。在图5(a)中,我们比较了块级训练(TrChunk)和片段级训练(TrClip)。显然,TrChunk在不同的K(GMM-TBAM中的混合组件数量或CBA中的代码字数量)下优于TrClip。对于GMM-TBAM方法,两种培训策略(GMM-TBAM-TrChunk与GMM-TBAM-TrClip)没有明显差异。相比之下,对于CBA方法,当K很大时(CBA-TrChunk与CBA-TrClip),片段级别训练会导致较差的性能。 这可能是因为基于VQ的直方图表示对于小块没有足够的建模能力。图5(b)显示了使用块级训练的不同方法的性能。在这里,我们比较两种附加方法,即高斯伯努利平均值(GBA)和基于VQ直方图的TBAM(VQ-TBAM)。通过将基于VQ的直方图替换为基于GMM的后验表示,从CBA修改GBA; 而VQ-TBAM使用基于VQ的直方图来表示块,而不是基于GMM的后验来编码块。我们观察到,在不同的K下,所提出的GMM-TBAM方法优于VQ-TBAM,CBA和GBA; 而GBA则优于CBA。 结果表明,GMM在编码短块(本文中为1秒)方面优于VQ,并且基于标签的方面模型可以比一组独立的伯努利模型更好地推广标签建模。 GMM-TBAM方法的效率足以应用于PWT音乐播放器。当K = 32时,它的性能优于KBA = 512的CBA,并且比K = 512的CBA运行速度快16倍。随着K的增加,性能会提高,但如果K变得太大,它会趋于饱和。考虑到实时标记系统的效率,我们推荐使用K = 64,根据性能增加的斜率,AUC几乎达到0.86。但是,K的选择取决于设备的计算能力。在MIREX 2010标签分类任务中,MajorMiner数据集的10秒片段测试的最佳AUC性能为0.8828 [10]。我们的GMM-TBAM系统采用非常简单高效的模型和基本音色特征(MFCC)来预测短音频块(1秒)的标签,产生相当的性能(当K = 1024时为0.8675)。请注意,我们的MajorMiner数据集是在2011年3月收集的,因此它可能与MIREX 2010中使用的数据略有不同。
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[23455],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。