中西音乐情绪分类比较分析
原文作者 赵志军、谢凌云等人 单位 中国传媒大学
摘要:音乐情绪的自动判别是 MIR 的重要领域之一。考虑到中国传统音乐与西方古典音乐的区别,有必要研究这两种音乐的情绪分类。本文建立了中国传统音乐和西方古典音乐的情绪分类模型,然后直接从波形音频片段中提取了三个内容特征集。最后,使用贝叶斯网络分类器按三个特征集及其组合对音乐片段进行分类。实验结果表明,无论采用单一特征集还是组合使用,中国传统音乐情绪分类法的检测率均低于西方古典音乐情绪分类法,也就是说,不同特征集对音乐情绪分类法的贡献是不同的。 ,将中国传统音乐和西方古典音乐的三个特征集结合起来,检出率明显提高。
关键词:情绪分类法;特征提取;MIR
I.介绍
随着数字音频压缩技术的发展和 Internet 的广泛使用,人们可以更有效,更简单地访问他们想要的数百万首音乐作品。仅针对该实际应用开发了基于音乐内容的管理和检索系统。音乐信息检索(MIR)成为最近几年研究的热门话题[1]。 音乐的情绪检测是 MIR 的重要组成部分,目前还没有成熟的理论可以应用于人类音乐感知的情绪识别。音乐情绪识别的研究并不多。书籍[3] [13]的作者根据模式识别理论和作曲家通常的构图活动和技巧提出了关于分类识别和情绪识别的卓有成效的观点和想法。吕烈,刘丹和张洪江[2]研究了音乐音频信号的自动情绪检测和跟踪,并根据西方文化中的一些音乐心理学理论提出了一个层次框架。提取了三个功能集来代表音乐剪辑的特征。由于他们的情绪检测方法已扩展到音乐片段的情绪跟踪,因此他们将音乐分为几个独立的部分,每个部分都包含同质的情感表达。陶力和三原森则[7]提出了Daubechies小波系数直方图和木材特征提取技术,用于音乐的相似性搜索和情感检测音频文件。杨丹,李元淑[8]开发了一种 Emo 软件,用于对音乐情绪进行注释,以使注释者的任务更轻松,更高效,该软件基于音乐意义的成分理论以及听众对声学,歌词和文化元数据的理解。张伟,谢翔[15]提出了一种基于语音识别的 HMM 音乐情绪检测模型。由于涉及文化,因此现实世界中所有音乐情绪信息的分类方法都充满了挑战。来自不同道德和国家的人们欣赏音乐的心情各不相同[9]。刘涛[14]提出了一种基于心理模糊和自然语言研究方法的“汉弗斯”情绪分类法模型。吴文和谢凌云[9]提出了一种用于情绪分类的方法,用于中国传统音乐和西方古典音调作品的录音。提出了三个内容特征集并直接从波形音频芯片中提取。在 MIR 研究中,Thayer 的情绪模型被广泛使用 [2]。但是,不同的文化和道德经验导致另类情绪分类[9]。在本文中,简化的 Thayer 模型用作西方古典音乐的分类方法,而刘氏的中国音乐情绪分类法[3]用于中国传统音乐,与[9]相同。详细内容将在第二节中介绍。在本文中,基于对 MIR [10]的研究,我们提取了三个计算特征集:音高,节奏和音色,并使用贝叶斯网络分类框架自动检测中国传统音乐和西方古典音乐的每个乐曲情绪。本文其余部分的结构如下。第二节介绍了两种音乐情绪分类法。第三节介绍了特征提取和音乐信号的三个特征集。第四节报告了自动分类和评估的实验结果。结论和未来的工作在第五节中给出。
II. 音乐情绪分类
由于现实世界中音乐情绪的复杂性,没有一套可以被广泛接受的权威,标准和通用分类法体系。对于西方古典音乐,本文采用简化的 Thayer 情绪分类模型,即本实验中使用的方法包括四个目录,因为这既可以降低实验复杂度,又可以提高算法效率。为了使来自不同文化和国家的人们欣赏具有不同 结构体;展开直方图振幅的总和可能与音乐响度的饱满度一情绪的音乐[9],为了对传统中国音乐的情绪进行分类,本文使用了 Liu 的情绪分类方法,该方法也有四个分类。本文都将音乐情绪分类法分为四个类别,分别应用于中国传统音乐和西方古典音乐。因为 Liu 和 Thayer 的模型都包含四个分类,所以表 I 只是列出了这两个分类法,用于逐行比较。为了用英文含义更准确地定义中国传统音乐的情绪,我们为每个类别选择了三个词,其中一个词与 Thayer 情绪模型的描述完全相同[9]。
表一. 基于 liu 和的平价分类法
塞耶的模型分别
根据 刘的情绪模型 |
根据 Thayer的情绪模型 |
焦虑,烦躁,烦躁 |
急 |
沮丧,冷漠,沮丧 |
萧条 |
知足,安静,悠闲 |
满意 |
繁荣,快乐,激动 |
繁荣 |
III. 特征提取
特征提取是计算可用于表征音乐信号片段的数字表示的关键步骤。以前的许多作品都指出,模式,强度,音色和节奏在唤起不同的音乐情绪方面具有重要意义[9]。本文分别从旋律的内容中提出了一套特征作为音乐筹码的数字表示,节奏含量和木材含量是进一步实验的基础。从这些芯片中提取的特征包括 5 维旋律/音高特征向量,19维木材特征向量和 6 维节奏特征向量:A.音高功能集在本文中,多音高/复音检测算法被用于提取音高特征,这是由 T.Tolonen和M.Karjalainen 提出的[4]。在这种技术中,特征提取处理中已经考虑了一些心理声学特征[11]。在一般音乐理论中,根据几何音高结构,音高直方图有两种版本:折叠和展开的音高直方图[9]。在计算每个音乐片段的统计音高直方图之后,提取五个音高内容特征参数:折叠音高直方图的最高峰值可以对应于音乐作品的音调模式;展开的音高直方图的最高峰的周期可能与音乐的音调一致;折叠音高直方图的最高峰值的周期也可能与音乐的音调模式一致;折叠的直方图的两个最明显的峰的间隔差异可能对应于音乐的和声转换为 16 kHz,16 位和单声道,然后分成 30s 长度的芯片。这样一来,中国共有传统乐器音乐 166 首,西方古典音乐 40 首。然后将每个芯片分解为长度为 25 毫秒,重叠为 12 毫秒的帧。最后,音高内容特征,节奏内容从每个帧中提取特征和音色内容特征。B.节奏功能集 通常,基于小波变换提取节奏内容特征并检测节拍[5]。本文利用了 George Tzanetakis 和 Perry Cook [6]提出的基于小波变换的节奏特征提取过程。根据统计节奏内容直方图,提取六个参数来表示音乐节奏的内容:第一个峰值振幅除以所有峰值振幅的总和后,获得一个相对振幅;通过第二峰值幅度除以所有峰值幅度的总和获得另一个相对幅度;第二峰值幅度与第一峰值幅度之比; BPM 中的两个周期分别对应于第一和第二峰值幅度;统计直方图的总振幅之和。C.木材功能集 乐器识别主要依赖于不同的乐器木材,乐器在音乐情绪表达中也起着重要的作用。在仪器识别中,经常使用木材含量特征,包括短时光谱特征和梅尔频率倒谱系数(MFCC)。通常根据短时傅立叶变换(STFT)为每个短时声音帧计算它们,包括梅尔频率倒谱系数(MFCC)和频谱质心,频谱衰减,频谱通量,零交叉等。音色内容特征提取是一个 19 维向量,包括 MFCC 中的 10 维特征向量和 STFT 中 9 维的特征向量。
IV.情绪的实验与评估
音乐作品的分类为了自动检测音乐情绪,主要采用了智能的音乐情绪分类算法。我们方法的核心是多维特征信息和音乐情绪的概率结构。利用从波形音乐片段中提取的三个特征集训练贝叶斯机器学习模型。
在以前的音乐情绪识别研究中,已经使用了一些模式识别方法。本文使用基于贝叶斯网络算法的模式分类模型。贝叶斯网络分类器已经在[12]中进行了很多研究。我们从网络和个人 CD 资料库中选择 20 种中国传统器乐作品和 4 种西方古典音乐作品。这些成分根据 Thayer 和 Liu 的情绪分类法进行分类。每个音乐记录:
A. 相关分析和主成分分析
计算了第三节提出的 30 个特征的相关系数。结果表明,在音高特征集内部和节奏特征集内部,某些特征之间的相关性更高,但在木材特征集中,特征之间的相关性较弱,这可能对于木材特征集而言包含更多的参数。但是不同特征集之间的特征相关性都较低,几乎相关系数的绝对值都小于 0.5。这表明,由于相同集合中的相同提取原理,一方面容易产生特征之间的相关性,另一方面,不同特征集的不同提取原理导致较大的分离。结果还表明,了解和发现固有音乐的特征也很重要。主成分分析(PCA)可以根据均方误差(MSE)规则减小数据维数。PCA 是使用从第 III 节中提取的 30 维向量完成的。前四个主成分的累计贡献率为 66.1%。表二是三个特征集与前四个主要成分的相关系数的简化表。
结果表明,30 个特征都与前四个主成分具有一定程度的相关性。特别是只有节奏特征与第一主成分的相关性要低得多(但与第七主要成分的相关性),木材特征与第一和第二成分的相关性要高得多。
表 ii。 特征的相关系数与
前四个主要组成部分
特征名称 |
主成分的相关系数 |
|||
主要零件1 |
主要零件2 |
主要零件3 |
主要零件4 |
|
韵律特征 |
0.0780 |
-0.9544 |
-0.3163 |
1.3343 |
木材特征 |
3.9305 |
3.6592 |
-0.5735 |
0.2004 |
沥青特征 |
-0.9958 |
-1.2035 |
-0.9794 |
0.4528 |
通常,同一集合的特征与同一主成分具有相关性。例如,节奏特征倾向于与第四主成分相关,音高特征倾向于与第一,第二和第三主成分相关,但是木材特征与第一和第二主成分高度相关。这表明对于不同的提取原理,不同的特征集差异很大,这与上述相关分析类似。当累计贡献率达到 80%时,应包括第七个主要成分,并且在几种情况下,同一特征与两个或三个主要成分相关。这表明没有冗余尺寸和 30 维向量高效且可靠。在下一部分中,我们将分别使用三个特征集和贝叶斯网络分类模型算法进行实验。
B. 单一功能集的实验和评估
在本文中,贝叶斯网络分类器用于评估情绪分类。所有音乐作品均经过培训并评估为培训内容;然后,将33.3%的样本作为训练集的数据,并将 66.6%的样本作为测试集的数据进行测试和评估。三个功能集分别用于对中国传统音乐作品和西方古典音乐作品进行分类。结果在表 III 中描述。结果表明,仅使用木材特征集,检出率最高。这表明,一方面包含更多特征参数(19 个参数)的木材特征集可能导致这种情况,另一方面,音乐作品的木材特征对音乐情绪分类法有很大贡献。按对音乐情绪分类的贡献顺序列出了三个功能集:木材功能gt;音高功能gt;节奏功能。结果还表明,在三个不同特征集中,西方古典音乐情绪的平均检测率高于中国传统音乐情绪。这也许与西方音乐在节奏,旋律和木材方面相对平衡这一事实有关。此外,仅使用节奏特征集评估中国传统音乐的测试集数据几乎是徒劳的,但是无论西方古典音乐的测试集或训练集如何,检测结果都更好。
C. 结合特征集的实验和评估
首先,使用两个特征集的组合对中国传统音乐作品和西方古典音乐作品的情绪进行分类。结果在表 IV 中给出。结果表明,如果包括木材特征集,则检出率较高。这种情况也许与木材特征集的参数数量有关。这也证明了上面列出的对音乐情绪分类法的贡献顺序。
然后使用三个特征集(即所有特征集)的组合对两种乐曲进行分类,并且检出率最高。
尽管在使用单个特征集的实验中,节奏特征集对于测试集的评估几乎是徒劳的,但如果在组合特征集的实验中组合包含节奏特征集,则检测率会有所提高。因此节奏特征对音乐情绪检测也有一定贡献。
D. 实验结果比较分析
表III和表IV中给出的检测结果数据在图 1 中进行了重新演示,以进行可视比较。总的来说,西方古典音乐情绪的检测结果要好于检测中国传统音乐情绪分类法的结果,表明西方古典音乐具有更多的信号处理技术所呈现的特征,即本文针对中国传统音乐情绪分类法使用的特征集和模式分类模型的性能不如西方古典音乐情绪分类法。
表 iii。 情绪不同特征集的检测率
中国传统音乐与西方古典音乐的分类法(%)
检出率 检出率
功能集 |
中国音乐心情 分类 |
西方音乐情调 分类 |
||
训练组 剩余内容已隐藏,支付完成后下载完整资料 2010 2nd International Conference on Signal Processing Systems (ICSPS) The Analysis of Mood Taxonomy Comparision between Chinese and Western Music Zhijun Zhao, Lingyun Xie Jing Liu Communication Acoustics Laboratory Communication University of China Beijing, China xiely@cuc.edu.cn Abstract—Automatic discrimination of music mood is one important field of MIR. Considering the difference of Chinese traditional music and Western classical music, it is necessary to study these two kinds of musicrsquo;s mood taxonomy. In this paper, the mood taxonomy models of Chinese traditional music and Western classical music are implemented, and then three content feature sets are extracted directly from the waveform audio clips. Finally, music clips are classified by three feature sets and their combination using Bayesian network classifier. The experiment results indicate that the detection rate of Chinese traditional music mood taxonomy is lower than that of Western classical music mood taxonomy no matter using single feature set or their combinations, that is to say the contribution of different feature set to music mood taxonomy is different, and the detection rate improves obviously when combining three feature sets both for Chinese traditional music and Western classical music. Keywords-mood taxonomy; feature extraction; MIR
With the development of digital audio compression techniques and the widespread use of Internet, people can access millions of music compositions they want more effectively and simply. The management and retrieval systems based on music content are developed just for this practical application. Music Information Retrieval (MIR) becomes a hot topic of research in the last few years [1]. Musicrsquo;s mood detection is an important part of MIR, and there isnrsquo;t mature theory which can be applied to the mood recognition of human music perception by now. The researching on music mood identification is not much. Authors of books [3] [13] proposed fruitful opinions and ideas about classification recognition and mood recognition according to pattern recognition theories and composerrsquo;s usual compositional activities and techniques. Lie Lu, Dan Liu, and Hong-Jiang Zhang [2] researched automatic mood detection and tracking of music audio signals and proposed a hierarchical framework following some music psychological theories in western cultures. Three feature sets were extracted to represent the characteristics of a music clip. Since their approach to mood detection was extended to mood tracking for a music piece, they divided the music into several independent segments, each of which contained a homogeneous emotional expression. Tao Li and Mitsunori Ogihara[7] proposed Daubechies wavelet coefficient histogram together with timber feature extraction techniques for similarity searching and emotion detection of music Wen Wu Music Department Tulane University New Orleans, USA wuwen128@gmail.com audio files. Dan Yang, Won Sook Lee [8] developed Emo software of annotating music mood to make the annotatorrsquo;s task easier and more efficient, which was based on the compositional theory of musical meaning together with the listenerrsquo;s understanding about acoustics, lyrics and cultural metadata. Wei Zhang, Xiang Xie [15] proposed a music mood detection model with HMM based on speech recognition. All the taxonomic approaches of music mood information in the real world are full of challenges, since cultures are involved. People from various ethics and countries appreciate music with diverse mood [9]. Tao Liu
In MIR researching Thayerrsquo;s mood model is used widely [2].But different cultures and ethical experience lead to alternative mood taxonomy [9]. In this article the simplified Thayerrsquo;s model serves as the Western classical music classification approach, and Liursquo;s mood taxonomy of Chinese music [3] is used for the Chinese traditional music, which is same to [9]. The detailed will be introduced in Section II. In this article, based on the research on MIR [10], we extract three computational feature sets, pitch, rhythm and timbre, and use Bayesian network classification framework to automatically detect each music piece mood of Chinese traditional music and Western classical music. The rest of this paper is structured as follows. Two music mood taxonomy approaches are introduced in Section II. Feature extraction and the three feature sets of musical signal are explained in Section III. The experimental results of automatic classification and evaluation are reported in Section IV. Conclusions and future work are given in Section V.
For the complexity of real worldrsquo;s music mood, there is not a set of authoritative, standard and universal taxonomy system which can be accepted widely. For Western classical music, this paper takes the simplified Thayerrsquo;s mood classification model, that is, the method used in this experiment consists of four catalogues, because this can both reduce the experimental complexity and raise the algorithm 978-1-4244-6893-5/$26.00 C 2010 IEEE V1-606
2010 2nd International Conference on Signal Processing Systems (ICSPS) efficiency. For people from various cultures and countries appreciate music with diverse moods [9], in order to catalogue the moods of traditional 剩余内容已隐藏,支付完成后下载完整资料 资料编号:[271724],资料为PDF文档或Word文档,PDF文档可免费转换为Word |
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。