更全的杂志信息网

基于张量模型的音频分类方法研究

更新时间:2009-03-28

多媒体数据作为当前网络的主要传输对象,其典型特点体现为信息内容丰富,类型众多,数据量巨大.而音频是一类重要的多媒体数据[1],为了有效管理和利用海量的音频资源,需要对其进行分类处理.

音频分类本质属于模式识别[2],通过音频分类可以提取音频信号的内容和结构,为音频信号进一步处理打下基础.音频分类在很多应用场合具有重要意义,例如自动语音识别(Automatic Speech Recognition, ASR)系统中,可以将语音自动转化为文本,在此过程中应该把音乐等非语音部分当作无用信息删除,否则会给语音识别带来困扰;音乐作为一种复杂的非自然声音,其在频域分布范围较广,所以在对音频信号编码过程中,分别对语音、音乐采用不同的编码器或编码方式进行有效编码,将会提高编码效率及节约传输带宽.此外,音频分类技术还可以用于辅助视频分类、版权保护、音频事件检测等多个领域中[3-5].

目前,音频分类主要根据音频文件提取的特征,再利用分类器来实现.针对不同的应用可以选择不同的特征和分类器.一些常用的具有较高分辨力的音频信号特征,如美尔频谱倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)[6]及其差分系数(△MFCC)、谱流量[7]等仍然是研究者们主要使用的特征.目前主流的分类器主要是基于统计模型的,例如通过多个高斯分布函数的组合来拟合音频类别的高斯混合模型(gaussian mixture model, GMM),利用双随机过程建模的隐马尔科夫模型(hidden markov model,HMM),在特征空间寻找最优分类超平面的支持向量机(Support Vector Machine,SVM)等.

1 特征建模

音频信号本身是一个时域信号,但是我们既可以在原始数据空间中对其分析,也可以将原始数据映射到能较好体现其本质属性的特征空间中进行.因为在特征空间可以通过更为稳定的特征表示,提高分类器的性能,删去多余或不相关的信息,并且更加容易发现研究对象之间的本质联系,所以,目前对音频信号的分析主要是在特征空间进行的.

按照运输方式分类,目前HM国际货运代理主要为客户提供水运代理服务,空运代理服务,陆运代理服务以及联运代理服务四种物流运输方式。其中,水运代理包括海路运输与河道运输;空运代理主要与东方航空、四川航空等航空公司签订了合作协议,提供空运服务;陆运代理则可以为客户提供公路,铁路以及管道运输;联运代理是以上三种模式的任意叠加与组合,货运代理主要以陆地运输加海运运输为主。

音频信号的特征提取要求在保证精度影响最小的条件下,尽量减小特征子集的规模[8],也就是降低特征空间的维数.

音频分类以帧(短时)或者片段(长时)为单位提取相应特征.经常被用于音频分类的短时特征主要有表现声学性质的过零率、自相关系数、带宽等参数;表现人耳听觉感知性质的MFCC,以及体现动态特性的1阶和2阶差分系数;表现心理声学性质的响度、粗糙度、尖锐度等,定量地反映听觉感受的差别,消除个体的影响[9],所以在音乐分类中被广泛使用.考虑到音频信号都具有时间延续性,长时间可以更好体现音频的语义信息,所以还可以提取长时特征,例如高过零率帧率、静音帧率、频带内低能量帧率等参数,其它长时特征采用多帧短时特征的平均值作为最后特征参数.

目前,音频分类主流方法是基于统计模型的.也有一些基于优化思想的分类器,例如基于粒子群优化算法[10]、利用解决凸优化问题的低秩矩阵填充(Matrix completion) [11]思想完成分类.本文提出在高阶子空间中通过张量分解完成音频分类的方法.

N阶张量GRI1I2INARJIn,则

审题是解决问题的第一步,对题目的正确理解在很大程度上决定着对问题进行正确解答。以前,学生懒得认真审题,现在,融入趣味性之后,越来越多的学生开始重视审题。为了能够确保自己读出重点,他们开始自主地拿起笔在题目上圈圈画画——这不正是当初笔者要他们去做,而他们却懒得去做的吗?面对学生花样百出的“趣味”读题法,笔者乐见其成。

把同一类型的所有训练数据通过上述处理后完成相应的特征提取,为了比较在音频分类过程中短时特征和长时特征对分类性能的影响,构造该类型音频数据的2种张量形式,如图1所示.

  

图1 音频张量建模Fig.1 Audio tensor modeling

本文构建的基于帧结构的短时特征张量和基于片段的长时特征张量都是3阶张量,第1阶表示每帧(片段)的特征参数,短时特征包括能量、过零率、带宽、响度、频谱质心、12阶MFCC和12阶△MFCC,构造一个29维特征矢量;长时特征包括高过零率帧率、静音帧率、频带内低能量帧率、片段内各帧带宽、响度、12阶MFCC和12阶△MFCC的均值,也构造一个29维特征矢量.第2阶为每类音频数据的帧数或者是片段数(根据提取特征是短时还是长时确定),第3阶表示各种音频在原始音频数据库中用于训练样本的个数.最终,在高阶子空间中建立的张量模型结构为:特征×帧(片段)×样本,其具体流程如图2所示.

  

图2 音频信号特征建模流程图Fig.2 Flow chart of audio features modeling

2 分类方法

在音频分类系统中生成特征后,就要利用分类器进行建模来完成音频类型的划分.分类器的目标就是通过对训练数据的学习,挖掘出隐藏在不同音频信号内部的本质属性区别,进而完成分类任务.

中共中央政治局9月21日召开会议,审议《中国共产党支部工作条例(试行)》和《2018-2022年全国干部教育培训规划》。中共中央总书记习近平主持会议。

2.1 张量分解

把每种类型音频数据剩余的30%作为测试样本,即各种类型音频测试数据各27个.这些样本在短时(长时)特征库中就是以帧×特征(片段×特征)的矩阵形式存在,分类过程中计算机硬件配置:Cpu为Intel i7-7700,8G内存;操作系统为Windows 10,仿真软件为Matlab R2012a.让待测试音频特征矩阵与之前经过有监督训练生成的各种音频类型的因子矩阵进行张量的矩阵乘,可以得到各类型的映射张量,然后利用Frobenius范数求解 ,最终把测试音频数据归类为最小的那一类.

(3)用Q235材料制备的过流部件应避免出现20°~40°弯角,并应根据使用年限相应加厚管路壁厚;用40Cr材料制备的过流部件可在设备中做关键零部件,如精度要求高的轴件等,需设计成与浆液低角度冲磨,以降低磨损量;ZL102材料的密度小、质量轻可作为设备外壳,轻巧耐用,其表面易自然产生一层致密牢固的氧化膜,能很好地保护设备不受腐蚀,并应避免小角度冲磨切削.

Tucker分解(Tucker factorization,TF)可以认为是高阶奇异值分解[13].设XRI1×I2×…IN,则N阶张量X的Tucker分解如式(1).

X×NUN

(1)

式中,GRJ1J2JN为核张量(Jn<In),其保留了原张量的主要信息, UnRInJn为因子矩阵,其可以认为是张量在每阶上的主分量,且Un之间彼此正交,式中的不等号表示该分解是一个近似的过程,本文采用低秩近似过程.×1表示张量的矩阵乘运算,其定义为:

音频数据库的内容主要有2部分,一部分是从网络上下载的,另一部分是自己录制生成的.这些音频内容都要经过数据清洗和整理,从而生成了原始音频数据库,包括语音(单人语音文件和多人语音文件各90个)、音乐(古典音乐文件和流行音乐文件各90个)、噪声(自然噪声文件和人为噪声各文件90个)等6大类的540个音频文件,格式均为WAV音频,数据的采样频率是44.1 kHz,精度为16位,单声道,每个文件长度在180 s左右.音频数据经过上述处理后,加窗分帧后得到具有平稳特性的音频帧,而这些帧按时长组合后可以划分为体现音频长时特性的片段,为提取片段特征做好准备.

X=G×nARI1I2In-1JIn+1IN

(2)

张量进行矩阵乘之后得到的张量与原张量同阶,即式(2)中的XG仍然为N阶张量.利用Tucker分解进行低秩近似如图3所示.

接着把与生成模型的核张量Gi逐一进行比较,从而完成分类.本文相似性采用公式(5)进行判别:

  

图3 三阶张量Tucker分解Fig.3 Three-order Tucker tensor decomposition

2.2 基于张量分解的音频分类

在分类过程中采用有教师的训练方法,也就是在数据训练时候,不同种类数据的样本分别进行训练,训练后得到对应的核张量.

Xi,2…,M

(3)

式(3)中,M为音频数据种类,Xi为第i类的数据张量,Gi为对应第i类的核张量.

自古嫦娥爱少年,这个骚货没准看上你啦,想让你做鸭子哩,她一天到晚就是一个人晃荡,没见过她老公,这熊事,她还不知道是个啥人哩。这样的女人,看她那嘴,像刚喝过鸡血似的鬼,咱可不能招惹,她男人万一是个道上的,要杀你剐你,让你缺胳膊少腿,可甭怨我这个叔没给你打预防针。

 

(4)

这样支撑背后的压力和心酸,我也有过切身体会。他坦言,也有撑不住的时候。2014到2015年间,因为太过忙碌,他一度感觉到崩溃。“有段时间我喝什么酒都没味道,喝什么酒都不开心,再好的酒也觉得提不起来兴奋点,身边的人能明显感受到。那段时间该做的工作还是在做,该进行的课也还在讲。很多东西比较得心应手了,不会做得太差,但当时状态是不好的。明显感觉到自己学习状态不够好,精神不够集中,喝酒也有点食肉不知其味那种感觉。”幸好,他都撑过来了。不对!可以说,你发现所有厉害的牛人,在赢得掌声之后,永远都还觉得自己不够努力。他们把这归结为不够上进,其实是谦逊使然。

 

(5)

其中‖·‖F中表示为Frobenius范数,设一个张量为XRI1×I2×…×IN,其Frobenius范数定义为:

XF

在进行音频数据测试阶段,音频数据构建一个矩阵(2阶张量)Ytest,让其和通过训练生成的音频模型的因子矩阵的转置进行张量的矩阵乘运算,进而得到一个映射张量:

(6)

最终根据完成分类.在进行Tucker分解过程中本文采用了交替最小二乘法(alternating least squares,ALS).

3 实验分析

3.1 实验

从原始音频库中随机选取单人语音文件和多人语音文件、古典音乐文件和流行音乐文件、自然噪声文件和人为噪声文件等每种类型70%的样本作为训练样本集.每个样本通过预滤波、预加重和加窗分帧后可以得到音频帧,组合起来可以得到音频片段,其中预加重系数为0.97,采用汉明窗进行分帧,帧长为20×10-3 s,帧移为10×10-3 s,片段长度为1 s.分别提取短时特征和长时特征(均为29维数据)构建特征库,进而生成每种类型音频数据的短时和长时高阶特征张量,在服务器上分别用ALS对张量进行Tucker分解,就可以得到每种音频对应的核张量和因子矩阵.

从代数角度来说,张量是矢量和矩阵的高阶泛化,它是一个多阶阵列或者多维矩阵[12].此外,如果加上一定约束条件,张量的分解容易具有唯一性.2000年以后,各种形式的张量分解开始在信号处理领域得到应用,近十年来也逐步应用到了音频信号的处理.其分解形式主要包括Tucker分解、CANDECOMP/PARAFAC分解,非负分解等,本文采用Tucker分解作为分类器建模方法.

把该实验重复10次,每次的训练数据和测试数据通过随机选择生成,采用相同的流程进行分类,得到的平均分类性能如表1所示.

一是明确实验实训课程设置的主要方向。考虑到财政学专业学生毕业后的工作选择需要,实验实训课程可以设置基础理论验证和实务操作两个主要方向。验证基础理论方面,主要涉及到研究分析财政收入、财政支出与GDP总量、增速之间的逻辑联系,研究分析财政收支与经济社会发展其他宏观因素之间的关系,研究分析财政税收与收入分配、经济增长、社会稳定等因素之间的关系。实务操作方面,主要涉及到政府预算编制、政府采购等财政收入支出管理以及税收信用管理、税收筹划、税收风险管理、企业财务处理、企业会计处理等涉税实务管理内容。在校内实验实训课程开设期间,基础性理论课程宜开设在第五学期,实务操作性课程宜开设在第六学期。

 

1 Tucker分解的音频分类混淆矩阵

 

Table 1 Confusion matrix of audio classification

 

via Tucker tensor factorization

  

音频类型单人语音多人语音古典音乐流行音乐自然噪声人为噪声单人(短)2510100单人(长)2410101多人(短)2230110多人(长)2240100古典(短)0023310古典(长)0024201流行(短)1122201流行(长)1122300自然(短)1120212自然(长)0011232人为(短)0201222人为(长)0100224

同时,为了与主流分类算法进行比较,本文引入了SVM和16阶的GMM,分类性能比较如图4和图5所示.

  

图4 短时特征的分类正确率比较Fig.4 Comparison of the rate of correctclassification by short-time features

  

图5 长时特征的分类正确率比较Fig.5 Comparison of the rate of correct classificationby long-time features

3.2 性能评价

由表1可以看出,在采用本文所用的Tucker分解进行音频分类,除了单人语音的分类正确率略高之外,其他都是采用长时特征进行分类效果较好,即采用短时特征张量模型的分类正确率整体低于长时特征模型,这个实验也验证了根据音频信号的语义信息更容易对音频进行分类的结论.因为短时特征中包含了12阶的MFCC和一阶差分参数,而这些反应感知特征的参数已经被证明在语音识别中的优越性能,所以短时特征应用在对单人语音分类时候效果较好.

从分类性能上看,图4与图5中本项目采用的Tucker张量分解的高阶子空间方法整体还是优于传统的SVM和16阶的GMM分类器,验证了Tucker分解能够体现音频数据的高分辨率特征.从6种音频类型上来讲,自然噪声的分类效果最差,主要是因为自然噪声主要是一些雷电、风暴等瞬间产生巨大能量的音频,而其他时间该信号能量比较弱,原始音频库都是180 s的数据,在特征提取过程中可能被平滑.此外,短时和长时特征中都出现了MFCC,而MFCC并不能很好的体现各种噪声的本质属性,这也导致了对自然噪声分类较差的结果.

16阶GMM对音频进行分类的结果较差,主要是因为在用多个单高斯概率密度函数加权逼近所建模型时,需要较多的训练样本完成混合密度函数的平滑,所以对于训练样本较少的应用场合,GMM描述样本分布的能力会大幅度降低,导致根据Bayes准则获取的分类准确率比较低.为了提升GMM的拟合能力,本文尝试提高混合阶数到32,分类能力有所提升,但是继续提升混合模型的阶数,分类性能反而下降了,主要因为GMM模型随着阶数的增加其内部结构变复杂了,在训练样本数据量没有增加的情况下,导致其泛化能力下降.

4 结论

音频分类中特征建模和分类器的好坏直接影响分类正确率.本文提出了一种利用张量对音频特征进行建模,然后利用Tucker分解完成音频分类的方法,在分别利用短时特征和长时特征构建不同的特征张量之后进行分解,利用Frobenius范数作为判别依据,最终在对6种不同种类音频进行分类测试的过程中,获得较高的分类正确率.

长征是实事求是精神的经典范例,长征的过程,不仅是战胜敌人、赢得胜利、实现战略目标的过程,而且是联系实际、创新理论、探索革命道路的过程。 “伟大的长征精神,就是坚持独立自主、实事求是,一切从实际出发的精神。”[3]47

参考文献

[1] 周明全, 耿国华, 王小凤. 基于内容的音频检索技术[M]. 北京:科学出版社, 2014.

[2] Xing L, Ma Q, Zhu M. Tensor semantic model for an audio classification system[J]. Science China Infor-mation Sciences, 2013, 56(6): 1-9.

[3] Esling P, Agon C. Multiobjective Time Series Matching for Audio Classification and Retrieval[J]. IEEE Transactions on Audio Speech and Language Processing, 2013, 21(10):2057-2072.

[4] He Z, Wu J, Li T. Label Correlation Mixture Model: A Supervised Generative Approach to Multilabel Spoken Document Categorization[J]. IEEE Transactions on Emerging Topics in Computing. 2015, 3(2):235-245.

[5] Cai R, Lu L, Hanjalic A. Co-clustering for Auditory Scene Categorization[J]. IEEE Transactions on Multimedia, 2008,10(4):596-606.

[6] Ahmad K S, Thosar A S, Nirmal J H, et al. A unique ap-proach in text independent speaker recognition using MFCC feature sets and probabilistic neural network[A]. Eighth International Conference on Advances in Pattern Recognition[C]. Jan, Kolkata, India: IEEE, 2015:1-6.

[7] 王荣燕. 复杂音频分类中的关键问题研究[D].北京:北京邮电大学,2011.

[8] 周志华. 机器学习及其应用2009[M]. 北京:清华大学出版社, 2009.

[9] 王 娜,陈克安.心理声学参数提取及其在目标识别中的应用[J].计算机仿真.2008,25(11):21-24.

[10] Bae C, Wahid N, Chung Y-Y, et al. Effective audio classifi-cation algorithm using Swarm-based optimization[J]. International Journal of Innovative Computing Information and Control, 2014, 10(1):151-167.

[11] Shi Z, Han J, Zheng T. Audio classification with low-rank matrix representation features[J]. Acm Transactions on Intelligent Systems and Technology, 2013, 5(1):328-328.

[12] Cichocki A, Zdunek R, Phan A H, et al. Nonnegative Matrix and Tensor Factorizations[M].New Jersey: John Wiley and Sons,2009:28-31.

[13] Salmi J, Richter A, Koivunen V. Sequential Unfolding SVD for Tensors With Applications in Array Signal Processing[J]. IEEE Transactions on Signal Processing, 2009, 57(12):4719-4733.

 
杨立东,靳浩杨,张壮壮,胡江涛
《内蒙古科技大学学报》2018年第01期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息