更全的杂志信息网

基于选择性集成的并行多分类器融合方法*

更新时间:2009-03-28

1 引言

近年来,在高性能的分类系统中,多分类器系统被认为是一种有效的方式。多分类器系统[1]是指把多个分类器的输出结果通过一定的组合方法进行融合,从而识别目标。这个融合过程称为多分类器融合,大量的实验结果表明[2],通过多分类器融合可以提高分类的准确率。目前,大部分最直接的融合策略是简单的多数投票[3],其他的组合方法包括加权表决[4]、模糊积分[5]、D-S证据理论[1]等。然而,目前的多分类器融合方法在单一节点下进行,处理时间开销较大,分类效率不高。此外,一般的多分类器融合方法都是集成所有的分类器进行融合[6],致使多分类器融合面临严峻的挑战。一方面,集成所有的分类器将导致更大的计算和存储开销;另一方面,当基分类器数目增加之后,分类器之间的差异性可能会变小。选择性集成通过从已有的个体学习器中选择之后再进行集成,实验证明可以获得更好的性能[7,8]。MapReduce[9]是由谷歌提出的一种处理海量数据的并行编程模型,它可以屏蔽底层的实现细节,有效降低并行编程的难度,目前已经被普遍接受。该技术为多分类器融合方法的执行效率提供了新方法。因此,本文借助并行处理技术MapReduce,提出一种基于选择性集成的并行多分类器融合方法。该方法将发挥MapReduce在海量数据处理方面的优势,为提升多分类器融合效率提供新思路和理论方法依据。

2 相关工作

2.1 选择性集成

目前,许多选择性集成方法被从不同的方面描述和实现。一般将其分为三类:聚类法[10]、优化法[11]和排序法[12]。聚类法是把所有的基分类器根据某个标准分组,然后在某个标准中选择基分类器。这种方法可以保证基分类器之间的多样性。优化法使用启发式学习将选择性集成问题转换为目标优化,包括基于遗传算法的选择性集成GASEN(Genetic Algorithm Selective ENsemble)[13]、支持向量机的选择性集成SSE(Support vector machines Selective Ensemble)[14]等。该方法的主要限制是需要大量的存储和计算开销。排序法通过不同的评价标准对基分类器进行分类,然后选择排在顶端的分类器集成。该方法在选择速度和空间上具有较好的性能,缺点是对基分类器的排序很难给出一个合适的标准。

选择性集成在适应性、泛化和组合方面具有很大的优势,可以提高分类精度和鲁棒性。然而,当前的选择性集成方法也存在一些问题,比如:分类器之间的差异性不明显、缺乏灵活性等。

2.2 并行融合技术

随着融合数据的不断增加,融合计算耗时非常大,因此很难进行快速、实时的融合,研究者们纷纷采用并行处理方法来解决此问题,其中在远程感知图像领域的应用最为广泛。比如,基于小波变换的并行融合算法[15]、基于IHS(Intensity Hue Saturation)转换的并行融合方法[16]等,实验结果表明,这些并行融合算法具有良好的并行性能,能有效提高图像融合速度。

此外,并行处理技术MapReduce技术也被研究者们用于解决海量数据的融合问题。文献[17]提出了一种并行的实现基于图的信息融合算法,采用基于MapReduce的技术减少了时间开销和内存加载,并且具有较好的扩展性。文献[18]提出了一种基于MapReduce 框架的模糊规则融合方法,并证明了该方法在解决大数据的分类问题上有显著的优势。

3 基于选择性集成的多分类器融合方法

基于选择性集成的多分类器融合一般包含三个步骤:一是基分类器的生成,确保生成的基分类器经过融合后能显著提升分类效果;二是基分类器的选择,选取在分类任务中表现优异,结果得以互补的基分类器,即分类准确率较高且差异性大的基分类器;三是分类决策的融合,根据不同的分类器对一个事例给出的类型概率分布,即分类决策,采用融合算法融合分类决策,得到最终结果。

新课程改革中曾明确倡导教育应当积极面向世界、面向未来、面向现代化,而在当今教育教学背景下,现代化的多媒体教学技术可以说是相当成熟,它的运用不仅打破了传统静态的、枯燥的、文字解说式教学模式,更赋予了课堂更多的灵活性和生动性,在视觉和听觉上带给学生丰富的体验。另外,成熟的多媒体教学技术,更可以通过联系网络获得多种物理教学资源,以拓展中学生的物理学识,让教学更高效。

3.1 基分类器生成

Bagging算法是将多个弱分类器组合成一个强分类器,该算法的提出者Breiman指出,基分类器的训练算法越不稳定,组合后的分类器会取得越好的效果。这种所谓的不稳定,指的是训练样本发生的微小改动能够明显地影响分类效果,即构建基分类器所采用的机器学习算法对训练样本越敏感,经过Bagging融合的效果就越好。Bagging算法生成基分类器的主要思想为:(1)保证多个基分类器具有独立性,即构建基分类器时采用有放回的抽样样本;(2)采用同构的基分类器,即所有的基分类器均由一种机器学习算法训练而成。

3.2 基分类器选择

为了检验方法的适用性,实验分别采用三种不同机器学习算法(决策树、BP神经网络、SVM)各训练20个基分类器,用PMCF-SE进行融合,比较融合前后的分类准确率,对比结果如表3所示(仅列出分类准确率最高的前5个基分类器(b1,b2,b3,b4,b5))。

不一致度量方法对两个分类器didj之间的差异性定义如下:

 

(1)

其中,N00N11分别表示两个基分类器均预测错误与均预测正确的概率,即两基分类器均作出错误预测或正确预测的训练样本占总样本的比例;N01表示基分类器di预测错误而基分类器dj预测正确的概率;N10表示基分类器di预测正确而基分类器dj预测错误的概率。dij值的变化在[0,1],表示基分类器didj的差异性值。当两个基分类器的结果相同时,差异性度量值为0;反之为1,值越大则表明两者的差异性越大。采用文献[19]中的改进方法,令∂i表示基分类器di与所有基分类器差异性值总和的平均值,则有:

 

(2)

同时,令AV表示所有基分类器平均差异性值,即m个基分类器差异性值总和的平均值,公式如下:

(2)地下水的径流。地表水通过岩体风化网状裂隙及节理裂隙缓慢下渗,并逐步汇聚到F1、F2断裂带中,再沿F1、F2断裂带渗流,并以地下水为载体,在长距离的运移过程中吸收周围岩石骨架中的热能及矿物质,形成载热流体赋存于F1、F2断裂带中。F2断裂在深部被F1所阻后,地热水沿F1断裂带上涌,在地势低洼处排泄形成温泉。

 

(3)

根据公式(3),当∂iAV时,则表明基分类器di差异性较好,选中该基分类器参与最后的融合,最终选出k(km)个具有较大差异性的基分类器。

3.3 分类决策融合

Bagging的决策融合思想是所有基分类器都参与分类过程,最终的分类结果由所有基分类器投票产生。由于该过程受到投票法的制约,不易在基分类器数量较小的情况下得出良好的分类精度,而D-S证据理论是解决不同证据冲突问题的一种行之有效的方法,因此本文对Bagging算法的决策融合过程进行改进,利用D-S证据理论中的D-S合成规则来组合多个基分类器对待分类测试集的不同置信度来找到一个新的置信函数。D-S合成规则描述如下:

对于学生的作品的评价,我们美术教师容易走进两个教学误区。要么把学生的作品批评的一无是处,让学生没有一点自尊和自信。要么是对于学生的作品只是泛泛的评论,让孩子觉得茫然不知所措。其实,对学生作品的评价一定要恰当。对孩子的评价要有一定的标准,在色彩、构图、线条、内容方面进行适当的打分标准,然后根据我们的打分标准进行评价,同时,对于学生作品中富有创造力和想象力的创意部分,我们要给予加分鼓励。在经过一个阶段的学生的美术创作的实践过程中,我们要注意总结我们学生的优点,找出他们在创作的过程中遭遇的不足和缺点,对于我们的表现优异的学生,我们要给予物质和精神层面的鼓励。

输出:〈key′,value′〉对,其中key′指的是被选基分类器准确率,value′指的是预测矢量和基分类器。

(m1m2⊕…⊕mk)(A)=

 

(4)

其中,K为归一化因子:

 

4 一种基于选择性集成的并行多分类器融合方法设计

本文设计的基于选择性集成的并行多分类器融合方法PMCF-SE(Parallel Multi-Classifier Fusion Approach Based on Selective Ensemble)采用改进的Bagging方法并结合MapReduce并行化处理,对训练样本集进行有放回抽样构建基分类器,淘汰掉分类效果差、差异性小的基分类器;被选择的基分类器均参与预测待分类测试集,获取到每个基分类器的分类决策;最后,用D-S证据理论融合分类决策得到最终分类结果。

大赛中的一些题目都是经过严格筛选后确定的,每个题目的功能需求都具有一定的考核点,包括了前沿技术和解题方法,在实际教学中,可以将大赛的赛题融入教学当中,建立相应的案例库,让更多的学生可以从中学习到新的技术和新的方法。

通过采用MapReduce并行化处理弥补了原始Bagging算法中由于多个基分类器在一个计算节点上并行学习造成资源不足的问题,使融合方法具备高可靠性和易扩展性,更适用于大规模数据集的分类学习,同时提高了分类效率。基于选择性集成的并行多分类器融合方法框架图如图1所示。

  

Figure 1 Parallel multi-classifier fusion approach based on selective ensemble图1 基于选择性集成的并行多分类器融合方法

PMCF-SE分为数据预处理阶段、Map阶段以及Reduce阶段,各阶段描述如下:

输出:〈key′,value′〉对,其中key′指差异性值,value′ 指被选中基分类器。

实验过程中准确率阈值λ设置为0.9。对每个实验重复进行10次,取平均值作为实验结果。

(2)Map阶段:从HDFS中读取训练样本集L,每个map函数对L进行有放回抽样得到子训练集Li,将Li通过分类算法训练出基分类器bi;用T测试基分类器,得出相应的预测集Ai;将Ai与测试集T的实际标签对比得出基分类器的分类准确率,根据准确率阈值λ挑选出分类的基分类器。

为了验证本文提出的基于选择性集成的并行多分类器融合方法的有效性,采用目前学术界公认的、实用的网络安全数据集—KDD99数据集作为实验数据。

A为待分类网络流量样本,其识别框架为Θ={θ1,θ2,…,θr},对于∀AΘΘ上的k个mass函数m1,m2,…,mk,每个mass函数分别是每个基分类器对A的概率赋值函数,则K个基分类器的D-S合成规则为:

步骤1 map函数根据keyL中获取n个子训练集Li,使用分类算法训练n个基分类器bi(1≤in);

步骤2biT中各条流量进行分类预测,得到预测集Ai

步骤3 测试每个基分类器bi来计算,每个分类器的分类准确率Ri,得到R={R1,R2,…,Rn};

步骤4 设定准确率阈值λ的分类器,选出准确率大于λ的基分类器集合N={b1 ′,b2 ′,…,bm ′},m < n

一个日常班总计有8小时的工作时间,包括30分钟午餐,30分钟休息,5分钟交接班,5分钟基本维护检查。TT=410*60/4000=6.15s/件。由结果得知,该生产线的实际生产节拍确实大于TT,所以,该生产线的生产能力不能满足市场的需求。

(3)Reduce阶段:将输入的〈key′,value′〉对中value′所对应的预测集组合形成一个矩阵,每个预测集对应一个基分类器,根据不一致性度量公式计算各分类器的差异性值;最后筛选出差异性较大的分类器对待分类测试样本集S进行分类,利用D-S证据理论融合分类决策,得出最终的分类结果。

输入key指被选基分类器准确率,value指预测集和基分类器;

例如,在《楚辞·九歌》中,神话、宗教及其文化的结合在以下几个方面更加突出:第一,男女之间的爱情;第二,展示了神与人之间爱情的宗教场景;第三,反映了祭祀和节日的欢乐场面。在艺术特色方面,它充满抒情色彩和浪漫气息。这些都清楚地表明了楚神话与楚文化互相渗透跟影响的关系[1]。

步骤1 根据公式(1)计算N中各分类器间的差异性值dij;

步骤2 根据公式(2)计算每个基分类器在整体基分类器的差异性值∂i;

步骤3 根据公式(3)计算整体基分类器的平均差异性值AV

步骤4 选择差异性较大的分类器,组成待集成分类器集M={c1,c2,…,ck};

步骤5 使用M中的所有基分类器对待分类测试集S进行分类,得到各个基分类器的分类决策,根据D-S证据理论公式(4)融合分类决策,得到最终分类结果。

5 实验与结果分析

5.1 实验数据

输入keyLiL中的偏移量,而value指训练样本集L;

通过以下例句,学生可以归纳出如何用whose,of which和of whom实现对先行词的所有格的照应。

KDD99数据集按攻击类型被划分为四大类:(1)拒绝服务攻击DoS(Denial of Service);(2)非法扫描主机或网络Probe(Surveillance or probe);(3)非法获取超级用户或管理员特权U2R(User to Root); (4)远程用户非法获取本机用户特权R2L(Remote to Local)。本文的实验通过每次从训练数据集中有放回的重采样8 000条流量构建一个训练集。测试集和待分类测试集均从测试数据集中抽取,以保证训练样本和测试数据集不重叠。本文数据集的具体组成如表1所示。

(1)数据预处理阶段:将带有类标签的网络流量初始样本集分割成训练样本集L和测试集T并上传至HDFS(Hadoop Distributed File System),同时将不带有类标签的待分类测试集S也上传至HDFS。

 

Table 1 Components of the dataset表1 数据集组成部分

  

攻击类型 测试数据集数量 比例/% 训练数据集数量 比例/%Normal(0)214621.4634841369.6826Probe(1)209220.92193953.8790DOS(2)516451.6413160526.3210U2R(3)250.25250.0050R2L(4)5735.735620.1124

5.2 实验环境

本实验所搭建的Hadoop平台由四台机器构成,其中两台担任Hadoop集群的主节点,即:Namenode、SecondaryNamenode;另外两台担任Hadoop集群的从节点,即Datanode。配置如表2所示。

5.3 实验结果及分析

实验从分类准确率和单机/集群环境下多分类器融合方法的执行效率两个方面对PMCF-SE进行测试。

 

Table 2 Configuration of Namenode/ SecondaryNamenode/Datanode表2 Namenode/SecondaryNamenode/Datanode配置

  

项目配置信息CPUInteli7-3770@3.40GHz内存16GB硬盘256GSSD操作系统64位Ubuntu14.04LTS

(1)分类准确率。

空间、博客、微博、贴吧、论坛、人人网、选秀活动和相亲节目的众语喧嚣,折射出新媒体传播中网络公民精神的解放和自我意识的高涨。当前网络上如火如荼的草根狂欢现象,正如同巴赫金笔下呼唤自由平等的狂欢世界,形象地传达了平民阶层渴望彰显个性,要求主体话语权,展现独立意识,反抗并颠覆传统秩序的强烈愿望。

为了从构造好的所有基分类器中选出理想的基分类器,较好地提升融合后分类器的分类准确率及泛化能力,一般从基分类器的准确率和差异性两方面考虑。基分类器间的差异性通常采用差异性度量作为衡量标准。在差异性度量方法中,由于不一致度量方法的可理解性和稳定性的优点,故而应用最为广泛。

 

Table 3 Classification accuracy of different machine learning algorithms表3 不同机器学习算法的分类准确率 %

  

算法PMCF-SEb1b2b3b4b5决策树97.1296.1495.6194.5994.1493.99BP神经网络91.5791.3091.1790.6590.3490.32SVM94.5594.0793.9293.8693.8393.70

从表3可以看出,经过PMCF-SE融合后,融合方法的分类准确率都高于单个基分类器,并且使用决策树作为分类算法构建的基分类器经过融合后的分类准确率高于SVM和BP神经网络。

为了检验方法的融合效果,实验选取决策树作为基分类器的训练算法,比较基分类器个数分别为50、100、150、200、250时,经过PMCF-SE与Bagging集成后模型的分类准确率,结果如图2所示。

3.1 资源开发与利用 槭树科植物叶色色彩绚丽,极大地丰富了城市色彩,是园林植物的重要组成部分。但郑州地区实际应用观赏的槭树种类仅10余种,资源开发力度不够。应充分利用河南的过渡带气候特点及优越的生态环境优势进行野生槭树科植物的引种驯化以及园林应用研究,为郑州乃至河南生态城市建设提供丰富的植物材料。

  

Figure 2 Classification accuracy图2 分类准确率图

从图2可以看出,在分类准确率方面,PMCF-SE在不同的基分类器数目下,分类精度都优于Bagging算法,这归功于PMCF-SE剔除掉一部分效果不佳的基分类器,同时选择了差异性较大的基分类器,并采用D-S证据理论融合分类决策。实验结果表明,将所有的基分类器进行融合不一定具有更好的效果,选择部分基分类器参与融合往往能够获得更好的分类效果,主要在于其更能充分利用分类器间的互补性,才能够达到融合分类性能的效果。

(2)不同环境下方法的执行效率。

为了能更精确地衡量提出的方法采用并行化技术所带来的性能方面的提升,使用加速比Speedup作为评价指标:

Speedup(n)=T(1)/T(n)

(5)

其中,T(1)表示单节点环境下方法的运行时间,T(n)表示节点数为n的并行环境下方法的运行时间。

鼓和芦笙的配合方式,比较特别,有两个人足够,并不像一般意义上的“伴奏”。击鼓时有两种方式,一是击鼓边,二是击鼓心,鼓边、鼓心都根据芦笙和祭奠的情形而定。但鼓的声音比较小,仅就声音而言,稀稀落落,不成曲调,不像芦笙,既吹又舞,有点艺术性。

为了检验单节点环境和多节点环境下并行多分类器融合方法在分类时间上的表现,实验选取决策树作为基分类器的训练算法,比较集成不同数量的基分类器(50、100、150、200、250)时方法的效率,图3给出了不同节点数(1、2、3、4)下方法的加速比。

  

Figure 3 Curve of Speedup图3 加速比曲线图

从图3中可以看出,基分类器数量一定时,随着计算节点数的增大,加速比呈现上升趋势。这表明节点越多,数据块细化程度越大,各阶段的MapReduce过程并发程度越高,优于单节点环境。由此得知,MapReduce并行架构能够有效提升多分类器融合的执行效率。

6 结束语

本文结合选择性集成和MapReduce技术的优势,提出了一种基于选择性集成的并行多分类器融合方法。该方法建立在MapReduce并行计算架构之上,从基分类的准确率和差异性两方面考虑选择基分类器,并结合D-S证据理论进行决策层融合。实验表明,采用本文提出的方法的分类精度优于Bagging算法的同时也可以有效地提高多分类器融合的执行效率,而且证明决策树方法相比其他方法更适合作为构建基分类器的训练算法。

参考文献:

[1] Bagheri M A,Hu G,Gao Q,et al.A framework of multi-classifier fusion for human action recognition[C]∥Proc of 2014 22nd International Conference on Pattern Recognition (ICPR),2014:1260-1265.

[2] Aravinth J, Valarmathy S. Multi classifier-based score level fusion of multi-modal biometric recognition and its application to remote biometrics authentication[J].The Imaging Science Journal,2016,64(1):1-14.

[3] Kamali T,Boostani R,Parsaei H.A multi-classifier approach to MUAP classification for diagnosis of neuromuscular disorders[J].IEEE Transactions on Neural Systems and Rehabilitation Engineering,2014,22(1):191-200.

[4] Azizi N,Farah N,Sellami M,et al.Using diversity in classifier set selection for Arabic handwritten recognition[C]∥Proc of International Workshop on Multiple Classifier Systems,2010:235-244.

[5] Li T,Jin C,Cai Y,et al.Research on the multi-classifier fusion model based on choquet integral[M]∥Future Control and Automation.Berlin:Springer Berlin Heidelberg,2012:119-126.

[6] Zhang Xue-feng,Wang Peng-hui,Feng Bo, et al.A new method to improve radar HRRP recognition and outlier rejection performances based on classifier combination[J].Acta Automatica Sinica,2014,40(2):348-356.(in Chinese)

[7] Tang J,Chai T,Yu W,et al.Modeling load parameters of ball mill in grinding process based on selective ensemble multisensor information[J].IEEE Transactions on Automation Science and Engineering,2013,10(3):726-740.

[8] Liang R Z, Xie W,Li W,et al.A novel transfer learning method based on common space mapping and weighted domain matching[C]∥Proc of ICTAI,2016:299-303.

[9] Zhang Y,Chen S,Yu G.Efficient distributed density peaks for clustering large datasets in MapReduce[J].IEEE Transactions on Knowledge and Data Engineering,2016,28(12):3218-3230.

[10] Huang Y, Monekosso D, Wang H. Clustering ensembles based on multi-classifier fusion[C]∥Proc of 2010 IEEE International Conference on Intelligent Computing and Intelligent Systems(ICIS),2010:393-397.

[11] Nedic V,Cvetanovic S,Despotovic D,et al.Data mining with various optimization methods[J].Expert Systems with Applications,2014,41(8):3993-3999.

[12] Lu Z,Wu X,Zhu X,et al.Ensemble pruning via individual contribution ordering[C]∥Proc of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2010:871-880.

[13] Nguyen T T, Liew A W C,Tran M T,et al.Combining multi classifiers based on a genetic algorithm-a Gaussian mixture model framework[C]∥International Conference on Intelligent Computing,2014:56-67.

[14] Song J Z,Guo C Y,Liu H S.Selective SVM ensemble base on clustering analysis apply for analog circuit fault diagnosis withsmall samples[J]. Applied Mechanics and Materials,2013,380-384:841-845.

[15] Xue X,Xiang F,Wang H,et al.A parallel fusion algorithm of remote sensing images based on wavelet transform[C]∥Proc of 2009 17th International Conference on Geoinformatics,2009:1-6.

[16] Xue X,Lei G,Hongfu W,et al.A parallel fusion method of remote sensing image based onIHS transformation[C]∥Proc of 2011 4th International Congress on Image and Signal Processing (CISP),2011:1600-1603.

[17] Laudy C, Dreo J, Gouguenheim C.Applying MapReduce principle to high level information fusion[C]∥Proc of 2014 17th International Conference on Information Fusion (FUSION),IEEE,2014:1-8.

[18] del Río S,López V,Benítez J M,et al.A MapReduce approach to address big data classification problems based on the fusion of linguistic fuzzy rules[J].International Journal of Computational Intelligence Systems,2015,8(3):422-437.

[19] Li Ping-hong,Tao Xiao-ling,Wang Yong.A network traffic classification method for multiple classifiers selective ensemble[J].Computer Applications and Software,2014,31(7):182-185.(in Chinese)

附中文参考文献:

[6] 张学峰,王鹏辉,冯博,等.基于多分类器融合的雷达高分辨距离像目标识别与拒判新方法[J].自动化学报,2014,40(2):348-356.

[19] 李平红,陶晓玲,王勇.一种多分类器选择性集成的网络流量分类方法[J].计算机应用软件,2014,31(7):182-185.

 
陶晓玲,亢蕊楠,刘丽燕
《计算机工程与科学》2018年第05期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息