Hadoop平台下基于快速搜索与密度峰值查找的聚类算法

更新时间：2016-07-05

0 前言

聚类分析指的是将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程[1].聚类分析以相似性为基础对收集到的数据进行分类.聚类在许多领域都得到了广泛的运用与发展，如经济学领域，生物学领域和数学领域等.它们被用于对数据进行描述，对不同数据源之间的相似性进行衡量，并且将数据源分类至不同的簇中.但是，当数据规模较为庞大的时候，那么传统聚类算法是无法解决系统资源和实时性效率带来的问题.Hadoop是分布式系统的基础架构，用户可以基于Hadoop平台上开发分布式程序，而不必关注分布式系统底层的一些细节.依靠并行化写磁盘或网络传输数据[2]，能够充分发挥出集群的作用对一些海量的数据进行存储和高速运算.Google提出的MapRuduce软件架构作为Hadoop云计算平台所应用的编程模型，它的作用在于能够对大规模的数据集进行并行且有效的运算[3].当涉及的业务数据量达到T级别以上，MapReduce并行编程模型将会呈现出更加明显的优势.HDFS和MapReduce是Hadoop框架的两个核心设计.其中，HDFS用于存储海量数据，MapReduce用于运算海量数据.

供给情况：氮肥方面，尿素企业检修复产交替，整体开工率基本与上周持平；气头企业开工率略有下滑。磷肥方面，上周二铵企业整体开工率为58%，较上周下降3个百分点，主要原因是湖北兴发装置停车检修。钾肥方面，盐湖基准产品60%粉晶到站价2350-2400元/吨，较上周持平；港口钾流通现货减少，报价出现上涨；边贸钾供给紧俏，低价货源零星成交。复合肥方面，企业开工率为37%，较上周减少4个百分点，北方地区环境综合治理压力较大，企业停产检修增多。

基于Hadoop平台下K-means并行化算法虽然简单实用，但是仍然存在一些问题，它在每次迭代过程中都要重复的去计算所有点与中心点的距离，当数据量越大时，这种低效率问题会更加凸显出来，并且该算法的初始聚类中心也是通过人为初始化产生，很容易因初始聚类中心的选取不当而引发“局部最优化”问题.本文提出的基于快速搜索与密度峰值查找的并行化聚类算法的初始聚类中心是通过算法本身自动快速并且准确地产生，因此能够避免“局部最优化”问题，且该算法采用了“化整为一”原则，在第二次迭代中分别将各个准确的局部聚类结果“捆绑”当作一个点来进行聚类，从而能够避免K-means算法在每次迭代中重复的计算所有点到中心点的距离.通过实验结果显示，基于快速搜索与密度峰值查找的并行化算法相对于传统的K-means并行化算法在效率上有着明显的提升，聚类结果也更为精确.基于快速搜索与密度峰值查找的聚类算法在模式识别、图像分割、机器学习、机器视觉以及电子商务和市场营销等领域中有着很大的理论意义和应用价值.

1 MapReduce编程模型

MapReduce是一种编程模型，用于大规模数据集的并行运算[4]，采用了Map和Reduce这两个术语作为它的命名规则.依据概念而言，MapReduce会依据Map规则把输入元素列表Input List转换为输出元素列表Output List，然后再依据Reduce的规则再转换一次.从MapReduce框架的实现角度来看，MapReduce程序由两个组件组成：一个是Mapper组件的实现，另一个是Reducer组件的实现[5].

[15] Robert Sutter, Chin-Hao Huang, “China-Southeast Asia Relations: Managing Rising Tensions in the South China Sea”, Comparative Connections, September 2011.

首先是Mapping，如下图1所示.MapReduce把Input List作为输入参数传送至Mapping函数，通过运算后，再把得出的结果返回至Output List.

图1 Map函数处理

CTV可依靠自身的动力部署到任何油田，能安全、高效地将FPSO上的原油输送到任何尺度、任何类型的油船上，有效替代DPST。该装置能适应现有深海油田FPSO和常规油船的工作水深和作业环境，与传统的“FPSO+DPST”模式相比，具有原油输送装载量大、成本低、作业风险小、节能环保和适应性强等特点。与CALM作业模式相比，该装置的最大优势是1艘CTV能为多个FPSO服务，且成本较低。

图2 Reduce函数处理

对于工作流程而言，输入的 MapReduce对应的作业Job首先会将输入的数据集切分为若干个彼此独立的数据块，然后Map组件再以Task方式对它们并行处理[6].最后对处理的结果进行排序后，将它们依次输入给Reduce组件，并以Task方式对它们并行处理.其中，HDFS的DataNode负责存储MapReduce对应的输入和输出数据.MapReduce对应的Job部署在Master服务器上，Task的调度、监控以及重启失败任务等作业由Master JobTracker负责.MapReduce对应的Job部署在若干个不同的Slave服务器上，所有集群节点上的一个slave TaskTracker，负责执行master所指派的任务[6].

Hadoop框架是由Java编程语言实现的，提供了两种主要工具[3].一种是Hadoop Streaming[7]，用于运行作业，它允许用户创建或运行任何可执行的程序来做为mapper和reducer.另一种是Hadoop Pipes，它是一个和SWIG兼容的C++ API，它也可以用于实现Map和Reduce应用程序.那么，开发人员便可通过运用MapReduce框架来开发分布式应用程序，并运行在一个由上千台商用机器所组成的大型集群上，以一种高可靠性高容错性的方式并行的处理海量数据集.

2 MapReduce实现K-means聚类算法的并行化

2.1 K-means聚类算法简介

K-means算法是一种基于距离的经典聚类算法，采用距离作为指标来评价数据间的相似性，即两个对象的距离越近就代表它们之间的相似度越大[1].K-means算法认为距离相对靠近的数据集形成了一个簇，K-means算法的最终目的就是去寻找若干个紧凑并且独立的簇.聚类中心点的初始化在很大程度上影响着最终的聚类结果，其原因是k个初始聚类中心点是从整个数据集中随机选取的，代表着k个初始的簇.K-means算法计算所有数据点与这k个初始簇的中心点的距离，然后将各个数据点重新划分到与它们距离最近的中心点所在的簇中，最后再更新出每个簇的中心点，这个过程称为一次迭代运算.当发现所有簇的中心点在一次迭代运算前后保持不变，那么就表示该算法已收敛[8].

算法过程：

1)从N个文档随机的选取K个文档作为质心

2)对剩余的每个文档测量其到每个质心的距离，并把它归到最近的质心的类

通过血清学检测发现，在51280份标本中，51043份标本为HBsAg阴性，25份标本为单试剂阳性，212份标本为双试剂阳性。

3)重新计算已经得到的各个类的质心

4)迭代2～3步直至新的质心与原质心相等或小于指定阈值，算法结束.

2.2 K-means并行化聚类算法的实现

2.2.1 K-means聚类并行原理分析

假设分布式系统中有q个站点，随机选取其中的站点Mq作为主站点，剩余的q-1个站点为从站点.首先全局的k个初始聚类中心点由主站点随机产生，然后将其信息发送给所有从站点；各个从站点通过计算各自站点上所分配到的数据与这些聚类中心点的距离来确定本站点的数据应该归属于哪一类，并通过公式求出各个站点的局部聚类中心点，同时，各个从站点将本站点的局部聚类中心点和相应聚类的数据对象总数传送至主站点；主站点通过这些聚类信息来计算出全局聚类中心，迭代上述过程直到全局判别函数E值保持稳定，那么就表示全局聚类中心不再改变[9].

河北省保定市作为农业大市，一直重视农村的普法教育工作，并取得了丰硕的成果。该市涿州市、蠡县、徐水区获评全国“六五”普法先进县，徐水区麒麟店村获评国家级民主法治示范村。该市构建了“条块结合，纵横相容”的大普法格局，建立“四级六层”（市、县、乡、村四级，市、县、乡、村、组、“十户普法宣传员”六层）普法网络，在农村普法教育转型过程中积累了很多经验。全市共建立各类基层法治工作站1170个，构建“心连心”式普法。基层矛盾处结率达61%，群众满意率达98%。其中涿州市建立“一乡镇一法庭”工作制度和人民陪审员“倍增计划”，实现矛盾就地化解，零距离法律服务。

2.2.2 K-means并行聚类算法的具体实现思想

1)把海量数据划分成多份较少量的数据交给不同的node节点处理.

2)各个node节点读取上一次迭代产生的聚类中心点，然后通过计算确定本节点的各个数据点应该属于哪个类.

3)每次迭代过程中，各个node节点通过计算本节点上的数据对局部聚类中心点进行更新.

i i i S i 列.作出降序排列后的直角坐标系如图5所示.

课堂上，我和孩子们玩起了“头脑风暴”的游戏，并采取“延迟评价”的课堂机制。我常常会设计一至两个开放性问题，然后让学生大胆猜测、联想、迁移。我告诉他们，答案并不是唯一的，只要是自己努力思考的结果，只要言之有理，就是最好的答案。当课堂形成接纳、支持、包容的氛围后，学生的发言变得踊跃起来。当一些学生有了答案后，我不会立刻让他们回答，而是等举手的学生多起来以后，再点名回答。这样做的目的是给更多的孩子创造思考和回答的机会。学生回答结束后，我也不急于点评，而是先让其他学生来评价。这样一来，所有学生都能主动参与到教学活动中，发言的尽心尽力，聆听的竖起耳朵，大大增加了问题的容量，也很好地锻炼了学生的专注力。

3 基于快速搜索与密度峰值查找的聚类算法

3.1 算法简介

基于快速搜索与密度峰值查找的聚类算法是由Alex Rodriguez和Alessandro Laio在2014年6月份发表于Science上的一种新型的聚类算法Clustering by fast search and find of density peaks （简称CFSFDP）[9]，这种新型聚类算法提出了一个新的思路，该算法的重点在于聚类中心，作者认为聚类中心具备两种特点:一种是聚类中心本身密度要大，另一种是与其他密度更大的数据点之间的距离相对要远.

3.2 算法思想原理

CFSFDP聚类算法耗费的时间主要用于第一步的初始化及预处理中，在后续的确立中心点及对非聚类中心点的归类则较为快速.

第一步：计算所有数据点的密度值与距离值.首先计算出数据集中两两数据点之间的距离，然后由用户确定一个合适的截断距离，以该截断距离为半径计算出所有数据点的密度值，并按照密度值降序排列生成其下标序的集合，然后以该集合为顺序计算出各个数据点的距离值，距离值定义为所有比该数据点密度更大的数据点中与该数据点相距最近的距离的值，并为该数据点记录那个数据点的下标序n，最后把密度值最大的数据点的距离赋值为除该点外所有数据点中最大的距离值.至此，得到了所有数据点的密度值与距离值.

其次是Reducing，如下图2所示.MapReduce把输入元素列表作为输入参数传送至Reducing函数，多次迭代处理后，数据被汇集并向Output Value返回一个输出值.可以说，Reducing通常是用来产生一个“总结”数据，将比较庞大的数据集转变为相对较小的“总结”数据.

第二步：确定聚类中心点.通过综合考量每个数据点的密度值与距离值选出最准确的聚类中心点集，并对这些聚类中心点赋上不同的类别标识符.

第三步：对非聚类中心数据点进行归类.按密度值从大到小遍历整个数据集，依据第一步中对每个数据点记录到的下标序n，将遍历到的数据点类别标识符赋值为其记录的下标序为n的那个数据点的类别标识符.

⑥远程故障诊断。当现场出现问题时，用户可以在家里打开笔记本计算机，通过浏览器监视现场的实时信息，诊断问题的所在，并联络现场技术人员提供可能的解决方案。

此时，通过数值检测从中选取若干个中心点.如：检测到左侧最分散的1号和10号数据点作为该局部数据集的中心点，并为所有中心点的类别标识符赋上不同的值：

4 Hadoop平台下基于快速搜索与密度峰值查找的聚类算法

用{q } pagenumber_ebook=46,pagenumber_book=40 存储{ p } 的降序排列下标序，即它i i满足p q1 ≥≥ p q 2 ≥≥ ⋅⋅⋅≥≥pqN.最后计算出每个数据点的距离δi，计算公式为：

4.1 CFSFDPH算法的原理分析及其优势

4.1.1 Map阶段

该阶段，不同node节点的Mapper函数各自独立地对本节点分配得到的部分数据集执行一次CFSFDP算法.从而，所有的node节点计算得出相应的局部聚类结果集S{Cn，Cn(Xm)}.其中结果集S中Cn为得到的n个聚类中心点的集合，Xm为聚类中心点集Cn中对应的每个聚类中心点各自所包含的m个数据点集.

4.1.2 Reduce阶段

该阶段，接收Map阶段所有node节点得出的局部聚类中心点集Cn.然后仅对得到的所有局部聚类中心点集Cn再做一次CFSFDP算法，此时局部聚类中心点能够代表各自对应的局部聚类结果集，即此时对局部聚类中心点进行聚类也就是对局部聚类结果集进行聚类，把局部聚类结果集看成一个局部聚类中心点，也就是“化整为一”原则.经过对局部聚类中心点集进行一次聚类后，得到最终的聚类中心点集RC.最后每个mapper函数只需要更新各自数据点最终的所属类别即可.

4.1.3 对比K-means并行聚类算法的优势

与并行化的K-means算法相比，CFSFDPH算法除了在聚类开始之前不需要人为的设置起始聚类中心点以外，还能够避免并行化的K-means算法在每次迭代过程中都要重复的去计算所有数据点与所有聚类中心点的距离，从而，当数据量较为庞大时能够明显的提升聚类的效率.并且，由于CFSFDPH算法不需要人为设定初始聚类中心点，那么也就消除了“局部最优”的问题，使得最终的聚类结果更为准确.

4.2 CFSFDPH算法的具体实现过程

1)设置好若干个node节点，将原始数据集均匀的分配到不同的node节点上，每个node节点互不影响地处理各自分配得到的局部数据集S ={ X i } pagenumber_ebook=46,pagenumber_book=40 如图6，通过聚类得到局部聚类结果集S{Cn，Cn(Xm)}如图7.每个数据点Xm包含信息{ID，属性集，类别}.其中类别为相应的局部聚类中心点Cn所属类.在Map阶段，每个node节点上的聚类过程如下：

2.2.7.3 发病条件。黑麦草上的条锈菌侵入适温为9～13 ℃，潜育适温为13～16 ℃。此病在常年发生春旱的华北发病轻，华东春雨较多，但气温回升过快，温度过高不利于该病扩展，发病也轻。只有在早春低温持续时间较长，又有春雨的条件下发病重。

针对K-means并行化算法需要初始化起始聚类中心点与每次迭代过程都要重复计算所有点到聚类中心点的距离的缺点，本文对CFSFDP算法进行了并行化，提出了Hadoop平台下基于快速搜索与密度峰值查找的聚类算法Clustering algorithm by fast search and find of density peaks based on Hadoop（简称CFSFDPH）.

（表示第i个样本点的距离δi为所有比第i个样本点密度值大的样本点中，距第i个样本点最近的距离值）此时对于S中的每一个样本点Xi，都可以算出以其对应的二元对（pi，δi）.如图3、图4所示.

图3 原始数据集

图4 二元对直角坐标系

图5 降序排列值示意图

接着计算一个将pi值和δi值综合考量的量：γ=ρδ,i∈ I,再对{γ } pagenumber_ebook=47,pagenumber_book=41 进行降序排

表1中各项指标能定性、半定量地评估冰碛湖溃决风险。近年，定量估算冰碛湖溃决风险研究也取得较大进展。有学者将母冰川危险冰体的体积与湖水体积比值(R)的倒数定义为冰湖溃决危险性指数(Idi)，即Idi=1/R，R值越大其发生溃决的概率越小，并计算出西藏若干个冰湖的溃决危险性指数变化于0.054～0.73之间。

4)最后通过综合所有node节点的局部聚类中心点计算出实际的聚类中心点.

至此，数据集所有的样本都得到了归类属性，完成聚类全过程[11].

俗话说：巧妇难为无米之炊。不带武器上战场，那就是直接做炮灰。怎么促读？怎么了解学生知识储备与运用情况？考！学生最在意的是分数，教师直接划定范围，明确告知考试范围，促进学生积极记忆。笔者年段以考促读的内容有：必修5本书的教材梳理，《语文基础知识手册》，各种典型题型以及典型母题之下的各种子题，还有各位老师整理的专题作文素材，如自由与规则哲学类的，十九大报告时事类的，等等。

最后，基于这些中心点对所有非中心点确定其类别属性的值：

其中{ pagenumber_ebook=47,pagenumber_book=41 } 表示在整个数据集中比第i号数据点的局部密度大的数据点中，离第i号样本最近的数据点编号.并为每个数据点赋值属性CID=该数据点所属类别的中心点ID号.到此，各个节点的局部数据集中所有的样本都得到了类别属性的值，即得到了局部聚类结果集如图7所示.

2)各从节点计算出局部聚类结果集后，将它们的局部聚类中心点集发送给主节点如图8所示，主节点以这些局部聚类中心点作为待聚类数据集做一次CFSFDP聚类算法，得到最终的聚类中心点集RC(Cn)如图9所示.该结果包含的信息为最终的聚类中心点集RC，以及对应的属于该中心点类别的局部聚类中心点集Cn，此时，各局部聚类中心点都归到了最终的类别.

3)最后，更新各从节点node上的局部数据点的归类属性，通过自身CID属性将其归到各自对应的局部聚类中心点的最终类别里.从而得到了全局数据集的最终聚类结果如图10所示.

4)输出最终聚类结果集.

CFSFDPH算法的过程示意图：

图6 原始数据集

图7 局部聚类结果（正方形为局部中心点）

图8 Reduce处理数据集

图9 Reduce聚类结果（三角形为最终中心点）

图10 更新数据集的最终归类得到最终结果

5 实验与结果分析

实验基于Hadoop 平台下，抓取了网上的海量新闻数据作为数据源，运用MapReduce编程模型进行并行化的聚类分析[12].分别对抓取到的原始数据集采用了并行化的K-means算法与所提出的CFSFDPH算法，对这两种并行聚类算法的实验结果作出对比与分析.

5.1 并行化K-means算法与CFSFDPH算法比较

在实验中，采用并行化K-means算法与CFSFDPH算法分别对同一数据源随机抽取的不同数据样本集进行了多次的聚类处理并对比.其中，在参数设置上，CFSFDPH算法的截断距离dc的参数t设置为0.5.得到的实验结果如表1所示.

总而言之，在高中数学教学的过程中，教师为了提高学生的学科素养，应该将学生作为主体，针对学生的特点，进行课程教学方法的创新，以便提高课程教学的质量性，为教育体系的改革以及教育内容的创新提供参考.通常状况下，高中数学中，通过学生迁移能力的提升，可以强调学生的记忆能力、解题能力，并将知识更好地运用在生活实际之中，强调学生的学科素养，为高中数学教学质量的提升提供参考.

依据表1实验可得结论：在两种算法的待聚类原始数据集大小相同的情况下，由于数据源的类别数不是海量的，CFSFDPH算法只进行了两次迭代，即第二次迭代是对第一次迭代产生的局部聚类中心点集进行聚类.从更新中心点所耗费的时间上看，CFSFDPH算法平均耗时远远大于K-means算法，这是由于CFSFDPH算法大部分时间用于求出第一次的局部聚类中心点， CFSFDPH算法在求出中心点之前需要对大量原始数据点做一系列较为复杂的预处理，包括所有数据点之间的距离、距离排序、所有数据点的密度、密度排序等，第二次迭代则是对相对少量的局部聚类中心点集更新出最终的聚类中心点，所以第二次迭代耗时较少.而K-means是进行多次迭代，每次迭代的运算过程都是相同的，仅需要求出数据点到各个聚类中心点的距离，然后求出局部聚类集的平均值作为新的聚类中心点即可，所以平均耗时会明显更短.从产生中心点的个数上看，K-means算法的初始中心点是通过人为或随机产生的，而CFSFDPH算法是自动产生最终的聚类中心点，从实验数据上可知，CFSFDPH算法得到的最终聚类中心点个数始终稳定在1200个左右.通过理论及研究表明，CFSFDPH算法产生的聚类中心点是更为准确的[13]，而K-means在初始中心点的人为设置上很容易产生误差，并且很可能导致局部最优化问题[14]，例如第6次和第10次实验中，中心点迭代次数有一个明显的突降，这很可能就是由于初始中心点设置不当而导致的局部最优化问题，从而使得聚类过程提前结束，得出不准确的聚类结果.从得出最终聚类结果的总耗时上看，当数据量比较少时，CFSFDPH算法和K-means算法总耗时相差不多，CFSFDPH算法会略优于K-means算法，但随着待聚类样本数据量的增加，我们可以发现CFSFDPH算法的聚类结果总耗时会更加明显地优于K-means算法.所以，在处理海量数据时，从准确度和效率上CFSFDPH算法都要优于K-means算法.

1.1 对象选取2007年6月—2011年6月于我院行成人脊柱侧凸手术患者221例，其中，男169例，女52例。年龄21～67岁。根据Aebi分型［2］，Ⅰ型(退变性脊柱侧凸)38例，Ⅱ型(成人特发性脊柱侧凸)49例，Ⅲ型(继发性退变性脊柱侧凸)134例，平均Cobb角＞64°，均采用后路徒手全节段椎弓根螺钉棒内固定术矫形，畸形得到矫正，外观明显改善，侧弯角度恢复到30°以内，后凸角恢复到20°以内，身高也有增加，畸形矫正率达80%。全部患者均在俯卧位、全身麻醉下顺利完成手术，手术效果较满意，均顺利出院。

表1 并行化K-means算法与CFSFDPH算法结果对比

算法 CFSFDPH算法 K-means算法实验批次得出聚类结果耗时（min）N1 200.3 2 92.5 1206 162 200.3 31 6.5 1500 210.2 N2 312.6 2 132.5 1211 201.5 312.6 34 9 1600 263.5 N3 415.2 2 161.5 1198 307.6 415.2 33 12.4 1400 361.5 N4 442 2 168.5 1205 312.5 442 33 12.5 1300 382.5 N5 442 2 170.2 1204 321 442 39 11.6 1350 386.1 N6 442 2 172.5 1208 314.5 442 15 12.5 1450 181.3 N7 442 2 169.9 1205 312.2 442 37 11.4 1400 384.2 N8 442 2 173.2 1214 311.5 442 35 11.2 1420 386.3 N9 442 2 170.5 1206 305.2 442 36 12.1 1360 381.1 N10 442 2 172.2 1208 310.9 442 14 12.3 1440 186.5 N11 442 2 170.2 1211 322 442 35 13.6 1430 386.9 N12 442 2 171.2 1210 311.5 442 37 11.6 1350 379.5 N13 442 2 172.9 1194 310.5 442 35 12.6 1380 386.1 N14 512 2 200.5 1205 381 512 38 11.9 1350 456.5 N15 615 2 220.2 1204 411.9 615 36 15.6 1370 516.1 N16 722 2 255.3 1198 481.6 722 37 16.5 1340 586.1 N17 812 2 296.2 1201 562.5 812 34 21.6 1200 686.7 N18 911 2 350.7 1202 681.4 911 31 28.5 1200 816.5 N19 950 2 379.7 1194 739.5 950 30 29.1 1200 886.1 N20 1042 2 435.8 1199 801.6 1042 32 33.6 1200 1005待聚类原始数据集大小（MB）更新中心点的迭代次数更新中心点的平均耗时（min）产生中心点个数(自动产生)得出聚类结果耗时（min）待聚类原始数据集大小（MB）更新中心点的迭代次数更新中心点的平均耗时（min）产生中心点个数（随机初始化）

5.2 CFSFDP算法与CFSFDPH算法比较

为了比较CFSFDP算法与CFSFDPH算法在处理性能上的差异，实验中，还分别对两种算法使用相同的原始数据集进行了对比分析，得到的实验结果如表2所示.

依据表2所得结论：由于Hadoop具有良好的可扩展性，能够顺应数据规模的不断扩大，因此使得程序的高可靠性得以保证.实验表明，在MapReduce编程模型下的CFSFDPH算法比CFSFDP算法在执行效率上有着显著的提升.因此，CFSFDPH算法具有较强的实际应用价值.

表2 CFSFDP算法与CFSFDPH算法结果对比

指标 CFSFDP算法 CFSFDPH算法 CFSFDP算法 CFSFDPH算法数据量/MB 25 25 50 50节点数 1 210 1 210执行时间/h 7 2 15 4.5

6 结语

文章以网上的海量新闻数据聚类作为应用背景，基于Hadoop平台下的MapReduce编程模型，对CFSFDP进行了并行化的扩展，并研究与探索了该算法的应用价值.其局部聚类的“化整为一”原则解决了K-means算法在每次迭代中都要重新计算距离的重复性.经实验研究表明，CFSFDPH算法相比并行化的K-means聚类算法对数据集的聚类结果具有更高的准确性，对算法运行耗时的效率上也有所提高.并且基于Hadoop平台下，使聚类算法运用于MapReduce编程模式中，能够实现程序不受数据规模的影响，从而使得了算法具有较高的可靠性.

使用该CEI计算软件，评估了G生产装置的间歇蒸馏单元过程的泄漏暴露风险，得到的有关泄漏风险数据，该数据对改进该单元过程操作和工艺设计具有重要参考价值。DOW化学暴露指数评价计算数据见表1所列，DOW化学暴露指数评价计算结果见表2所列。

参考文献：

[1] 穆瑞辉, 付欢. 数据挖掘概念与技术[M]. 北京：机械工业出版社, 1900:288-375.

[2] 康志辉. 计算机网络安全体系的一种框架结构及其应用[J]. 福建师大福清分校学报, 2016(5):22-26.

[3] White T. Hadoop: The Definitive Guide[M]. 南京：东南大学出版社, 2011:1-4.

[4] 李建江, 崔健, 王聃,等. MapReduce并行编程模型研究综述[J]. 电子学报, 2011, 39(11):2635-2642.

[5] 李响. 基于Hadoop的云计算基础架构分析[J]. 计算机时代, 2011(11):65-67.

[6] 亢丽芸, 王效岳, 白如江. MapReduce原理及其主要实现平台分析[J]. 现代图书情报技术, 2012(2):60-67.

[7] Ding M, Zheng L, Lu Y, et al. More convenient more overhead: the performance evaluation of Hadoop streaming[C]. ACM Symposium on Research in Applied Computation. ACM, 2011:307-313.

[8] 王怡. 基于模糊交叉网格的初始聚类中心选取方法[J]. 福建师大福清分校学报, 2015(2):26-29.

[9] 杨健兵. K-Means聚类算法在MapReduce框架下的实现[J]. 软件导刊, 2016, 15(12):30-32.

[10] Rodriguez A, Laio A. Machine learning. Clustering by fast search and find of density peaks.[J]. Science, 2014,344(6191):1492-1496.

[11] Wang S, Wang D, Caoyuan L I, et al. Clustering by Fast Search and Find of Density Peaks with Data Field[J].Chinese Journal of Electronics, 2016, 25(3):397-402.

[12] 霍可栋. 基于Hadoop平台下的Canopy-Kmeans算法实现[J]. 科技展望, 2015, 25(33)：4-9.

[13] Menmood R, ZhangG,Bie R, etal. Clustering by fast search and find of density peaks via heat diffasion[J].Newraovwputing, 2016,208(C):210-217.

[14] 张建萍, 刘希玉. 基于聚类分析的K-means算法研究及应用[J]. 计算机应用研究, 2007, 24(5):166-168.

作者

郭友雄，黄添强，林玲鹏，黄维

出处

《福建师大福清分校学报》 2018年第02期

上一篇：适用于数字信号的多路复用器辅助并行乘法器

下一篇：基于可匿名性的信访信息系统之研究

《福建师大福清分校学报》2018年第02期文献

壳聚糖对镉污染土壤中油菜生长及镉含量的影响作者：金美芳，陈剑伟，林茂兹，林晨，姚虹

水源涵养型国家重点生态功能区的生态环境评价——以福建省为例作者：林云杉

中国省域环境效率差异及影响因素动态分析作者：孙泗泉，李军军

国内外体力活动研究综述作者：林政梅，王炎丽，许文鑫

福建省高职高专院校啦啦操发展现状与对策作者：黄艳治

一种改进的变预处理SOR-BICR算法作者：刘广西，张衡

PBD闭集H1(6)的有限生成集作者：吴章贵

基于ZigBee与Internet技术的植物培养监控系统作者：吴瑞坤，夏亚军，仇国华，李志煌，黄颖

基于现场数据的多模式智能管理闭环系统研究作者：仇国华，周晨晖，刘应红，曹智

基于FPGA的便携式视频显示系统的设计作者：廖延初

适用于数字信号的多路复用器辅助并行乘法器作者：王锦毅

Hadoop平台下基于快速搜索与密度峰值查找的聚类算法作者：郭友雄，黄添强，林玲鹏，黄维

基于可匿名性的信访信息系统之研究作者：刘政连，许介文，陶春源，陈广普

基于SVG矢量图的高校地图导航应用——以福建师范大学福清分校为例作者：谢超凡，苏彬彬

物联网工程创新性综合实训方案的设计作者：徐世武，苏国栋，钟伟雄

mPE/POE对HDPE的增韧改性研究作者：余立，林爱琴，林渊智，陈国明

谷物蛋白糖基化改性对其功能特性影响研究进展作者：王海林，施源德，陈盛，项雷文

响应面法优化即食鱼肉脯的研制作者：施源德，欧阳锐，陈细婷