贝叶斯网络参数学习中的连续变量离散化方法研究∗

更新时间：2009-03-28

1 引言

在贝叶斯网络的参数学习过程中，可以将新数据输入贝叶斯网络中，进一步更新各节点的概率，这个过程被称为概率繁殖［1］。利用新数据对网络中变量的先验分布进行更新，这是贝叶斯网络学习中的一个非常重要的问题。

在统计学中，参数学习称为参数估计，它有两种基本方法，即最大似然估计法和贝叶斯估计法［2］。目前对于完备数据的参数学习算法已经发展到比较成熟的阶段，但是对于从不完备数据中学习贝叶斯网络的参数却仍是一个亟需攻克的难题。

选取2017年12月～2018年6月在我科就诊年龄＞65岁的老年高血压患者120例作为研究对象，其中，男67例、女53例。据患者同型半胱氨酸水平分为H型高血压组78例和非H型高血压组42例。

本文采用不同方法对原始数据进行离散处理，并构建相对应的贝叶斯网络以供后期预测分析使用。本文使用UCI数据库中的transfusion数据集，采自某血液采集服务中心，具体工作包括以下三部分：

1）利用Matlab采用两种不同（等宽法、ChiMerge法）方法对数据进行离散化处理；

从两个离散结果来看，等宽法的弊端显示较为明显，由于只是无监督地划分，前三个维度的数据，即Recency、Frequency和Monetary的离散结果数据过于集中在一个区间里，这是由于原始数据的值域较大而数据分布不均匀导致的。整体看来，等宽区间由于其固有的局限性和原始数据的偏斜程度较大，离散出来的结果较为不理想。ChiMerge法的离散结果比较较为理想，但由于都是需要人为地指定离散的区间数，也存在一定的问题。这需要投入进一步的工作研究，探究如何科学地权衡区间数的选择，使得这两种离散方法更为完善和科学。

3）利用构建的贝叶斯网络进行简单的预测分析。

2 数据的离散化

2.1 等宽法离散

等宽法是最简单的无监督离散化方法，指将连续变量的取值空间等分为多个取值区间［3］。它需要用户认为的指定离散的区间数目K，然后将数据集的值域{Xmin，Xmax}划分为K个区间，使得每个区间的宽度都相等，都等于(Xmax-Xmin)/K。等宽法虽然简单易于实现，但是存在着固有的局限性，当原始数据的值域中存在偏斜极为严重的点时，会大大影响离散化的效果。

如下，原始数据中的Recency、Frequency、Monetary、Time属性经过无监督的等宽法离散后得到的结果如表1、表2、表3、表4所示。本文在等宽法的离散中，将原始数据的值域等分为3份进行离散，以下表格显示了离散结果的区间名、对应值和每个区间中实例数目占总的实例数的百分比。

表1 Recency的等宽法离散结果

区间名称对应值实例所占百分比Short［0，25）98.80%Average［25，50）0.94%Long［50，74］0.27%

表2 Frequency的等宽法离散结果

区间名称对应值实例所占百分比Average［17，34）2.41%Seldom［1，17）96.52%Often［34，50］1.07%

表3 Monetary的等宽法离散结果

区间名称对应值实例所占百分比Average［4333，8416）2.41%Few［250，4333）96.52%Many［8416，12500］1.07%

表4 Time的等宽法离散结果

Long［66，98］15.11%区间名称对应值实例所占百分比Short［2，34）53.74%Average［34，66）31.15%

2.2 ChiMerge法离散

ChiMerge是有监督的，自底向上基于合并的离散化方法［4］。它以卡方分析为基础进行数据的离散化，相邻区间中卡方值最小的两个合并在一起，循环直至计算合并符合停止准则为止。

在构造完成的贝叶斯网络中加入一个效用节点和一个决策节点，选择总的献血量以此预测一个献血者是否会献血的概率。

其中，m为每次进行比较的区间数目，此处为2；k为类别数量；Aij表示第i类区间中第j类实例的数量；表示第j类实例的数量；表示总的实例数量的期望频率。

好的阅读习惯是阅读质量的保障，但是习惯不会凭空养成。整本书阅读正是培养阅读习惯的有效途径。整本书阅读要求学生必须自学、自读，自己去理解书中的内容，教师不仅会就他们不理解的内容进行讲解，还会对他们进行方法的指导。由于整本书在内容上有连贯性，有利于吸引读者兴趣。我们可以从简单有趣味的读本入手，如小说、诗歌、人物传记等，然后随着学段的不同，有针对性的提升阅读难度，增加文章的长度，使学生在不断的过渡中掌握阅读方法，逐渐可以阅读一些难度较大的读本，比如，哲学著作、学术著作等。这样循序渐进的学习，对于良好阅读习惯的养成是很有帮助的。

具体算法如下：

1）初始化：根据要离散的属性对数据进行排序，每个数据为一个单独的区间，本文选取的是YNinMar2007属性，即是献血者是否在2007年3月份献过血；

决策网络如图7所示。

3）判断是否符合循环终止条件，符合则跳出循环，不符合则返回执行2）。

如下，原始数据中的Recency、Frequency、Monetary、Time属性经过有监督的ChiMerge法离散后得到的结果如表5、表6、表7、表8所示。在本文ChiMerge法中，人为设定离散化的区间数目为3个，选取YNinMar2007属性即2007年3月献血者是否有献过血作为类别信息，总共分两类，YNin-Mar2007值为1表示献过血，为0表示没有献过血。以下表格显示了离散结果的区间名、对应值和每个区间中实例数目占总的实例数的百分比。

表5 Recency的ChiMerge法离散结果

区间名称对应值实例所占百分比Long［26，74］1.07%Short［0，6］49.06%Average［7，25］49.87%

表6 Frequency的ChiMerge法离散结果

区间名称对应值实例所占百分比Often［25，50］1.20%Seldom［1，4］56.02%Average［5，24］42.78%

表7 Monetary的ChiMerge法离散结果

区间名称对应值实例所占百分比Many［6500，12500］1.20%Few［250，1000］56.02%Average［1250，6000］42.78%

表8 Time的ChiMerge法离散结果

Long［33，98］45.86%区间名称对应值实例所占百分比Short［2，31］53.74%Average［32，32］0.40%

2.3 离散结果分析

2）利用离散后的数据运用Netica进行相应贝叶斯网络的构建，并进行参数学习；

3 贝叶斯网络的构造和参数学习

因改造方案采取“隔三换一”的原则进行短轨枕更换，轨道稳定性较原状态有所降低，尤其是在高温季节施工，可能会发生胀轨等影响安全的情况，因此，需对无缝线路状态施工的可行性必进行深入分析。

《商标法》第十三条规定：为相关公众所熟知的商标，持有人认为其权利受到侵害时，可以依照本法规定请求驰名商标保护。据此，在市场上出现多个相似商标时，为公众所熟知的商标持有人可以请求驰名商标保护。山东德衡（德州）律师事务所律师、农资法律专家李宝星表示：“如果被认定为驰名商标，那么拥有驰名商标的企业在保护商标专用权上更有主动权，商标局会驳回与驰名商标相同或相似的商标注册申请，但知名商标、著名商标受到的保护力度有限。”

3.1 Netica简介

Netica是由加拿大的Norsys公司开发的一款专门用于贝叶斯网络的软件。Netica具有多种构造节点概率表（CPT）的途径：1）可以从文件中导入案例（case file）数据，基于案例通过贝叶斯网络参数学习自动获得；2）基于专家知识获得，可以直接手工编辑输入节点概率表的各项内容；3）手工编辑给出概率公式，计算获得节点概率表。本文通过导入case file进行参数学习获得贝叶斯网络的结构。

3.2 等宽法离散结果构建贝叶斯网络

3.2.1 构造的网络

根据第三章所介绍的等宽法离散后的数据以csv文件格式存储，在Netica软件中由导入案例的方法，作为case file导入并进行参数学习，获得如图1所示的贝叶斯网络，该网络中各个节点的条件概率表分别对应如图2、图3、图4、图5、图6所示。

构造的贝叶斯网络如图1所示。

pagenumber_ebook=149,pagenumber_book=994

图1 等宽法离散结果的贝叶斯网络

将Recency作为target node，学习得到的各点条件概率表如下：

体育法应当明确规定体育赛事转播权的大部分收益在参赛者之间公平分配，赛事组织者分得的部分收益除用于维持组织运转的必要开支之外，应全部用于鼓励年轻人参与体育活动和支持业余体育发展等“造血”功能。收益的具体分配比例可以通过细则的方式予以确定，收益的分配过程则应接受外部审计监督。这应当作为体育赛事转播权权属规定的配套制度，以保证赛事组织者与参赛者之间的利益平衡，同时给公共利益提供必要的保障。

4）Time的条件概率表

图2 Recency的条件概率表

2）Frequency的条件概率表

在 130 例患者中，CYP2C19*2、CYP2C19*3 基因型和等位基因频率分布见表1。两个位点均符合Hardy-Weinberg遗传平衡吻合度计算（P>0.05），说明样本具有群体代表性。

图3 Frequency的条件概率表

3）Monetary的条件概率表

图4 Monetary的条件概率表

1）Recency的条件概率表

图5 Time的条件概率表

5）YNinMar2007的条件概率表

图6 YNinMar2007的条件概率表

3.2.2 预测分析

卡方值的计算公式为

经常检查饮水系统、供给充足清洁的饮水。做好免疫预防工作，以免疫为主导，加强卫生消毒工作，做好猪场的免疫监测工作。做好饲料采购、贮存工作，严防饲喂发霉变质饲料。

目前有些初中英语教师在进行阅读教学时仍然采用“填鸭式”教学方针，严重阻碍了英语阅读有效性的实现。学生在英语阅读学习阶段只是跟随着教师单纯积累词汇，对词汇的含义没有完全理解，不能很好地运用到文章中。因而，在初中英语实际教学中，教师应结合当前教学现状深入反思当前英语阅读教学中存在的问题，并深入开展英语阅读教学方法的改革与创新活动，以达到提升英语阅读教学效率的目的。

2）计算每两个相邻区间的卡方值，将卡方值最小的两个区间进行合并；

图7 决策网络

决策节点D的条件概率表如图8：

对于之前离散化得出的结果，将748个数据分成两份，随机选取其中500个数据作为训练数据集（training set），其余的248个数据作为验证数据集（testing set）。使用Netica构造相应的贝叶斯网络，进行参数学习，并加入一个效用节点（utility node）和决策节点（decision node）进行简单的预测分析。

根据预测分析，如果一个献血者的献血总量比较少的话，那他就倾向于不会献血，如果献血量是

一般或者多的话，那他就倾向于会献血。

图8 决策节点的条件概率表

3.3 ChiMerge法离散结果构建贝叶斯网络

3.3.1 构造的网络

使用ChiMerge法离散后的数据同样以csv文件格式存储，在Netica中以case file的形式导入并进行参数学习，得到如图9所示的贝叶斯网络，该网络中各个节点的条件概率表分别对应如图10、图11、图12、图13、图14所示。

构造的贝叶斯网络如图9所示。

对于“统一领导”的财务原则而言，在财务共享平台当中，煤矿企业需对财权予以合理的分配，适当放松对各个部门的绝对领导，并在条件允许的范围中，给予他们部分自由掌控权，让他们自行地对项目计划以及预算报表等予以制定。通过对财务共享平台的有效运用，领导层可以对企业资产与资金流向进行实时的掌握，以便于根据具体的经营状况来判断经营活动是否合理，这样既能够提升工作效率，还可以确保资金在运营过程中的安全。其次，就过分分权的相关煤炭企业而言，需从上至下进行大变革，通过财务共享来对经济活动进行牵制，增强对各个部门的管理，以此来确保资金的合理分配和运用，逐渐往现代化企业发展。

pagenumber_ebook=150,pagenumber_book=995

图9 ChiMerge法离散结果的贝叶斯网络

将Recency作为target node，学习得到的各点CPT如下：

1）Recency的条件概率表

图10 Recency的条件概率表

2）Frequency的条件概率表

图11 Frequency的条件概率表

3）Monetary的条件概率表

图12 Monetary的条件概率表

4）Time的条件概率表

图13 Time的条件概率表

5）YNinMar2007的条件概率表

图14 YNinMar2007的条件概率表

3.3.2 预测分析

1.2.4 不同pH对土壤中Cd吸附的影响用HCl和NaOH分别调节不同浓度Cd溶液(0 mg/L、0.5 mg/L、1 mg/L、5 mg/L、10 mg/L和20 mg/L)的pH(3、5、7和9)，然后进行吸附试验，其余操作同上述试验。以上清液中剩余镉浓度来计算。

治疗结束后处死小鼠，剥取肿瘤并用电子秤称取肿瘤质量，计算抑瘤率。表2示，重组人血管内皮抑素+DDP(d4～d6)组抑瘤率最高，为53.91%，与包括单药组在内的各组比较差异均有统计学意义，F=31.69，P<0.001。

《办法》规定，广西公办普通高等学校要按5%的比例，公办高等职业学校、高等专科学校和成人高校要按4%的比例，从教育事业收入总额中提取助困资助经费，民办普通高等学校按5%的比例从学费收入总额中提取助困资助经费，专项用于学费减免、国家助学贷款风险补偿、勤工助学、校内无息借款、校内奖助学金、特殊困难补助、贫困学生家庭慰问和资助育人及宣传，以及贫困生参加求职考研、创新创业、社会实践、专业技能培训、外出实习、访学交流等活动支出。

在如图9所示的贝叶斯网络基础上，加入一个效用节点U和一个决策节点D，根据总的献血量以此预测一个献血者是否会献血的概率。

决策网络如图15所示。

图15 决策网络

决策节点D的条件概率表如图16所示。

图16 决策节点的条件概率表

根据预测分析，如果一个献血者的献血总量比较少的话，那他就倾向于不会献血，如果献血量是一般或者多的话，那他就倾向于会献血。

3.4 结果分析

根据两种不同离散方法得出的结果构造出来的贝叶斯网络，我们可以看出，基于原始数据使用不同的离散化方法，得出的离散结果用于构造贝叶斯网络，所构造出来的网络结构是一样的。但是经过case file的加入进行参数学习后，各个节点的节点概率表呈现出了明显的差别。对于等宽法构造出来的贝叶斯网络，跟从原始数据离散后的结果一样，节点Recency、Frequency、Monetary的节点概率表也呈现出了很大程度的倾斜。ChiMerge法离散后的数据构造的贝叶斯网络虽然各节点的节点概率表不尽相同，但根据网络中从Monetary属性引出的决策节点D的条件概率表却大致相近，而等宽法构造的贝叶斯网络决策图对于献血者是否献血的预测则与ChiMerge法出入较大。

从表3的比对情况可以看出，辉光放电质谱法的分析结果w和电感耦合等离子体质谱法的分析结果w0符合性较好。虽然部分数据存在一定差异，但作为痕量元素，最终对高纯锡产品的定级没有影响。同时也体现出对于μg/g级别的痕量元素的分析上，辉光放电质谱法的灵敏度很高，当元素含量数量级变大时，其分析结果的精密度也变好(RSD变小)，从数理统计方面看是比较合理的。

4 结语

本文中选用了比较有代表性的两个方法（等宽法、ChiMerge法）对数据进行离散化。根据离散化方法选择的不同，离散出的数据构造出来的贝叶斯网络也不尽相同。等宽法简单易行，但由于其算法固有的局限性，对于具体的数据集要求比较严格，当存在对于值域来说偏斜极为严重的点时，这种类型的离散化方法是极为脆弱的，离散的效果会大大降低。ChiMerge算法属于有监督的离散，在其离散的过程中考虑了类别信息，因此较为科学。但因为需要人为地指定离散的区间数目，由于人类认识的局限性，无法科学地权衡区间的个数以达到最好的离散效果，因此这需要进一步地投入研究，争取能探究出一个科学地权衡区间数的办法，使得这两种离散方法更为科学和完善。

参考文献

［1］黄影平.贝叶斯网络发展及其应用综述［J］.北京理工大学学报，2013，33（12）：1211-1219.HUANG Yingping.Survey on Bayesian Network Development and Application［J］.Transactions of Beijing Institute of Technology，2013，33（12）：1211-1219.

［2］吴红，王维平，杨峰.贝叶斯网络参数学习中的连续变量离散化方法［J］.系统工程与电子技术，2012，34（10）：2157-2162.WU Hong，WANG Weiping，YANG Feng.Discretization Method of Continuous Variables in Bayesian Network Parameter Learning［J］.Systems Engineering and Electronics，2012，34（10）：2157-2162.

［3］周旋，王磊，朱延广，等.贝叶斯网参数学习中连续变量离散化方法研究［J］.计算机仿真，2009，26（9）：136-139.ZHOU Xuan，WANG Lei，ZHU Yanguang，et al.A Discretization Method of Continuous Variable in Bayesian Network Parameter Learning［J］.Computer Simulation，2009，26（9）：136-139.

［4］李晓毅，徐兆棣，孙笑微.贝叶斯网络的参数学习研究［J］.沈阳农业大学学报，2007-02，38（I）：125-128.LI Xiaoyi，XU Zhaodi，SUN Xiaowei.Study on Parameter Learning of Bayesian Network［J］.Journal of Shenyang Agricultural University，2007-02，38（I）：125-128.

［5］王飞，刘大有，薛万欣.基于遗传算法的Bayesian网中连续变量离散化的研究［J］.计算机学报，2002，25（8）：794-800.WANG Fei，LIU Dayou，XUE Wanxin.Discretizing Continuous Variables of Bayesian Networks［J］.Chinese Journal of Computers，2002，25（8）：794-800.

［6］厉海涛，金光，周经伦，等.贝叶斯网络推理算法综述［J］.系统工程与电子技术，2008，30（5）：935-939.LI Haitao，JIN Guang，ZHOU Jinglun，et al.Survey of Bayesian Network Inference Algorithms［J］.Systems Engineering and Electronics，2008，30（5）：935-939.

［7］Jaeger M.Parameter learning for relational bayesian networks［C］//In：Proceedings of the 24th international conference on Machine learning，ACM，2007：369-376.

［8］Udomsakdigool A，Khachitvichyanukul V.Ant colony algorithm for multi-criteria Job shop scheduling to minimize makespan，mean flow time and mean tardiness［J］.International Journal of Management Science and Engineering Management，2011，6（2）：117-123.

［9］Su J，Zhang H，Ling C X，et al.Discriminative parameter learning for Bayesian networks［C］//In：Proceedings of the 25th international conference on Machine learning，ACM，2008：1016-1023.

［10］Heckerman D，Geiger D，Chickering D M.Learning Bayesian networks：The combination of knowledge and statistical data［J］.Machine learning，1995，20（3）：197-243.

作者

刘晓明，李盼池，刘显德，肖红

出处

《计算机与数字工程》 2018年第05期

上一篇：面向电力大数据的多数据流实时处理技术研究∗

下一篇：基于骨架的单幅图像三维建模∗

《计算机与数字工程》2018年第05期文献

强规划的最小期望权值求解算法∗ 作者：袁润，文中华，戴良伟，陈秋茹

基于ELM-AE的迁移学习算法∗ 作者：邓万宇，屈玉涛，张倩

基于改进词包模型的车型识别算法∗ 作者：康珮珮，于凤芹，陈莹

基于人工蜂群算法的数据分类感知研究∗ 作者：王小君

基于Rife算法的跳频信号瞬时频率估计算法研究∗ 作者：孙微涛，张志宝，罗文峰，汪帆

引入主题链接块因子的候选链接搜索策略研究∗ 作者：周雪，刘乃文

预测Motifs算法的改进评价策略∗ 作者：张斐

基于模糊隶属的低消耗航材界定研究∗ 作者：曾翔，徐廷学，安进，李志强，李凯

基于CS-LDP和LCCP特征融合的人脸识别算法∗ 作者：汤啸，张戈，刘增力

GPS标准定位服务偏移误差的预测和改善∗ 作者：张宝军，王亚辉

基于加权非线性最小二乘的无源协同定位∗ 作者：李思奇

基于区间数学的全局优化算法及其应用探讨∗ 作者：王锦瑞

一种改进的双站时频差目标跟踪高斯和滤波算法∗ 作者：曹亚琴，秦宁宁，杨乐

基于模糊综合评价法的“走出去”企业与华人华侨合作稳定性的仿真与评价∗ 作者：梁雨欣，汪群，李卉

基于深度学习的商品评价情感分析与研究∗ 作者：刘智鹏，何中市，何伟东，张航

基于MAS的时序数据集成管理模型设计∗ 作者：李春生，张勇，张可佳，宋佳

基于句法结构分析的中文文本聚类方法研究∗ 作者：尹积栋，谢茶花，彭崧，刘红，曾昭虎

带有边界条件的城市DEM构建方法研究∗ 作者：林春华，万栋平，邵为真

基于序关系分析法的电力市场监管指标体系评价∗ 作者：陈宏，谢国荣，王迟

用于短文本关键词抽取的TTM_DMM主题翻译模型∗ 作者：王瑞，秦永彬，闫盈盈

基于LSA的历史工作票问题分类异常检测∗ 作者：张航，徐建

基于无线自组网的边境视频监控系统∗ 作者：庞泽峰，刘增力

异构云环境下能效优化的任务调度算法∗ 作者：容会

一种针对正规树模式的复杂事件查询方法∗ 作者：郑利强，廖湖声，苏航，高红雨

直觉模糊满意态模型∗ 作者：鱼先锋，万世昌

面向生产过程的异构数据服务描述语言IO-DSDL的设计与实现∗ 作者：陈彦萍，郭超，杨为惠

海量通信数据管理平台的设计与实现∗ 作者：曾伟忠

面向电力大数据的多数据流实时处理技术研究∗ 作者：孟庆强，胡牧，孙立华，郑浩泉

贝叶斯网络参数学习中的连续变量离散化方法研究∗ 作者：刘晓明，李盼池，刘显德，肖红

基于骨架的单幅图像三维建模∗ 作者：张淑军，刘文晓