用于癌症亚分型的生物医学大数据谱聚类技术研究
生物医学大数据中对癌症数据亚分型研究具有重要的现实意义,癌症亚分型是在治疗中将癌症分为不同的亚型,针对不同的亚型制定不同的治疗方案,癌症亚分型的准确度和精度对癌症治疗有着较大的影响[1-2]。而在癌症亚分型中关键技术为不同亚型的核标识的选择尤为重要,精确的核标识选择会得到较好的分型结果。本文采用大数据谱聚类技术[3]构造核标识集,基于核标识集采用贝叶斯分类方法实现癌症数据亚分型。其中,为了提高贝叶斯分类的性能采用猫群优化算法[4]对贝叶斯分类技术进行了优化。
1 亚分型分类模型
图1是朴素贝叶斯分类模型。
图1 朴素贝叶斯分类模型
联合概率见公式(1)。
令 D={A1=a1,…,Ai=ai,…,An=an,C=cj}(i为[1,n],j为[1,m])为训练集,其中A是属性变量,C是类属变量,ai是Ai属性值,测试样本X。
证法1 不妨设a>0,b<0,c>0.如图1,在平面直角坐标系中,确定两个固定点以线段AB为直径作⊙P,设⊙P与x轴相交于点C和点D,与y轴相交于点E,作PF⊥x轴,BG⊥x轴,垂足分别为F、G,连结AC、BC、AD、BD和BE.
基于猫群优化算法的改进策略,将公式(1)作为猫群优化算法的适应度函数,猫群算法的优化策略有寻觅机制和追尾机制,其中寻觅机制为环顾四周寻找目标,追尾机制为追随目标行进,猫群优化算法流程图见图2所示。
通过计算反射波振幅随其入射角θ的变化参数,估算界面上的AVO属性参数(AVO截距P和AVO斜率G)、泊松比和流体因子等多种AVO属性体,识别平面上、空间上储层岩性和预测油气分布。
2 亚分型分类过程
用贝叶斯定律,最大后验概率为
就测试样本来说,P(X)是固定的。所以
在每个亚型的分类中均包括正例集(是该亚型)和反例集(不是该亚型)。训练集数据特征属性模型的建立:从癌症核标识的一级、二级、三级、四级这四个方面展开(其中四个级别的核标识集由谱聚类技术获得)。基于训练集和特征属性模型建立贝叶斯分类器,对建立的贝叶斯分类器的分类精度进行评测,为了使贝叶斯分类器的判决误差降到最低,采用猫群优化算法对贝叶斯分类器进行优化。实验部分拟采取方法:实验集成开发环境Matlab仿真实现,数据库采用MySQL实现。
亚分型分类流程如图3所示。
3 性能分析
3.1 实验过程
因此对于样本 X={3,+++,##,6}。
表1 先验概率和条件概率
结果I1 I2 I3 I4 1 2 3 + ++ +++ # ## 6 6+0.222 0.444 0.333 0.222 0.444 0.333 0.333 0.667 0.667 0.333 是 0.643 0.6 0 0.4 0.4 0.4 0.2 0.8 0.4 0.4 0.6 否 0.357
实验针对亚分型中第一个分型(I分型)展开。核标识集的特征值选择为I1、I2、I3 和 I4。 X={1or2or3,+or++or+++,#or##,6or6+},用贝叶斯分类器进行分类,训练样本的四个属性:训练样本是否合格 C ={是 ,否}。
和其它旅游模式和游客运输方式相比,邮轮旅游产业在世界范围内的发展仍处于早期阶段,其市场渗透率较低(与美国3.5%、澳洲3.4%的渗透率相比,中国目前的邮轮消费渗透率不足0.05%)。主要原因集中在地理环境制约和通关政策的局限性等方面。在邮轮运营的众多程序中,邮轮通关业务作为一个重要环节,在邮轮产业的发展中发挥着至关重要的作用。在中国,邮轮产业的发展主要围绕亚太地区,以本土游客和亚洲航线为主,和欧美等邮轮产业较为发达的地区相比,受地理条件、政治因素的影响,有着一定的局限性、特殊性和独立性。另外,邮轮产业结构单一、缺乏灵活性、配套设施不健全、沿海地区旅游资源配置不合理也限制了中国邮轮产业的发展。
赣南灯彩又称为花灯,是元宵节最常见的活动,不同于其他的灯彩歌舞,赣南灯彩具有浓厚的地域特色,不仅有独特的灯饰艺术,还能够创作独特的舞蹈。这一舞蹈形式通常出现在一年的起始阶段,寓意未来一年内的顺利。文化方面,赣南灯彩歌舞的练习帮助练舞蹈者改善体型,提高身体协调性能和健康指数,也净化舞者心灵,是一种具有极高实用价值的舞蹈。在赣南灯彩歌舞中,舞蹈中体现的精神正是人类的包容、自强等精神,因此灯彩歌舞对于人的性格塑造具有积极作用。
图2 猫群优化算法流程图
图3 亚分型分类流程图
3.2 实验结果
此外将本文算法(A)、K-mean聚类(B)、无优化(C)三个算法进行了对比,对比分别从亚分型的准确度、灵敏度和特异性展开,实验结果如图4、图5和图6所示。
图4 准确度对比
图5 灵敏度对比
图6 特异度对比
4 结论
本文采用谱聚类技术获得了癌症亚分型的核标识集,在核标识集上采用贝叶斯分类实现了亚型的分类,其中采用猫群算法对贝叶斯分类进行了优化,最终实现了精确度较高的癌症亚分型方法,该方法具有很高的推广价值。
参考文献
[1]陆莉莉,张永潘,谈海宇,季一木.大数据分类挖掘算法及其概念漂移应用研究[J].计算机科学与探索,2016,10(12):1683-1692.
[2]耿丽娟,李星毅.用于大数据分类的KNN算法研究[J].计算机应用研究,2014,31(5):1342-1344,1373.
[3]王英博,马菁,宋晓倩.基于最优投影的半监督谱聚类算法[J].计算机应用研究,2018,35(1):97-100.
[4]杜晓昕,张剑飞,郭媛,金梅.基于柯西-高斯动态消减变异的果蝇优化算法研究[J].计算机工程与科学,2016,38(6):1171-1176.