面向电力大数据的多数据流实时处理技术研究∗

更新时间：2009-03-28

1 引言

随着电网终端采集装置的大范围安装与现场应用，越来越多的电网业务应用具备了数据实时采集的能力。为了充分发挥实时采集的电网数据价值，要求技术发展能够适应大规模电网数据流实时处理的新要求。然而，当前电力大数据的处理方式仍以传统的数据批处理为主，而大规模电网数据流在实时性、无序性、无限性、易失性、突发性等方面均呈现出了诸多新特征，使得基于“先存储后处理”设计理念的数据批量处理在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面面临着前所未有的新的挑战。类似于MapReduce的离线处理并不能很好地解决问题，而流计算可以很好地对大规模流动数据在不断变化的运动过程中实时地进行分析，捕捉到可能有用的信息。

《海鸥食堂》里幸惠在芬兰的食堂菜单主打饭团，因为饭团是日本的传统食物，但是更重要的是幸惠的个人原因。幸惠的母亲过世地早，家务都是她来做，父亲每年只在运动会和远足的时候做两次饭团。父亲只做有鲑鱼、梅干、鲣鱼的饭团，难看却好吃。饭团对幸惠来说，是从小持家的辛苦中的最幸福的期待，也是从小母爱缺失，父爱的以另一种形式的弥补，正是因为如此，对于海鸥食堂的菜品选择上如此坚持，不仅是因为饭团是传统的日本食物，更重要的是它给她带来母爱和父爱的满足感。

目前，国内外学者及部分互联网公司结合实时处理的应用需求，广泛开展了流计算技术研究开发。华北电力大学王德文等［1］提出一种基于Storm的状态监测数据流滑动窗口处理方法，解决了电网设备状态监测异常检测的实时处理问题；华东交通大学屈志坚等［2］提出了一种基于流计算的并行滑动窗口实时处理新方法，解决了智能配电网大规模连续监测信息的实时处理问题；山东省科学院蔡斌雷等［3］提出了一种可扩展分布式实时处理方法，解决了大规模流数据实时处理问题；中国测绘科学研究院刘纪平等［4］提出了一种大规模空间数据流式并行处理方法，将异步并行的空间计算流程与数据输入/输出过程进行重叠调度，实现了空间数据流的实时处理；数学工程与先进计算国家重点实验室李圣等［5］对当前几类典型的流计算系统进行了详细阐述，并分析了相应的系统架构、性能特点以及主要应用场景，同时展望了大数据分析处理技术的发展前景。与此同时，国内百度、阿里巴巴等互联网公司也开展了大数据实时处理技术研究与产品发布［6～7］，例如：百度发布的通用数据流计算系统DStream，针对MapReduce在高可靠、高可用、可伸缩、可扩展方面存在的局限性提出了易开发的解决方案；阿里巴巴发布了分布式实时流数据计算平台IProcess，满足任务优先级、调度、容错、流式计算等特点。

综上所述，现有研究更多的关注于流计算系统可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等技术研究，对于分布式多数据流实时处理方法还需进一步研究。因此，本文结合大规模电网数据流实时处理需求，提出一种面向多用户的电力大数据流计算服务体系，搭建了电力大数据实时流计算处理平台，并以用户电量计算作为典型应用场景对电力大数据实时流计算处理平台的时效性进行了验证。

2 电力大数据流计算服务体系

电力大数据流计算服务体系是为了屏蔽分布式多数据流处理的底层技术细节［8］，通过将高性能的数据流计算能力、具备高时效性的数据流在线分析能力、融合多类数据来源的关联分析能力、支撑流处理的资源管理及调配能力进行封装，根据应用请求和用户行为设计不同层面的流计算服务，构建面向电力运维管理人员、应用开发人员、数据分析人员、业务人员等不同用户的高层次概念模型，如图1所示。

以上一系列措施使留居伏尔加河流域的卡尔梅克人彻底失去了政治独立地位，沦为俄国政府监督下的俄罗斯帝国的一个行政区域。

广域分布的多数据流被分成数据块（Data Shard），每个数据块由一个Workers来处理。每个Workers又可能包含很多台服务器，每台服务器将负责某些模型分区的训练。模型的参数统一存储在一系列Master服务器上，也做了水平分区。由于模型可以良好地分区，每台Worker只需要访问少量的Master服务器来存取它所负责的模型分区所需的部分参数。这样，训练数据、模型、参数都可以并行处理，系统因而就具有很好的可伸缩性。同时，部分Worker宕机不会影响到其他模型训练服务器，系统的容错性也很好Worker还可进行一批多次迭代后才更新参数到参数服务器。针对多个数据流分析问题，采用ADMM进行目标函数的协同优化，实现数据流之间的信息共享与协作，充分挖掘数据中的信息。

几个星期后的一天，我放学回家，刚进家门就闻到了一股刺鼻的烟味道，就知道爸爸又抽烟了，我准备等爸爸回来后，好好收拾他一顿，结果，白忙一场——爸爸没过几天就又开始抽烟了。

pagenumber_ebook=143,pagenumber_book=988

图1 电力大数据流计算服务体系

2）面向电力数据分析的分析服务。提供数据流分析算法、模型构建与评估、模型流程发布、模型流程管理等服务。分析算法包括单数据流的在线随机优化算法和多数据流的协同分析算法；模型构建是指训练并得到数据挖掘模型，模型评估帮助用户对数据挖掘模型的准确度进行分析，用户可基于模型评估结果进行参数优化配置；模型流程发布是指将数据挖掘模型流程进行发布，为电力业务应用系统提供流式数据实时处理功能；模型流程管理用于管理平台发布的数据挖掘模型流程服务包括的版本管理、停用预测等。

3）面向电力应用开发人员的编程服务。面向电力应用开发人员提供分布式消息队列输入、流处理初始化、数据转换、计算任务分配及调度等编程接口。电力应用开发人员只需在相应的编程接口中编写相应的电力业务实时处理逻辑即可，并通过参数化设置，例如计算模式、监听源地址等，将编写的程序和配置发布到电力大数据实时流计算处理平台，实现计算任务部署应用。

4）面向电力运维管理人员的监控服务。电力大数据实时流计算处理平台提供统一实时监管服务，可定期将计算任务的数据规模、处理进度、资源占用等信息反馈给分级资源管理器，再由分级资源管理器将监控状态信息实时反馈至中心资源管理器，并以图、表等可视化的方式向电力运维管理人员展现流式计算任务各层级处理状态。

3 电力大数据流计算技术框架

多数据流的并行处理主要是由并行计算架构和并行算法模块实现，通过对各数据流处理的中间结果缓存，进行分析任务的分布及结果合并。不同的数据流所在的机器通过一定的分布式计算体系架构连接，目标函数的优化计算采用交替方向乘子

pagenumber_ebook=144,pagenumber_book=989

图2 电力大数据流计算处理框架

1）数据即时采集。利用分布式消息队列Kafka，实现多源电网数据的即时采集，形成大规模电网数据流。但是，由于多源电网数据的采集速度与实时处理框架的数据处理存在同步问题，因此，电力大数据实时流计算处理平台需要在数据采集与数据处理之间建立一个缓冲区，缓冲区的建立采用内存缓存和文件缓存相结合的方式，可以有效平衡处理性能和数据安全问题。

步骤3：最后针对Worker建立本地函数，如式（3）所示。

步骤2：其次针对Master建立全局函数，如式（2）所示。法（Alternating Direction Method of Multipliers，ADMM）并行优化算法［10～11］，实现不同机器之间的信息交互共享和同步处理，具体步骤如下：

4 电力多数据流协同计算方法

结合上述电力大数据流计算服务体系，采用当前较为成熟技术构建电力大数据实时流计算处理平台，其核心功能主要分为数据即时采集、数据实时计算、数据高效存储三部分［9］，如图2所示。

3）数据高效存储。当多数据流实时处理结果比较小、重要性不高时，可以直接存储到分布式列式数据库。该方法的缺点在于数据存储的稳定性不够，可能出现数据丢失的情况；当多数据流实时处理结果比较大、重要性较高时，可以通过分布式消息队列Kafka，再存储到分布式列式数据库。该方法的好处在于充分利用了Kafka缓存机制，能够确保数据不丢失。

随着现代社会生活节奏的变快，人们愿意用有限的时间，最便捷的方法解决就医的过程。目前国内医院通过各种途径开展了医疗业务的预约服务，体现了以患者为中心的服务宗旨［1］。实行预约输液不仅为患者提供了优质的护理服务，有效地解决了患者排队等候时间长、候诊环境差的问题，且提高了护士的护理质量和工作效率，保证用药安全，患者的满意度也明显提高［2］。2009年3月起我院开始提供预约输液服务，2010年6月设计了门诊输液预约系统并且应用于临床，效果显著，现报道如下。

以上文献主要从企业的内、外部特征进行了关于小微企业的信贷约束及信贷可获得性影响因素的研究，但未涉及银行信任可能对小微企业融资约束及信贷可获得性的影响，而与此有关的理论和实证证据正在不断丰富。

2）数据实时计算。基于电力大数据实时流计算处理平台，采用滑动窗口的方式进行多电网数据流输入，利用电力多数据流协同计算方法，进行数据流之间的异步协同优化，实现多数据流实时处理。

步骤1：首先建立电力多数据流协同计算模型，如式（1）所示。

通过xi函数本地更新及z函数全局更新，建立协作和共享优化方案，如图3所示。

金寨县红色旅游主要营销的重点放在新中国成立前该县红色旅游方面，例如各种红军旧址与名人故居，却不知还有一处六安红军邮局。六安红军邮局位于金寨县汤家汇镇老街上徐氏宗祠——赤城县邮政局遗址。在炮火硝烟中诞生的中华苏维埃赤色邮政六安红军邮局，印证着红军的足迹，是目前中国仅存两处的红军邮局之一，在中国邮政史上，是不可替代的宝贵文物。此处不仅安徽人知道的不多，即使在六安本地也鲜为人知，六安红军邮局可以与当地的文化产品结合，并在原有基础上加以创新，开发出具有特色的旅游产品。

pagenumber_ebook=145,pagenumber_book=990

图3 电力多数据流协同计算方法

1）面向电力业务人员的应用服务。依据电力业务应用特征将数据流的典型处理问题归纳为异常检测、在线转换清洗、时间窗口统计、在线模型训练等。针对不同处理类型提供可供调用的服务接口，将数据处理需求下发至分析、计算、资源监控等层面，使得用户可以直接调用封装后的处理模型进行应用部署。

5 应用验证

5.1 验证环境

基于9台相同配置服务器，构建电力大数据实时流计算处理平台。其中，3台作为分布式消息队列服务器，5台作为流计算服务器，1台作为数据存储服务器，服务器具体配置信息参见表1。

孔老一风一样刮进灵堂，他的出现，让所有人都以为现了鬼。待他长嚎一声，重重地跌倒在灵前不省人事，人们才相信：志浩回来了！

表1 服务器配置

服务器类型分布式消息队列服务器数据存储服务器流计算服务器数量3 1 5配置参数处理器2×6核，内存64G，磁盘2×300GB/6×2TB，千兆以太网处理器2×6核，内存64G，磁盘2×300GB/6×2TB，千兆以太网处理器2×6核，内存64G，磁盘2×300GB/6×2TB，千兆以太网

5.2 验证方法

基于同一测试基准，利用电力大数据实时流计算处理平台和国内某公司实时流计算平台，实时计算低压电能表电量、分析对象的小时电量、日电量、月电量、日累计电量、月累计电量，具体计算规则参见表2。

表2 计算规则

计算类别日、月、周电量计算累计电量计算计算规则优先以冻结表码计算，冻结表码缺失则采用0点表码计算每月1号表码与当天表码相减

5.3 验证结果

基于上述业务数据、处理逻辑和验证方法，对电力大数据实时流计算处理平台和国内某公司实时流计算平台进行验证并对比，其实时处理结果参见表3。

表3 实时处理结果

计算指标低压电能表小时电量低压电能表日电量低压电能表月电量低压电能表日累电量低压电能表月累电量电力大数据实时流计算处理平台（s）113.32某公司实时流计算处理平台（s）251.15 151.16294.6 209.49253.14 140.92304.3 159.67262.31

整体来看，基于同一测试基准，本文提出的电力大数据实时流计算处理平台和国内某公司的实时流计算处理平台能够在用户电量15min采集周期范围内完成相关计算处理，并且电力大数据实时流计算处理平台较国内某公司的实时流计算处理平台具有明显的性能优势，平均耗时缩减一半左右，具体情况如图4所示。

pagenumber_ebook=146,pagenumber_book=991

图4 平台实时处理结果对比分析

6 结论

本文基于电力大数据面临的实时处理需求，研究构建了面向多用户的电力大数据流计算服务体系，搭建了电力大数据实时流计算处理平台，并在实验环境下以用户电量计算为典型应用场景，基于同一测试基准对面向电力大数据的多数据流实时处理平台和国内某公司的实时流计算处理平台进行测试对比，取得预期效果。另外，考虑到电力大数据环境的复杂程度，以及电力大数据处理的实时性高要求，下一步将重点开展电力大数据多数据流的广域分布式异步协同分析方法研究，解决广域范围内电力数据流实时关联分析的同步及大尺度问题。

参考文献

［1］王德文，杨力平.智能电网大数据流式处理方法与状态监测异常检测［J］.电力系统自动化，2016，40（14）：122-128.WANG Dewen，YANG Liping.Stream Processing Method and Condition Monitoring Anomaly Detection for Big Data in Smart Grid［J］.Automation of Electric Power Systems，2016，40（14）：122-128.

［2］屈志坚，王冬.面向智能调度监测的流计算并行滑动窗口技术［J］.电网技术，2016，40（7）：2219-2226.QU Zhijian，WANG Dong.Stream Computing Parallel Sliding Window Technique for Intelligent Dispatching Monitoring［J］.Power System Technology，2016，40（7）：2219-2226.

［3］蔡斌雷，郭芹，朱世伟，等.面向大规模流数据的可扩展分布式实时处理方法［J］.青岛科技大学学报（自然科学版），2016，37（5）：584-590.CAI Binlei，GUO Qin，ZHU Shiwei，et al.A Scalable and Distributed Method forProcessing Large-ScaleData Streams in Real-Time［J］.Journal of Qingdao University of Science and Technology（Natural Science Edition），2016，37（5）：584-590.

［4］刘纪平，吴立新，董春，等.一种大规模空间数据流式并行处理方法研究［J］.测绘科学，2016，41（1）：89-93.LIU Jiping，WU Lixin，DONG Chun，et al.Study on a streaming parallel method for massive spatial data processing［J］.Science of Surveying and Mapping，2016，41（1）：89-93.

［5］李圣，黄永忠，陈海勇.大数据流式计算系统研究综述［J］.信息工程大学学报，2016，17（1）：88-92.LI Sheng，HUANG Yongzhong，CHEN Haiyong.Review of Big Data Stream Computing System Study［J］.Journal of Information Engineering University，2016，17（1）：88-92.

［6］孙大为，张广艳，郑纬民.大数据流式计算：关键技术及系统实例［J］.软件学报，2014，25（4）：839-862.SUN Dawei，ZHANG Guangyan，ZHENG Weimin.Big Data Stream Computing：Technologies and Instances［J］.Journal of Software，2014，25（4）：839-862.

［7］王春凯，孟小峰.分布式数据流关系查询技术研究［J］.计算机学报，2016，39（1）：80-96.WANG Chunkai，MENG Xiaofeng.Relational Query Techniques for Distributed Data Stream：A Survey［J］.Chinese Journal of Computers，2016，39（1）：80-96.

［8］孔祥起.基于流式计算的分布式视频处理平台研究与应用［D］.北京：北京邮电大学，2014.KONG Xiangqi.Research and Application of Distributed Video Processing Platform based on Stream Computing［D］.Beijing：Beijing University of Posts and Telecommunications，2014.

［9］朱征，于帅鹏，赵志刚，等.基于流计算的实时监控预警架构研究及应用［J］.华东电力，2014（11）：2316-2322.ZHU Zheng，YU Shuaipeng，ZHAO Zhigang，et al.Real-time Monitoring and Warning Architecture Based on Stream Computing［J］.East China Electric Power，2014（11）：2316-2322.

［10］Dean J，Ghemawat S.Map Reduce：Simplified data processing on large cluster［J］.Communications of the ACM，2008，51（1）：107-113.

［11］Goetz P T，O’Neill B.Storm blueprints：patterns for distributed real-time computation［M］.UK Packt Publishing，2014：74-123.

作者

孟庆强，胡牧，孙立华，郑浩泉

出处

《计算机与数字工程》 2018年第05期

上一篇：海量通信数据管理平台的设计与实现∗

下一篇：贝叶斯网络参数学习中的连续变量离散化方法研究∗

《计算机与数字工程》2018年第05期文献

强规划的最小期望权值求解算法∗ 作者：袁润，文中华，戴良伟，陈秋茹

基于ELM-AE的迁移学习算法∗ 作者：邓万宇，屈玉涛，张倩

基于改进词包模型的车型识别算法∗ 作者：康珮珮，于凤芹，陈莹

基于人工蜂群算法的数据分类感知研究∗ 作者：王小君

基于Rife算法的跳频信号瞬时频率估计算法研究∗ 作者：孙微涛，张志宝，罗文峰，汪帆

引入主题链接块因子的候选链接搜索策略研究∗ 作者：周雪，刘乃文

预测Motifs算法的改进评价策略∗ 作者：张斐

基于模糊隶属的低消耗航材界定研究∗ 作者：曾翔，徐廷学，安进，李志强，李凯

基于CS-LDP和LCCP特征融合的人脸识别算法∗ 作者：汤啸，张戈，刘增力

GPS标准定位服务偏移误差的预测和改善∗ 作者：张宝军，王亚辉

基于加权非线性最小二乘的无源协同定位∗ 作者：李思奇

基于区间数学的全局优化算法及其应用探讨∗ 作者：王锦瑞

一种改进的双站时频差目标跟踪高斯和滤波算法∗ 作者：曹亚琴，秦宁宁，杨乐

基于模糊综合评价法的“走出去”企业与华人华侨合作稳定性的仿真与评价∗ 作者：梁雨欣，汪群，李卉

基于深度学习的商品评价情感分析与研究∗ 作者：刘智鹏，何中市，何伟东，张航

基于MAS的时序数据集成管理模型设计∗ 作者：李春生，张勇，张可佳，宋佳

基于句法结构分析的中文文本聚类方法研究∗ 作者：尹积栋，谢茶花，彭崧，刘红，曾昭虎

带有边界条件的城市DEM构建方法研究∗ 作者：林春华，万栋平，邵为真

基于序关系分析法的电力市场监管指标体系评价∗ 作者：陈宏，谢国荣，王迟

用于短文本关键词抽取的TTM_DMM主题翻译模型∗ 作者：王瑞，秦永彬，闫盈盈

基于LSA的历史工作票问题分类异常检测∗ 作者：张航，徐建

基于无线自组网的边境视频监控系统∗ 作者：庞泽峰，刘增力

异构云环境下能效优化的任务调度算法∗ 作者：容会

一种针对正规树模式的复杂事件查询方法∗ 作者：郑利强，廖湖声，苏航，高红雨

直觉模糊满意态模型∗ 作者：鱼先锋，万世昌

面向生产过程的异构数据服务描述语言IO-DSDL的设计与实现∗ 作者：陈彦萍，郭超，杨为惠

海量通信数据管理平台的设计与实现∗ 作者：曾伟忠

面向电力大数据的多数据流实时处理技术研究∗ 作者：孟庆强，胡牧，孙立华，郑浩泉

贝叶斯网络参数学习中的连续变量离散化方法研究∗ 作者：刘晓明，李盼池，刘显德，肖红

基于骨架的单幅图像三维建模∗ 作者：张淑军，刘文晓