更全的杂志信息网

交通流缺失数据处理方法比较分析*

更新时间:2009-03-28

0 引 言

在交通工作者进行交通分析时,交通数据的采集必不可少。交通流数据对于交通状况研究可起到较大的作用,交通调查中所采集数据的质量对于交通研究工作及后续的决策存在着较大的影响。交通流数据的采集可能会受到影响,例如,地基沉陷或施工导致的检测器失灵、线圈检测器故障或者通信信号终端导致信息未能传输、人为处理错误,采集到的数据很有可能产生缺失问题。若不能够给予缺失数据足够的重视,未能正确处理缺失数据,那么可能会获得错误的研究结果,不利于后续研究工作的开展。因此如何处理交通流缺失数据是研究者所需要面对的问题,正确地处理交通流数据缺失对于相关交通研究工作具有重要意义。处理好交通流缺失数据问题,将给接下来的交通分析,交通规划与设计奠定良好基础。

目前,交通流数据缺失的处理主要是采取修复而不是删除的方法,虽然删除最为简易,但是很可能会造成有用信息的缺失,也会增加后续数据处理的难度,所以大多数的处理方法都考虑对缺失数据进行修复。交通流缺失数据的修复方法主要有3种[1]

神话故事最初来自民间,始于口头创造,经过一代又一代人的传承才得以流传至今。在神话故事中,神鬼和英雄传说为两大主体,其中蕴藏着人们对美好生活的向往,对理想的不懈追求和对英雄人物的推崇与尊敬,同时也是对现实压迫的一种反抗,因此神话故事中虽然多为不存在的事物,但其却是对现实世界最真实、最恰当的展现,以一种理想化的方式反映社会与人心,从中可以窥见人们的真实想法[1]。因此即便神话故事脱离现实,但后世的人们仍然能够了解当时的社会背景、人们所处的环境、生活方式、内心的状态和追求,极具层次性且具有深刻意义,是现实与想象的结合体。

1) 基于时间相关性的数据修复。时间相关性是指缺失数据与历史上某时刻的交通流数据具有某些程度的联系。胡伟超等[2]对传感器采集的实时交通流数据采取了错误识别、补充修复,使用短时交通流预测的方法对数据缺失情况采取了措施,其中包含了历史平均法。Smith等[3]利用历史数据并采用启发式算法和统计估算方法对缺失数据进行了处理。Tang等[4]提出了模糊C均值的插补方法与遗传算法相结合的混合方法,并与指数平滑法等方法进行了比较,最终发现该方法对于论文所采用的交通流缺失数据的修复具有良好的处理效果。Tan等[5]提出了一种基于张量的交通缺失数据补齐方法,这种方法不仅继承了基于矩阵模式的估计缺失点的插补方法的优势,而且很好地挖掘了交通数据的多维固有相关性。

2) 基于空间相关性的数据修复。空间相关性是指交通流数据在道路不同地点之间有着某些联系[6]。Xiao等[7]利用浮动车数据和控制计划对缺失数据进行修复,其中考虑了采用相邻车道的交通流数据进行修复。郭敏等[8]提出了基于灰色残差GM(1,N)模型的交通流数据修复算法,但该方法仅限于道路交叉口的数据缺失情况,并且针对检测器的布设还有一定的要求。基于空间相关性进行修复的方法包含着较好的效果,然而有时候并不能适用。例如当缺失数据附近车道或检测器采集数据也同样缺失的时候。因此这种修复方法要求空间上有某些联系的数据。

3) 基于时空相关性的数据修复。考虑到基于时间相关性或空间相关性的数据修复方法的不足,孙玲等[1]考虑相关性理论,采用了基于交通流时空相关特性的数据修复算法。并运用Vissim进行了仿真,建立了模型,利用仿真模型获得的数据对缺失数据进行了修复,并分析修复结果。金盛[9]考虑采用二元线性回归方法对缺失数据进行修复,根据不同检测器采集数据与缺失数据的相关关系建立了多个回归方程,并根据它们的计算结果选取中值作为替代值。金逸文[10]在对交通流异常数据的修复中,提出了基于曲面重构的修复方法。Li等[11]提出了以KPPCA代替PPCA的方法对缺失数据进行修复,最终发现考虑了时空相关性的KPPCA方法对于缺失数据的修复表现更好。

在鼻咽癌的治疗中,调强放射治疗是一种有效的治疗方法。调强放射治疗技术,早在上个世纪就已经产生,随着人们认识的不断提升,以及这项技术的日益发展进步,目前在很多肿瘤的放射治疗中,都采用了调强放射治疗的方法。该技术特点是,其从三维角度获取靶区形状,根据预先设定方式调整每个照射野的输出剂量,进而得到和治疗靶区适形的照射剂量三维分布,减少对正常组织的不良影响[9-10]。同时,靶区的治疗剂量能够得到提高,在减少并发症的同时,也能够使肿瘤治疗效果得到改善,患者的生活质量也能够得到提高。在他人研究中,采用这种方法治疗鼻咽癌患者,总有效率为94.22%,副反应率为11.28%,证明了该方法的有效性和安全性。

对于交通流缺失数据的具体处理方法有以下几种:胡伟超等[2]提出的历史数据法、移动平均法、指数平滑法和自适应指数平滑法;刘璐[12]分析在多尺度下路网的空间相关性和浮动车数据的时间相关性,应用多元线性回归模型。郭敏等[8]提出了基于灰色残差GM(1,N)模型的交通流数据修复算法;王晓原等[13]提出了一种基于粗集理论的缺失数据补齐方法。陈杨等[14]提出了一种基于平衡指数平滑的交通流数据预测方法。袁媛等[15]提出一种基于最小二乘支持向量机(least squares support vector machines,S-SVM)的交通流时间序列数据修补模型。目前对于各种数据修复方法的比较分析较少,笔者考虑基于时间相关性、空间相关性和时空相关性的数据修复方法。通过人工制造数据缺失,将修复完成的数据与实测数据进行对比,从而对各种修复方法的修复结果进行比较分析。

为创建会聚研究生态系统,推动会聚项目的有效开展,国家科学基金会还提出了三步走实施方案:2017年确定会聚项目的具体特征,建立评审标准并进行评审试点;2018年继续完善会聚项目评审程序,扩大会聚研究群体,考虑引入不同的会聚项目运行模式;2019年建立可持续的会聚研究计划,关注下一代会聚研究人员的培养,分析和评估会聚研究的机遇及当前不足[7]。目前,国家科学基金会将以下4点作为会聚项目的评审标准:

1 交通流缺失数据修复方法

1.1 基于时间相关性的数据修复

基于时间相关性的数据修复方法主要有2种,分别考虑历史数据或时间序列并且有着各自的优势和缺陷。基于历史数据的修复方法考虑了交通流数据存在的周期性,例如,1周或1个月内的交通流呈现出某种循环的特性。

采用多元线性回归模型进行修复,需要考虑元数,即自变量的个数。根据金逸文[10]的研究,当元数大于2之后,元数的增加对于预测结果的优化并没有更明显有效的影响,所以考虑采用二元线性回归模型对缺失数据进行修复。利用相邻检测器检测数据作为自变量,缺失数据所在检测器检测数据作为因变量,进行缺失数据插补。

在连续5年持续加大投入比重的情况下,国际大石油公司对下游的重视程度和投资在2017年达到最高水平。随着2018年上游回暖和下游升级改造逐步完成,国际大石油公司将加大对上游的关注,投资也将重向上游倾斜。

时间序列法原理如下:一方面,事物的发展具有一定的趋势,而这种趋势在数据上也可以在一定程度上表现出来,因此可以利用这种趋势对缺失的数据进行处理。另一方面,考虑到数据变化并非遵循特定的趋势,也存在着一定的随机性,可以利用历史数据进行处理[17]。存在着时间序列的交通流数据都可以采用该方法进行缺失值修复,尤其当数据缺失率较低的时候,能够获得良好的修复性能。但是当数据在某时间段或某天连续缺失的时候,该方法就无法用于数据修复。

1) 相邻检测器平均。某检测器的交通流数据缺失,可以考虑直接采用该检测器的2个相邻检测器检测数据的平均值作为替换值对缺失数据进行修补。因为它们采集的数据与缺失数据之间的联系最为密切,利用它们的平均值进行修补具有简单而高效的优点。

2) 移动平均法。在统计学上,移动平均是利用整体数据对某一部分的数据进行预测,从而获得较为完整的数据。考虑采用一次N元移动平均法对缺失数据进行补齐,见式(1)。

 

(1)

式中:Stt时间上的预测值;Xtt时间上的实际观测值;N为取平均的数据个数。

移动平均法对系统变化的反应快慢由观测值的数量N决定。当N减小时,预测系统的反应速度会变快,但是会更容易受到干扰,导致预测的精度降低。

3) 指数平滑法。指数平滑法是一种基于平滑时间序列数据的经验法则。一次指数平滑法的数学模型见式(2)。

St+1=αXt+(1-α)St=St+α(Xt-St)

(2)

式中:Stt时间上的预测值;Xtt时间上的实际观测值;α为系数,0<α<1。

St具有追溯性,可以来自St-t+1,包括所有的数据。在这个过程中,平滑常数呈指数下降,因此,被称为指数平滑。指数平滑常数是关键。平滑常数α趋于1,正向实值会以较高的速度降低到当前周期的平滑值。平滑常数α趋于0,则正向值的实际值变化就会越慢。所以,时间序列表现为比较稳定的状态时,考虑选取较小的α。而在时间序列并非表现为稳定状态时,应采取相对大的α值,从而避免太过于关注预测值。

4) 线性回归法。在统计模型中,回归分析是估计变量之间关系的一个统计过程。当关注于因变量(或“标准变量”)和自变量(或“预测因子”)它们的关系时,它包含了若干变量的建模和数据分析的技术。更具体地说,回归分析有助于明确关键数值的因变量在改变的时候,所有独立变量改变的情况。

在回归分析中,仅仅只有一个因变量并且只有1个自变量的时候,称这样的为一元回归分析。而当只有一个因变量但是却有多个自变量的时候,称其为多元回归分析。除此之外,因变量与自变量之间也存在这关系,当这种关系表现为线性关系的时候,称为线性回归分析,否则称为非线性回归分析。笔者将采用多元线性回归模型进行预测。

1.2 基于空间相关性的数据修复

本文所研究的空间相关性是指缺失数据所在检测器与相邻检测器检测数据的关系,缺失数据所在车道与相邻车道交通流数据的关系。这种方法考虑了不同的车道之间表现出的交通流数据的联系,所以能够利用其他车道的数据对缺失数据采取补齐措施。该方法避免了时间相关预测不能反映实际交通状况的弱点,提高了预测数据的实时性。同样,也可以利用类似的方法根据相邻线圈检测器的交通流数据补齐缺失数据。

1.2.1 相邻车道修复法

缺失数据为某车道某分钟的交通流数据缺失,所以可以考虑利用缺失数据所在车道相邻车道的交通流数据对缺失数据进行修复。待补齐的交通流数据与相邻车道的交通流数据之间存在一定的相关关系,所以可以利用相邻车道的交通流数据进行修复。具体来说可以考虑3种方法。

1) 相邻车道平均。这种修复方法中考虑直接采用2个相邻车道采集的车道占有率数据的平均值作为修复值,替换缺失的车道占有率数据。

2) 相邻车道回归。不同车道的交通流数据对于缺失数据所在车道交通流数据的影响程度不同,所以考虑采用多元线性回归方法进行修复。以缺失数据为因变量,相邻车道数据为自变量,对缺失数据进行修复。

3) 相邻车道加权。考虑相邻车道的车道速度以及速度与占有率的关系[19],给不同车道的数据赋予一定的权重,对缺失数据进行修补。不同车道的交通流数据对于缺失数据所在车道交通流数据的影响程度不同,而车道占有率数据与车道速度存在一定的线性关系,所以可以利用相邻车道的车道速度数据给不同车道的占有率数据赋予一定的权重,从而使不同车道的交通流数据对缺失数据所在车道的交通流数据的影响程度产生差异,这种方法对数据的修复效果会更优于仅仅利用平均值进行修复的方法。

1.2.2 相邻检测器修复法。

同一车道相邻检测断面的交通流数据之间也存在着一定的相关关系,所以可以利用相邻检测器所采集的交通流数据进行修复。

1) 历史数据法。考虑到交通流数据表现出明显的周期性,所以可以利用历史数据进行修复。历史数据法具有一定的优点,例如:简单易行,数据处理也较为快捷,所获得的结果也具有较高的可信度。但是这种方法也存在着一些问题,无法反映交通流的真实变化情况,由于历史数据是经过平滑后的,因此,也不能维持数据的一些自然波动特性,尤其无法克服随机干扰的影响[18]

2) 相邻检测器回归。利用平均值进行修复的方法虽然简单并且能够取得一定的修复效果,但是缺点在于未能考虑2个相邻检测器与缺失数据所在检测器各自之间的关系。因为2个相邻检测器的数据对于缺失数据的影响程度不同,所以考虑利用回归方法对缺失数据进行修复。

如果采用一元线性回归模型进行修复,即仅考虑了待修复数据所在检测器相关关系最大的检测器所检测的数据,这种方法忽视了不同检测器与待修复数据所在检测器的相关关系是不同的,所以应当考虑采用多元线性回归进行数据修复。多元线性回归能够综合考虑相邻多个检测器所检测到的交通流数据,避免了一元线性回归的不全面性,这样进行修复的结果也相对更好。

交通流数据从根本上而言可以被视为时间序列数据,所以,基于时间序列的各种修复方法都能够应用于缺失数据的修复[2]。时间序列方法优点在于简单并且容易操作,对于利用计算机处理大量交通流数据具有良好的效果。其缺点在于只能处理短期数据而无法处理长期数据。对于短期内的数据缺失问题,能够采用这种方法开展修复工作[16]

1.3 基于时空相关性的数据修复

上述2种数据修复方法各有自己的优势和缺陷。时间序列方法简单快速,对于大数据集比较适用,然而该方法无法预测长期数据。空间相关的方法可以反映实际交通状况的问题,但是难以反映交通流量随着时间改变并不均匀的情况。因此考虑结合2种方法,采用基于时空相关性的数据修复方法。

1.3.2 相关序列选择

2.1两组患儿的护理有效率对比 实验组患者治疗有效率为96.67%,对照组患者治疗有效率为76.67%,实验组患者治疗有效率明显高于对照组,P<0.05表示统计学有意义。见表1。

在利用检测器获得数据进行修复时,不同检测器所获得的数据对缺失数据的影响程度存在着差异,因而它们与待修复数据之间的相关关系不同,所以考虑采用多元回归模型以获得参考数据之间更高的稳定性。

1.3.1 相关系数

相关系数是量化相关性和依赖性类型的数字,意味着基本统计中2个或更多个数值之间的统计关系。对于二维随机变量(X,Y),采用相关系数R这一参数来衡量XY之间的线性关系。定义R如下。

 

(3)

式中:cov(X,Y)为2变量的协方差;σxσy为对应于变量xy的方差;为对应于变量xy的平均值。协方差能够表明2个相关变量相关的方向,也可表明它们是否存在共同变化的特性。协方差是公知数的平均值,不容易比较,因此,考虑比较2个变量的标准差,得到量纲一的量系数R,其具有以下特性:①不会被测量值的大小和计量单位等影响,可以更直观地反映2个相关变量之间的关系;②相关系数的值有一定的范围,|R|≤1。当|R|=1表明,XY的时候完全线性相关;|R|=0,不存在线性相关;当0<|R|<1,这意味着2个变量之间的线性相关程度不同。

油膜自然破裂边界位于最小油膜厚度hmin之后的某个位置φ2处,在数值求解过程中,当计算出某节点Pi,j为负时,则取为0,并以此点作为该行上破裂边界近似位置,经过ξ次迭代后,破裂边界就会逐渐向自然破裂边界逼近 [7-8]。

在基于时空相关性的数据修复方法中,不仅要考虑交通流数据的时间相关性,也要考虑交通流数据的空间相关性,即同时考虑不同日期、相邻车道和相邻检测器采集的交通流数据。交通数据是描述人、车、路之间的动态关系的数据,因此交通流数据本质上存在着时间和空间的相关性。一方面,由于空间地理位置的特性,某条路段的车辆速度与其相邻路段的车辆速度密切相关,所以便具有了空间相关性;另一方面,出行状况存在相似情况,历史数据前后时间段的相似性,便是在时间上的相关性[1]

各组血硒含量见表1。两两比较,IS手术组和非手术组血硒含量均低于CS组和对照组,且IS手术组明显低于IS非手术组,差异均有统计学意义(P < 0.05);CS组和对照组血硒含量差异无统计学意义(P > 0.05)。IS患者血硒含量与Cobb角呈负相关(r=-0.708,P < 0.05,图1)。

利用各种修复方法所修复结果的误差见表1。

1.3.3 缺失数据补齐

利用已选择数据与缺失数据的相关关系计算不同数据为了修复缺失数据的权重,并利用权重值完成对缺失数据的修复。与缺失数据时间相关、空间相关的数据为X1X2,…,Xj,时空相关数据的相关序列与缺失数据序列的相关权重mi[1]

 

(4)

计算得到缺失数据的替代值Y

 

(5)

2 实例分析

2.1 数据特征

本文选取了美国加利福尼亚州I-880高速公路作为研究对象,选取了I-880高速公路上一段长约为54 km(34 mile)的路段,其中存在71组线圈检测器,相邻检测器的平均距离约为0.8 km[20]。每组线圈检测器的采集间隔是30 s,采集了交通流量、速度和车道的占有率。线圈检测器采集的数据被完整地传输到加州公路局(Caltrans)的高速公路交通评估系统中(performance measurement system,PeMS),PeMS系统是由加州大学伯克利分校的道路智能交通实验室、加州公路局以及加州伯克利交通部门等单位共同研发管理,记录了加州高速公路上约20年的高精度交通流数据[20]

此后,国家和省市级媒体相继报道了医院无纸化建设情况,并给予了充分肯定和高度评价,提高了医院业内知名度。全国多家医院曾来院参观学习无纸化建设,并把建设经验作为样板参考。作为无纸化建设的先行者,医院相继在专业期刊上发表论文三篇,在学术领域进行推广交流。

从PeMS系统中获取的一个名为d04_text_station_raw_2010_08_31的txt文件,其中d04表示加州旧金山海湾地区,即I-880高速公路所在地区,station_raw代表采集间隔为30 s的原始交通流数据,2010_08_31代表数据采集的时间,该文件中某1行的数据为“08/31/2010 00:00:24,400006,0,0,0,3,0.0183,71,3,0.0189,71,3,0.0233,78”,它们分别代表时间,检测器编号,各车道车辆数、占有率和速度。

由于原始采集的数据存在着一定的问题,需要对原始数据进行数据筛选,剔除原始数据中的异常值。之后人工制造数据缺失,并采用多种处理方法修复缺失数据。获得了较为完整的交通流数据后,就可以对交通流数据进行修复。

2.2 指标选择

古典詩词文化是我国文学艺术宝库中的一朵艳丽的奇葩,因其本身具有的语言凝练、意境深远、短小精悍、言简意赅和朗朗上口的特点多受到幼儿的喜爱。并且从传承和发扬我国优秀传统文化的角度来说,开展古典诗词教学培养幼儿良好阅读习惯,正是顺应了这一教学要求的表现。幼儿在这一教学阶段具有很强的可塑性,所以幼儿教师应当紧紧抓住这一有利契机,让幼儿爱上诗词,爱上阅读,从小强化幼儿的文学素养。

测量值和真实值之间的差异称为误差。由于假设的缺失值为某分钟的数据,存在数值为0的数据,故放弃相对误差等指标,而选取平均绝对误差、均方误差和最大绝对误差3项指标进行比较。通过比较采用各种数据处理方法补齐后的交通流数据的各项指标,可以对各种缺失数据补齐方法做出一定的评价,寻找更加适合本文所选用交通流数据的补齐方法。

2014年3 月—2017年1月间,采用回顾性、抽样调查方法,选择118例在重庆市开州区人民医院诊治的老年膝关节周围骨肿瘤患者,纳入标准:就诊的初发未治膝关节周围骨肿瘤患者;年龄≥60岁;膝关节周围骨肿瘤诊断依据WHO标准;既往未曾治疗;具有手术指征与化疗指征;本研究得到了本院伦理委员会的批准。排除标准:精神疾病患者;合并严重心肝肾异常患者;妊娠与哺乳期妇女。根据治疗方法不同将其分为各59例患者的观察组与对照组,统计学对比基础资料,两组患者间无差异。见表1。

2.2.1 平均绝对误差

解决缺失数据的方法各有其优缺点。一个良好的数据修复方法应该能够保证修复后的数据比较符合交通流的实际状况,并且不影响变量之间的关系,修复结果与实际情况不产生大的偏差。应当对补齐后的交通流数据与真实测量得到的交通流数据进行比较,为此,需要考虑对一些指标采取计算的过程,如中位数,均值和标准差,也可比较误差、平均绝对误差、平均相对误差、均方误差、平均绝对百分比误差、均方百分比误差和精度等。

平均绝对误差(mean absolute error,MAE)是测量值与测量值算术平均值误差的绝对值的平均值。平均绝对误差可以较好地反应出修复的数值误差的真实状态。计算见式(6)。

 

(6)

式中:xtt时刻的预测值;ytt时刻的实际测量值;N是样本数量。

2.2.2 均方误差(mean squared error,MSE)

均方误差定义为测量值平方平均值的平方根。计算见式(7)。

 

(7)

式中:xtt时刻的预测值;ytt时刻的实际测量值;N为样本数量。

2.2.3 最大绝对误差

最大绝对误差(max absolute error, MAXE)是所有单个观测值与算术平均值的偏差的绝对值中的最大值。最大绝对误差计算见式(8)。

法人和其他组织统一社会信用代码制度,是商事制度改革的重要部分,使每一个法人和其他组织都拥有了一个属于自己的、全国统一的“身份证号”。GB11714-1989实施后,成为建立覆盖全面、稳定且唯一的以组织机构代码为基础的法人和其他组织统一社会信用代码制度、为政府部门间信息共享、业务协同以及信息资源整合技术支撑,同时为在全国实施“五证合一”“一照一码”登记制度改革,提供重要的技术保障。

MAXE=max|yt-xt|

(8)

式中,xtt时刻的预测值,ytt时刻的实测值。

2.3 修复结果

为了对缺失数据进行补齐,需要寻找和缺失数据相关性最大的数据来源,并根据它们之间的相关关系,对缺失数据进行补齐。所以应当寻找与缺失数据相关性最大的数据,可以从时间和空间方向出发。从时间相关性角度来看,和等待补齐的缺失数据相关关系较高的数据通常是附近时段或者距离不超过2 d和以1周为周期的最近2周的相同时段的数据;从空间相关性角度出发,最好的必然是前后2个相邻断面以及同一个检测断面上的相邻车道的数据。

2.4 修复结果评价

平均绝对误差和均方误差反映修复数据总体的修复效果,修复结果中这2项指标低的修复方法说明它们的修复效果较好,适合于修复较多数据缺失的情况。而最大绝对误差这项指标对于以上两项指标则有一定的借鉴意义,对于修复结果中最大绝对误差较大的数据修复方法,也不应考虑采用。所以在最终的评价过程中,应该综合考虑平均绝对误差、均方误差和最大绝对误差3项指标对最后各种修复方法获得的结果进行计算。

 

表1 修复结果

 

Tab.1 Repair result

  

平均绝对误差均方误差最大绝对误差历史数据0.0267708970.0337570470.682425 移动平均N=30.0310826450.0424671440.626133333移动平均N=50.0280054430.0342376630.66314移动平均N=60.0247552250.0188631080.631983333指数平滑α=0.10.0205388360.0055755530.486801759指数平滑α=0.30.0210425620.0054187450.517154706指数平滑α=0.50.0218258830.005783320.514063201指数平滑α=0.90.0241563580.0075414480.481348522线性回归0.0235356070.0092898990.5279572相邻车道均值0.0320085560.0348957130.6478相邻车道回归0.0297779240.0089005980.240687188相邻车道加权0.0248737180.0070098380.387084885相邻检测器均值0.0313097020.0431237240.678095833相邻检测器回归0.0311825220.0286553730.595446208时空相关性0.0239317680.0118525310.586113172

根据修复结果,可以得出如下结论。

1) 对于本文所采用的交通流数据,指数平滑法的修复效果较好。可见选取丢失数据最近相邻时刻的数据进行修复效果最好,优于选取相邻日期、车道或检测器的数据。

2) 历史数据法对于本文中缺失数据的修复结果较好,表明交通流数据确实存在着一定的周期性。

明清之际参与注杜的文人身份不一,层次不同,在注杜中所显露的心境理路也迥然各异。 但是,杜甫形象经典化的定型由明末清初的文人士子在注杜过程中完成,统摄于此,他们的心态虽然各有分殊,但依然表现出所受到的儒家传统乃至君子文化的深厚熏染。

3) 指数平滑法中,α取值越小,预测结果越准确,可见对于本文的数据进行修复时,不必对前次预测的误差作较大的调整。

4) 移动平均法的N取值为6时,即考虑了1周内的值对数据进行修补,故修复结果明显优于N=3或N=5的修复方法,并且优于以月为周期的修复结果。

5) 对已有数据进行回归分析优于直接取均值的修复方法,不论是对于时间序列还是基于空间相关性的修复方法。

6) 对于最终的修复结果,所得平均绝对误差和均方误差较小的修复方法,其最大绝对误差不一定小,需综合考虑3项评价指标。

7) 综合考虑3项评价指标发现利用相邻车道数据加权平均和α=0.1的指数平滑法最适用于本文所采用数据的缺失值修复。

4 结束语

笔者考虑到数据采集过程中产生的交通流数据缺失问题,采用了基于时间相关性、空间相关性和时空相关性的数据修复方法对缺失数据进行了修复,并对于修复后的数据,计算它们的平均绝对误差、均方误差和最大绝对误差3项指标,根据这3项指标对各种方法的修复结果进行了评价,最终发现利用相邻车道数据加权平均和α=0.1的指数平滑法最适用于本文所采用数据的缺失值修复。本文后续的研究考虑采用缺失率较高的数据或者其他较为复杂的修复方法进行修复,例如基于张量的数据修复方法。

参考文献

References

[1] 孙 玲,刘 浩,牛树云.考虑时空相关性的固定检测缺失数据重构算法[J].交通运输工程学报,2010(5):121-126.

SUN Ling, LIU Hao, NIU Shuyun. Missing data reconstruction algorithm of fixed detection considering spatial-temporal correlation[J]. Journal of Traffic and Transportation Engineering,2010(5):121-126. (in Chinese)

[2] 胡伟超,刘君丛,浩 哲,等.实时交通流数据缺失修复方法对比研究[C].第八届中国智能交通年会,合肥:中国智能交通协会,2013.

HU Weichao, LIU Juncong, HAO Zhe, et al. A comparative study of real-time traffic flow missing data repair methods[C]. The 8th China Intelligent Transportation Annual Conference, Hefei, China: China Intelligent Transportation System Association, 2013. (in Chinese)

[3] SMITH B, SCHERER W, CONKLIN J. Exploring imputation techniques for missing data in transportation management systems[J]. Transportation Research Record: Journal of the Transportation Research Board,2003(1836):132-142.

[4] TANG Jinjun, ZHANG Guohui, WANG Yinhai, et al. A hybrid approach to integrate fuzzy C-means based imputation method with genetic algorithm for missing traffic volume data estimation[J]. Transportation Research Part C: Emerging Technologies,2015(51):29-40.

[5] TAN Huachun, FENG Guangdong, Feng Jianshuai, et al. A tensor-based method for missing traffic data completion[J]. Transportation Research, Part C: Emerging Technologies,2013,28(3):15-27.

[6] 袁 媛,邵春福,林秋映,等.基于RBF神经网络的交通流数据修复研究[J].交通运输研究,2016,2(5):46-52.

YUAN Yuan, SHAO Chunfu, LIN Qiuying, et al. Research on traffic flow data restoration based on RBF neural network[J]. Transport Research,2016,2(5):46-52. (in Chinese)

[7] XIAO Xiao, CHEN Yusen, YUAN Yufei. Estimation of missing flow at junctions using control plan and floating car data[J]. Transportation Research Procedia,2015(10):113-123.

[8] 郭 敏,蓝金辉,李娟娟,等.基于灰色残差GM(1,N)模型的交通流数据恢复算法[J].交通运输系统工程与信息,2012(1):42-47.

GUO Min, LAN Jinhui, LI Juanjuan, et al. Traffic flow data recovery algorithm based on Grey residual GM (1, N) model[J]. Journal of Transportation Systems Engineering and Information Technology,2012,12(1):42-47. (in Chinese)

[9] 金 盛.环形线圈检测器交通数据预处理方法研究[D].长春:吉林大学,2007.

JIN Sheng. Research on traffic data preprocessing method of loop coil detector[D]. Changchun: Jilin University,2007. (in Chinese)

[10] 金逸文.城市快速路交通流数据修复方法研究[D].上海:上海交通大学,2008.

JIN Yiwen. Research on traffic flow data restoration in urban expressway[D]. Shanghai: Shanghai Jiaotong University,2008. (in Chinese)

[11] LI L, LI Y, LI Z. Efficient missing data imputing for traffic flow by considering temporal and spatial dependence[J]. Transportation Research Part C: Emerging Technologies,2013(34):108-120.

[12] 刘 璐.基于多元线性回归模型的缺失浮动车数据填充研究[D].哈尔滨:哈尔滨工业大学,2015.

LIU Lu. Research on filling of missing floating vehicles data based on multiple linear regression model[D]. Harbin: Harbin Institute of Technology,2015. (in Chinese)

[13] 王晓原,吴 芳,朴基男.基于粗集理论的交通流丢失数据补齐方法[J].交通运输工程学报,2008(108):91-94.

WANG Xiaoyuan, WU Fang, PIAO Jinan. Traffic flow missing data compensation method based on rough set theory[J]. Journal of Traffic and Transportation Engineering,2008(5):91-94,108. (in Chinese)

[14] 陈 杨,刘光勇,唐海周,等.一种基于平衡指数平滑的交通流数据预测方法[J].现代计算机(专业版),2014(20):45-48.

CHEN Yang, LIU Guangyong, TANG Haizhou, et al. A traffic flow data prediction method based on equilibrium exponential smoothing[J]. Modern Computer,2014(20):45-48. (in Chinese)

[15] 袁 媛,邵春福,林秋映,等.交通流缺失数据的修补技术探究[J].中国公共安全(学术版),2016(4):70-76.

YUAN Yuan, SHAO Chunfu, LIN Qiuyin, et al. Research on the repair technology of traffic flow missing data[J]. China Public Security(Academy Edition),2016(4):70-76. (in Chinese)

[16] 孙 亚.ITS采集交通信息缺失数据修复策略及模型研究[J].黑龙江科技信息,2013(15):34-36.

SUN Ya. Missing data repair strategy and model research of traffic information collected by ITS[J]. Heilongjiang Science and Technology Information,2013(15):34-36. (in Chinese)

[17] 王 炜,陆 建.道路交通工程系统分析方法[M].2版.北京:人民交通出版社,2011.

WANG Wei, LU Jian. Road traffic engineering system analysis method[M].2nd ed. Beijing: People′s Communications Press,2011. (in Chinese)

[18] 徐健锐,李星毅,施化吉,等.处理缺失数据的短时交通流预测模型[J].计算机应用,2010,30(4):1117-1120,1124.

XU Jianrui, LI Xingyi, SHI Huaji, et al. Short time traffic flow prediction model for processing missing data[J]. Journal of Computer Applications,2010,30(4):1117-1120,1124. (in Chinese)

[19] 王英会.高速公路交通流异常数据识别及修复方法研究[D].北京:北京交通大学,2015.

WANG Yinghui. Research on abnormal data identification and repair methods of highway traffic flow[D]. Beijing: Beijing Jiaotong University,2015. (in Chinese)

[20] 徐铖铖.高速公路交通流运行状态与交通安全关系研究[D].南京:东南大学,2014.

XU Chengcheng. Research on the relationship between traffic flow status and traffic safety of freeway traffic flow[D]. Nanjing: Southeast University, 2014. (in Chinese)

 
孟鸿程,陈淑燕
《交通信息与安全》 2018年第02期
《交通信息与安全》2018年第02期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息