更全的杂志信息网

基于移动通信大数据的城市人口空间分布统计

更新时间:2009-03-28

0 引 言

国外使用GIS技术对人口空间分布的应用研究始于20世纪70年代,其中以美国最为典型。美国于1970-1980年人口普查率先采用了自动化技术,发展了一套地理基础文件,独立坐标地图编码系统[1]。Lanscan基于土地覆盖、坡度、道路、夜间灯光和城市密度等地理因子计算回归方程系数,把人口统计数据空间化到1 km×1 km的格网上[2]。栅格模拟技术在连续的规则格网上描述人口的分布,它的优点是数据被记录在高分辨率的规则栅格上,提供了相对更加详细和精确的人口分布数据[3]

我国的人口空间分布统计研究始于1957年。2003年廖顺宝等选择一系列影响人口分布的因子,应用多源数据融合技术,生成模拟青藏高原人口分布的1 km×1 km栅格表面[3]

已有研究中存在的主要不足:1)用自然和社会经济特征综合估计法来间接统计人口密度分布,数据来源不能客观直接地反映人口数据,人口统计数据不够精确,无法提供城市规划、交通、环保等部门需要的更加精确的人口分布数据;2)GIS分析没有充分利用大数据处理技术,统计方法、手段和技术没有及时更新,人口统计既耗时成本又高。

用户用手机发送短信、通话、上网等行为时,可获取用户的时空信息。根据移动通信原理,网络需进行小区切换和周期性位置更新,这种定期产生的大量位置更新信息就形成了位置和轨迹数据[4]。通过对长期不规则采样的手机通话位置数据进行分析和挖掘,采用大数据处理架构,结合ArcGIS强大的地图制作、空间分析能力,可高效开展城市人口的空间分布统计。

利用手机大数据资源,在ArcGIS中建立一套城市人口空间分布统计模型:地图信息模型、人口密度模型、职住地分布模型和报警电话分布模型等。基于ArcGIS和Hadoop集成环境构建城市人口统计平台,实现大数据的空间相关性分析及其数据的可视化表达,分析城市人口的数量密度分布、职住地分布、报警电话热点分布等,为城市人口服务管理、公共安全和经济发展提供决策支持。

1 手机定位数据的采集

手机定位技术是一种不依赖于GPS、具有广阔应用前景的技术,主要包括初始蜂窝小区(Cell of Origin,COO)定位技术、TOA(Time of Arrival,TOA)定位技术、七号信令定位技术等[5]。本文实验采用COO定位技术获取手机用户通话时的位置数据。

ArcGIS通过Geometry API实现与Hadoop交互,通过Geometry API将数据传送到Hadoop上之后,大量的分析工作就交给Hadoop来完成。在ArcGIS中通过Model Builder构建任务模型以便于自动化地执行工作流。

拥有悠久古老历史的城市并不少,可西安却是最有历史感的,无处不在的古意古韵不经意地就散发出一种让游人肃然起敬的气质。悠久、博大、古朴、典雅,有很多诸如此类的形容词都可加在西安的头上,可如果只能用一个词概括,唯有厚重这个词最适合不过的了。西安太厚重,甚至厚重得失去了感觉:它见证了文王创建都城,秦始皇一统天下,中国历史上的第一次盛世“文景之治”,卫青、霍去病马踏匈奴,唐太宗的贞观之治,中国第一个女皇帝武则天的登基,王昭君的出塞和亲;这里萦绕着汉赋唐诗的吟咏唱和,回响过金戈铁马的杀伐号角,也演绎过霓裳羽衣的轻歌曼舞……

基于COO定位技术的手机通话位置数据记录了手机用户主被叫时连接的基站的位置信息,包括用户唯一识别号、通话时间、基站经纬度等数据。为保护用户隐私,剔除手机号码信息,用户ID用加密后的IMSI号表示。移动用户位置数据格式如表1所示。

表1 移动用户位置数据格式

  

字段名称字段含义用户ID加密后的IMSI号时间通话发生的时间时长通话时长经度X基站经度X纬度Y基站纬度Y主被叫主叫或被叫区号手机归属地所在区号

2 城市人口空间分布统计模型

利用手机通信过程中产生的用户位置信息开展城市人口空间分布统计,在城市地图网格化的基础上,以相关算法或模型为基础,建立地图信息模型、人口密度模型、职住地分布模型、报警电话分布模型。

2.1 地图信息模型

根据手机通信时的基站地理坐标,使用ArcGIS软件将其转换为点图层Station[5]。根据这些基站点数据构建Voronoi图(泰森多边形)来表示手机基站的覆盖范围,Voronoi图是由一组两相邻的基站点连线的垂直平分线连接组成的[5]

先构建Delaunay三角形,Delaunay三角形外接圆的圆心是Voronoi多边形的顶点;然后依次连接Delaunay三角形的外接圆圆心即可得到Voronoi图[5]。Voronoi图具有以下3个特征:1)每个Voronoi图中仅有一个基站点;2)Voronoi图内的点到相应基站点的距离最近;3)位于Voronoi图边上的点到其两边的基站点的距离相等。以上这些特征适合于表示基站信号的覆盖范围,也能反应基站之间的拓扑关系[5]。所以,可用Voronoi多边形替代蜂窝小区,作为实际基站的覆盖小区。

对杭州市地图矢量数据进行地图匹配及几何校正。包括:1)杭州市行政区划图;2)杭州分街道地图;3)杭州市交通小区数据;4)杭州市居民小区分布图等。对GIS矢量数据图层进行坐标转换,使得手机定位数据坐标系与地图矢量数据一致[5]

按上述方法将城市所辖区域划分成诸多泰森多边形网格,如图1所示。再根据实际情况,将数个、甚至是数十个网格合并成一个工作网格。按行政区域统计人口时,可合并成社区-街道-区三级网格,也可按火车站、大型商场、风景区等人口聚集地来合并网格,以满足不同人口统计的需要。

  

图1 基站相对应的泰森多边形图层

2.2 人口密度模型

针对手机通话时的位置数据,按照用户ID进行分组,对样本中的所有用户数据按照用户ID以及时间进行排序[5]。合并每个用户ID连续1小时内的通话记录,将数据整理为每个手机用户一小时一次的基站位置记录[5]。在此基础上根据统计时段内手机连接频率最高的基站位置所属的Voronoi网格进行人口数量统计。

依据圈层结构理论通过圈层人口密度的计算来分析人口密度与城市中心距离之间的关系,反映城市人口的空间分布特征。

首先,选择城市中心,武林广场位于杭州市区几何中心,是杭州市最繁华的商业贸易地段,人口密度最高,所以选择武林广场为圈层密度中心。

落实以气象预警信号为先导的气象灾害联动工作机制,制定出台《桐庐县强对流天气部门、乡镇应急联动响应机制》,规范气象预警信息发布与传播的流程和方式,建立气象灾害分区预警发布平台和工作流程,实施推进气象灾害全媒体发布工作,切实加强突发强天气的应对工作。

其次,将城市划分为内圈层(0~5 km)、中圈层(5~20 km)及外圈层(>20 km)。对应的圈层半径分别为:0.5 km、1 km、2 km,则第i个圈层距密度中心的距离ri可按公式(1)计算:

依据墨非定律,当我右手放开吊环的瞬间,公车就会紧急刹车,然后我会扑倒站在我前方看似营养不良的女高中生。

ri=(ri-1-ri-2)+ri-1

随着人们生活水平的上升,低脂肪、高蛋白的水产品在消费者膳食结构中的比重日益提高。然而,鲜活水产品的收获期相对集中,捕获后由于自身酶解反应使得产品形态和色泽发生变化,在自溶后期,一些有害物质如组胺、硫化氢和三甲胺(TMA)等的生成使得水产品丧失了商品价值和食用性[1]。因此,水产品的保鲜问题一直受到国内外研究人员的广泛重视。

(1)

如果第i个圈层穿越n个街道或乡镇,则该圈层的人口密度可按公式(2)计算:

 

(2)

式(2)中,ρi为第i个圈层的人口密度;Sn为穿越街道或乡镇的面积;ρn为该街道或乡镇的人口密度[7]

应用层:通过ArcGIS中的Cluster and Outlier Analysis、Kernel Density、Hot Spot Analysis等工具进行分析,并以可视化方式呈现城市人口的数量密度分布、职住地分布、报警电话热点分布等。

2.3 职住地分布模型

职住地分析的关键是根据居家和工作不同的时段内用户不同的通话特征通过聚类分析识别出工作地和居住地。空间聚类分析由经纬度组成的二维向量,是多维空间的一个“点”。聚类分析的结果是将这些“点”分成不同“簇”,并且尽可能地将相似性较大的“点”归为一簇[6],形成职住地通话用户的集聚区域。

数据源:电信运营商的各类异构原始通信数据,包括语音信息、用户信息、基站参数等,需要进行数据清洗和转换。首先要屏蔽用户隐私信息,剔除手机号码信息,用户ID用加密后的IMSI号表示。其次要筛选出关键字段[11]

DBSCAN算法有2个主要参数:

ArcGIS中的聚类和异常分析工具(Cluster and Outlier Analysis)计算全局或局部Moran’s I,它可以评估人口的分布是聚集分布、离散分布还是随机分布。Moran’s I的值在[-1,1]之间,Moran’s I接近于1,表示空间正相关,即高高相邻或低低相邻;Moran’s I接近于-1,表示空间负相关,即高低相邻或低高相邻;Moran’s I接近于0,表示空间无相关性,即随机分布。

1)E邻域。给定对象半径Eps内的邻域称为该对象的Eps邻域[6]。对象半径Eps值取移动基站的覆盖半径,则半径为E的范围内定位点可视为一簇。

2)核心对象。如果对象的Eps邻域至少包含最小数目MinPts的对象,则称该对象为核心对象。MinPts代表用户最少出现的次数(或阈值),工作地或居住地用户出现的天数至少要达到整个统计时段的1/2。如果用户出现天数超过该阈值,则该用户为核心对象。

作为艺术元素当中不可或缺的一个部分——青花纹样,被越来越多的设计师吸收借鉴,并将其与现代设计元素结合在一起,以丰富它新的生命力和内涵。这些装饰风格和文化内涵都不断在现代生活中被广泛体现。现代陶瓷设计中涵盖了日常生活中的众多领域,例如:建筑、卫生以及大众印象中最为普遍的室内陈设艺术。在陈设瓷中的应用十分丰富,融入日常生活当中,在日益发展的新文化结构中逐渐延续自己的审美风格,所以其重要性是不言而喻的。

某用户夜间睡眠时段定位点与工作时段定位点如图2所示。

  

图2 某用户夜间睡眠时段定位点与工作时段定位点

2.4 报警电话分布模型

采用核密度法分析报警电话在空间分布的总体态势,即报警电话点集数据在几何分布上的特点。核密度估算是在每个报警电话的基站位置上设定相应的核密度函数,然后用该区域内所有报警电话的密度函数来体现报警电话的空间分布规律。假设空间上分布的报警电话X1,X2,…,Xn为单元变量X的独立同分布的一个样本,则X所服从分布的密度函数f(X)的核密度估计为:

 

(3)

其中,K(u)为核函数,用高斯核函数表示;h为窗口宽度,对估计结果有较大影响。目前对h的取值还没有明确的定义,需要进行多次试验合理进行选择。

通过挖掘110、119、122等报警电话的空间分布,分析公安、消防、交通等安全事故的高发区域和时段,可按月、季度、年度生成各类安全事故的统计报表,以饼图、直方图等多种形式在地图上表现。

3 基于ArcGIS和Hadoop集成环境的城市人口空间统计平台

COO定位是一种单基站定位技术,它将移动设备所属基站的坐标视为移动设备的坐标,这种定位方法的精度直接取决于基站覆盖的范围。在基站密集的城市中心区域,小区划分得很小,定位精度可以达到50 m以内;越靠近城市边缘,基站分布越分散,小区半径越大,定位精度也会扩大到几公里。

为满足对海量异构移动通信数据的处理要求,构建5层处理架构,自底往上分别是:数据源、计算层、存储层、模型层和应用层,如图3所示。

翎毛所谓是以鸟兽作为题材翅膀尖上的毛。即大自然中山野走兽,因其大部分有翎、毛等结构表象特征,则称为翎毛。宋带郭若虚 《图画见闻志?论制作楷模》中有写道:“画翎毛者,必须知识诸禽形体名件”。而新彩作为陶瓷手法中装饰方法之一,其色系多样,表现力强等特点,结合走兽题材进行绘制。形成别具一格的特色。

  

图3 基于ArcGIS和Hadoop集成环境的处理架构

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是基于密度的聚类算法。在整个样本空间点中,各类目标簇是由一群稠密样本点组成的,这些稠密样本点被称为噪声的低密度区域分割,过滤低密度区域,发现稠密样本点。与其他聚类算法相比,DBSCAN不受聚类数目的限制,更适合聚类计算中有多个居住地或工作地的情况[6]

计算层:开发高速数据交换组件、数据同步组件等,完成高效ETL处理,并能准确匹配到上层定义好的各类计算模型,进行不同的Map/Reduce计算。

存储层:ArcGIS支持PostgreSQL开源数据库。构建基于PostgreSQL的分布式关系型数据库集群和NoSQL存储集群,满足结构化和非结构化数据存储[12]

综上所述,铣床上加工多孔专用夹具的设计与研究是在铣弧形面结构设计夹具的基础上对此前夹具的重点与难点和不足做了更加详细的分析,本夹具在原有夹具基础上对螺杆作中间传力元件的夹紧机构时、定位夹紧可靠、实用性能好。其螺旋升角不大,螺旋定位夹紧机构的自锁性能和可操作性能好,夹紧力和夹紧行程都符合设计要求,是手动专用夹具上最常用的一种设计方法,该设计对其它同类专用夹具设计具有一定的参考价值。

模型层:在该层ArcGIS通过Geometry API实现与Hadoop交互,ArcGIS可以从Hadoop的hdfs文件系统中获取数据,并将数据转化为Esri中的几何对象、要素等空间数据进行空间分析。在ArcGIS的建模工具中构建各类模型,并屏蔽存储层的异构模块,向前段应用提供统一的接口。

“Y说,你爱曲。你爱她为什么要找我呢?你跟了我为什么还要跟她睡觉呢?S说,不是的,我不爱她。Y哭了,那你也不爱我,你现在连我的身体也没有感觉了。我才三十出头,却感到更年期提前了。我整天昏头昏脑,浑身乏力,晚上老失眠……S无法理解Y。无法理解这个要死要活想嫁给他的女人,对他冷嘲热讽,怨声载道。他决定要离开了。而他本来想着跟曲离婚了,立马跟Y结婚的。但三个多月过去了,没有人提这件事,Y不算是他的妻子,Y放弃了跟他结婚的权利。不结婚就没有收尾。S想过趁着Y上班时留一张纸条,就说他走了,永远不会再回来。但他终究什么也没做。”

4 结果及分析

本文实验选取中国移动杭州分公司2017-04至2017-06之间的移动通话数据,根据2017年8月10日公布的《中国移动2017年中期业绩报告》,中国移动用户8.35亿,市场份额占比61.53%,通过该比例可推算出总的人口数量。

4.1 人口密度分析

表3列出了主要变量之间的相关系数。独立董事海外背景OSEAS与现金持有水平CASH显著正相关,说明了企业的独立董事一旦具备了海外背景,那么企业现金持有水平相对会升高。 其他变量 SCALE、LEV、NCF、NWC、SEP、INV、STATE之间的相关系数大多都在0.5以下,说明变量关系中多重共线性问题并不突出。

由于客观条件和自身理论知识、研究视野和实际研究水平的有限,在本研究中还存在很多的不足。每一种训练方法也不可能是完美的,这个功能肌力训练带操作的效果也是因人而异,因水平而异。

该工具可使用输入要素类中每个要素的以下属性创建一个新的输出要素类:Local Moran’s I index、z-score、p-value和cluster/outlier type (COType)。如果要素具有较高的z-score,表示和相邻要素有相似值,如果属性值高于平均值,则COType字段是HH,代表具有统计显著性的高值聚类;如果属性值小于平均值,则COType字段是LL,代表具有统计显著性的低值聚类。如果一个要素具有较低的z-score(如<-1.96),则表示空间异常,如果属性值高于周围对象的属性值,则COType字段值为HL,反之COType字段值为LH。

根据移动通话数据分析得到的杭州市人口密度空间分布如图4所示。市区人口密度Moran’s I值为0.46724,z-score得分为9.450127,人口分布的总体特征表现为集聚。杭州人口密度的高值集聚涵盖滨江、上城、下城全境和江干、拱墅、西湖的部分区域;余杭、萧山区的人口分布呈现离散特征,仅在临浦、瓜沥、义蓬、临平、仓前、塘栖等表现为集聚。

潼关位于陕西省关中东端,雄踞秦、晋、豫三省的要冲之地,是古代兵家必争之地,刘锦藻在《清朝续文献通考》中就对此做出了充分的说明:“昔汉祖破秦由此入咸阳朝邑”、“昔黄巢从禁坑破关,明逆闯李自成入陕亦由此禁坑”[1],这些记载都充分地反映出了其地理位置的关键所在。

  

图4 杭州市人口密度空间分布图

  

图5 杭州市人口密度圈层分布图

杭州市人口密度圈层分布如图5所示。“内圈层”人口分布高度集聚,密度极值为17946人/km2,并伴随距密度中心距离的增加递减至174人/km2,比值为103,空间规律符合Smeed模型,体现“核心-边缘”的空间特征。

4.2 职住地聚集分布分析

为了数据的准确性,以3个月(2017-04至2017-06)为一个数据统计周期,居住地用户出现时间设为23点至次日6点,工作地用户出现时间设为9点至17点。这3个月共91天,工作日61天,DBSCAN密度聚类算法中居住地、工作地时间阈值分别取46天、31天。

引理 1 若系统(1)的全局领导者1匀速运动,则对任意的t>0,有E‖vi(t)‖≤D(1≤i≤N),其中D是一个大于0的常数。

杭州市居住地分布如图6所示。由图6可知,杭州现已形成3大居住圈:中心居住圈,以老城区为主;次中心居住圈,包括江南城、临平城和下沙城;郊区居住圈,包括塘栖、余杭、良渚、临浦、瓜沥、义蓬等外围组团。

  

图6 杭州市居住地分布图

杭州市工作地分布如图7所示。工作地主要分布在杭州经济技术开发区、萧山经济技术开发区、余杭经济技术开发区、高新开发区、未来科技城等开发区以及武林湖滨、钱江新城、城北运河等大型商圈。

  

图7 杭州市工作地分布图

4.3 报警电话热点分布

核密度估算是在每个报警电话所在基站的空间位置上设定一个核密度函数,然后用该区域内所有报警电话的密度函数来体现报警电话的空间分布规律。此方法分析报警电话的热点分布不仅可以识别罪案高发区域,还可以形成一个罪案发生密度由高到低连续变化的区域。核密度估算关键是窗口宽度h值的选择。经多次试验将窗宽h设为1 km。

以2017-04至2017-06这3个月中拨打的110报警电话为样本,采用核密度函数对110报警电话数量及分布进行分析,结果如图8所示。

  

图8 110报警电话核密度估算

3个月共接到报警电话17296起,从报警地点来看,萧山区报警电话次数最多,其次是拱墅区,报警电话次数最少的是下城区和西湖区。拱墅上塘、江干闸弄口、下城东新、江干城东是3个月里报警次数最多的区域。

68例患者经超声心动图检查均查出节段性室壁收缩运动障碍,其中检出急性心肌梗死54例(79.41%),其中EKG与典型ST段抬高36例,EKG表现正常3例,完全性左束支传导阻滞7例,非ST段抬高的患者且有轻微的ST-T变化8例;心尖部室壁瘤3例,室间隔穿孔1例,心肌梗死并发症心脏破裂1例,主动脉夹层动脉瘤1例,肥厚型心肌病2例,高血压性心脏病4例,急性肺动脉栓塞2例。

通过报警电话的热点分布分析可以反映罪案发生的聚集状况,有助于警力资源的合理配置,也可提高公众在相关区域活动时的警觉性。

5 结束语

通过与杭州市2010年第6次全国人口普查和杭州市2015年全国1%人口抽样调查数据分别进行分析对比,上述关于杭州市人口密度分布、居住地和工作地分布情况与普查数据分析结果基本一致;报警电话分布情况与杭州市公安部门发布的治安通报结果相符。说明上述模型可用于移动通信大数据下的城市人口空间分布统计,可应用于城市规划、交通疏导、公共安全等众多领域,应用前景广泛。下一步将通过分析职住比、内部通勤比、内向通勤比等指标对杭州市的职住平衡状态进行评估,为杭州市城市发展规划提供空间大数据服务。

参考文献

[1] 许亮. GIS支持下的武汉城市圈人口空间分布与预测研究[EB/OL]. http://www.docin.com/p-72961833.html, 2010-08-22.

[2] 王雪梅,李新,马明国. 基于遥感和GIS的人口数据空间化研究进展及案例分析[J]. 遥感技术与应用, 2004,19(5):320-327.

[3] 陈学刚,杨兆萍. 基于GIS的乌鲁木齐市人口空间分布模拟与变化规律研究[J]. 干旱区资源与环境, 2008,22(4):12-16.

[4] 王峰,唐美华. 基于移动通信大数据的城市人口管理解决方案[J]. 移动通信, 2014,23(13):38-41.

[5] 许宁. 基于手机定位数据的居民职住地分布特征研究[D]. 长沙:中南大学, 2014.

[6] 高硕,王铭杨,鲁旭,等. 基于大数据的城市居民职住锚点计算方法研究[J]. 西部人居环境学刊, 2017,32(1):31-37.

[7] 马淇蔚,李咏华. 2000-2010年杭州市人口分布格局时空演变[J]. 经济地理, 2016,36(8):87-92.

[8] 国家统计局. 2016年行政区划代码[EB/OL]. http://www.docin.com/p-72961833.html, 2017-05-16.

[9] CSDN. 基站定位LAC,CID转经纬度[EB/OL]. http://blog.csdn.net/zqrhzyj/article/details/63301690, 2017-03-18.

[10] OneMap. ArcGIS的大数据挖掘和并行处理[EB/OL]. http://blog.sina.com.cn/s/blog_ba3ace5f0101oqla.html, 2013-11-07.

[11] 周天绮,严奥霞. 基于移动通信大数据的流动人口统计中Hadoop的应用研究[J]. 软件导刊, 2015,14(3):36-38.

[12] 周天绮. 基于移动通信数据的流动人口统计中的Hive优化[J]. 软件工程师, 2015,18(7):58-60.

[13] 水真香. ArcGIS统计工具介绍[EB/OL]. http://www.360doc.com/content/14/0721/09/3046928_395863623.shtml, 2014-07-21.

[14] 一凡. 空间自相关分析[EB/OL]. http://blog.sina.com.cn/s/blog_6c6780330101e2ad.html,2014-04-15.

[15] CSDN. 空间点数据分析与ArcGIS[EB/OL]. http://blog.csdn.net/allenlu2008/article/details/46273425, 2015-05-30.

[16] 蹦哒. ArcGIS空间统计分析[EB/OL]. http://blog.sina.com.cn/s/blog_8db49f0e0102wwpc.html, 2016-07-17.

[17] whwyy21c. ArcGIS10中有关空间统计分析的数学公式原理及工具操作汇总资料[EB/OL]. http://wenku.baidu.com/view/ea8d3d55ad02de80d4d840c8.html, 2012-04-10.

 
周天绮
《计算机与现代化》 2018年第05期
《计算机与现代化》2018年第05期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息