更全的杂志信息网

地质大数据体系建设初探

更新时间:2009-03-28

国家基础地质数据是地质调查信息化建设的基础,是反映国家水文环境资源、地质矿产资源、航空物探遥感资源等的现实状况、利用情况、规划布局的主要载体,是地质大调查的核心体现,包括地、物、化、遥等数据 [1-2]

目前,国家地质资料没有形成一个系统、完整的国家地质资料总体,条块分割严重,管理分散,存在“数据孤岛”现象,且数据格式各不相同,主要包括文档、图片、图件、数据库、音频、视频、表格等结构化、半结构化、非结构化数据。地质大数据是大数据时代的变革产物,具有空间性、时间性、综合性、海量性、多源性等特点,大数据特有的存储管理技术,可以满足各种地质数据的应用需求,建设全国地质资料大数据环境。

当三喜突然扑出将那只呆头呆脑的肥大野兔死死摁住的时候,他心里兴奋的不是如何将它做成清蒸、红烧或者烹炒的种种兔肉,与全家人一番大快朵颐,而是心里迅速就坚定了一个信念:我必须用枪来把它射杀,对,就是用枪,而不是其它的任何一种方式,以此给全村人一个说法:我三喜不但会打枪,而且枪法相当相当的准。不是说眼见为实吗,那你们就好好看看吧,这,就是我三喜打死的兔子!

一、大数据处理流程

大数据来源广泛,数据类型和应用处理方法也千差万别,但是总的处理流程是一致的。处理流程基本可划分为:数据采集、数据处理与集成、数据分析和数据解释4个阶段,如图1所示。

  

图1 大数据处理基本流程

大数据处理流程中最基础的一步是数据采集,智能手机以及平板电脑等的出现也加速了信息流通速度和采集速度,目前常用的数据采集手段有射频识别(RFID)[3]、传感器收取、条形码技术以及数据检索分类工具等。

地质云是创新“地质调查+互联网”工作模式的基础平台,是大数据的支撑平台,基于地质调查内网和地质调查外网,为地质数据的系统形成提供信息技术支持,主要体现在地质数据采集、传输、处理以及之后的业务管理和共享服务,在“数据需求”的指引下,将数据转化为实用信息得以实现,并产生一系列良性循环:有用信息集成为一个知识体系,知识体系形成产品,产品发布并形成共享等服务,在产品的应用与共享服务中又将产生新的数据,利用大数据分析方法(数据挖掘等)从中提取有用的信息,构成“数据链”,并形成循环(图3)[12]

民营企业一般财务制度不够完善,财务管理松懈,成本控制意识不强,产品成本偏高。尤其是当提供的产品只有其独家生产时,往往要价很高,严重背离价值规律,致使装备整机成本难以控制。

大数据处理流程里最核心的部分是数据分析。然而大数据时代数据分析的需求远远超越数据挖掘、数理统计、机器学习、智能算法等传统的数据处理分析方法的范畴 [4]。采用并行架构或者分布式架构来提高系统的扩展性已经成为必然,包括分布式文件系统GFS[5]、批处理技术MapReduce[6],以及分布式数据库BigTable[7]等。

二、大数据的关键技术

由此,可以看出加拿大的LNG发展存在“冒进”风险。未来加拿大政府需要根据资源条件和发展规划,对相关LNG项目进行优化。总之,LNG设施建设对未来加拿大天然气市场有重要影响,如果LNG设施建设优化不到位,加拿大天然气产量将维持2015年的水平。如果LNG设施优化得好,到2023年加拿大的LNG出口量有望达到400亿立方米,2030年达到620亿立方米。

(一)云计算和MapReduce

云计算是一种基于互联网的计算方式,通过这种方式共享的软硬件资源和信息可以按需求提供给计算机和其他设备[8],主要包括通过互联网来提供虚拟化的、动态易扩展的资源。云计算是大数据分析应用的基础平台,也是大数据分析处理技术的核心原理。分为三个层次的服务(图2):IaaS(基础设施即服务),PaaS(平台即服务)和SaaS(软件即服务)。SaaS构建于PaaS之上,PaaS构建于IaaS之上,各层相对独立,面向不同用户提供不同的服务,每层的服务和产品直接依赖于其下一层所提供的资源和技术支持。

当时李瑞东先生正在李宅前院的武书房内教弟子练功。见到霍元甲后,李瑞东先生很热情地招呼他。问他会什么功夫,霍元甲说会摔跤。李瑞东说,你用泼脚踢我几下,霍遂用脚踢了李瑞东脚外侧几下,没有踢动李瑞东。李又问霍还会什么?霍才说出他有家传的拳法“秘宗拳”,二人就在李宅的武书房内比试起来,只一招,霍元甲就被李瑞东发出去,跌到了院子里倒地。所谓的“霍李比武”原本就是这样!

基于灵敏度分析的参数模型修正基本思路是通过构造理论模型与实际结构之间在相同条件下动态特性的误差,然后选择修正参数进行修正,以尽量缩小理论模型与实际结构之间的误差为目的,最终获得一个较为精确的有限元模型。要实现此目标,首先初始模型需要建立得尽量准确,避免结构上的误差;其次要设法提高试验数据的精度;同时要开发稳定高效的修正算法。目前,使用较多的算法是二次规划优化算法,其在仿真算例的应用中,收敛速度快、修正效率高、修正结果准确可信。但在解决工程实际问题时,由于目标函数的构建问题,无法得到一个较为准确的有限元模型。

  

图2 典型云计算的架构

地质信息服务系统以“找得到,看得到,拿得到”为目标,以服务为核心,以关键字检索结合空间信息搜索形式,使信息需求者与信息拥有者能及时地发现对方。传统的地调成果转化效率低下,转化为服务严重滞后,大数据平台为用户带来实时的信息服务,提高了数据的时效性,地质信息服务系统的节点可以直接拓展数据采集、生产及管理环节,增强了地质信息共享服务的即时性,可以及时转化野外数据和阶段性成果为服务。大数据时代的用户既是信息的创造者也是信息的享有者,用户更加关注实时的信息,可以充分利用手中以及云端的数据,甚至不需要拿到具体的数据而是直接得到想要的结果,在此基础上发布得到的结果。大数据时代的地质数据形成了闭环的知识挖掘链,信息服务模式得到扩展,不再是单一“提供数据资料服务”,而是“提供数据资料服务”与“提供信息知识服务”两者并重。由此可见,地质信息服务系统提供了兼具交互性、即时性、个性化的新媒体服务。

(二)分布式文件系统

分布式文件系统有效的解决数据的存储和管理难题,将存储于某个地点的单个文件系统,扩展到多个地点或多个文件系统,多节点形成一个文件系统网络。且每个节点可以分布在任意不同的地点,节点间的数据传输和通信通过网络进行。运用master/slave存储技术,将集群内的节点分成为2类,一类用来存放文件信息,一类用来存放文件的元数据信息[9]。使用分布式文件系统时,只需像使用本地文件系统一样管理和存储文件系统中的数据,无需关心数据是从哪个节点获取的或者存储在哪个节点上。

(三)分布式并行数据库

从数据源获得的原始数据存储在分布式文件系统中,而用户习惯于从数据库中存取文件,但是传统的关系型分布式数据库不能处理非结构化数据、难以进行横向扩展、扩展存在极限等,因此,非关系型数据库NoSQL应运而生。NoSQL数据库数据结构简单、不需要数据库结构定义、不对数据一致性进行严格保证,以及通过横向扩展可实现很高的扩展性。

“地质云”业务架构包括“1个平台”“2张网”以及“1+X云中心”[13]。基于一个统一平台,在同一标准下实现各种资源的统一管理及地质数据的汇集;2张网指“地质业务网”和“地质互联网”,地质业务网为物理隔离的网络,所有的数据、对内业务管理系统、软件系统均部署在内网上;依托公共网络建设地质调查外网;“1+X云中心”包括新建设云中心、已建设数据中心两种类型,两者通过云管理系统进行对接和共享,新建设云中心与已建设数据中心使用光纤互联。地质云构建涉及到的关键技术包括结构化与非结构化数据的混合存储与管理、非结构化数据的信息提取与挖掘分析、大数据共享平台以及可视化等。

(四)开源实现平台Hadoop

Hadoop是一种用来分布式处理大规模数据的以开源形式发布的技术,是一个包括分布式文件系统、分布式数据库以及数据分析处理等功能模块在内的完整生态系统, Hadoop处理大数据时代的非结构化数据,有三方面的优势:(1)性能方面;(2)成本方面;(3)横向扩展进行扩容相对容易。

大坝临溃时的特殊气象气候和交通运输状况。历史上大量溃坝事件告诉我们,溃坝稀有事件往往发生在风雨交加、天黑夜深、道路狭窄、通信不畅、缺乏有效照明等极为不利之时,给护坝人员以措手不及的突然袭击,可能弄得手忙脚乱,昏头转向,因此要给予特别关注。

(五)大数据可视化

大数据时代,可视化技术作为发现数据中所包含的信息或者知识的有效手段之一,是大数据生命周期管理的最后一步,也是最重要的一步。大数据可视化技术通过图像处理技术和计算机图形学,将数据以图形或图像的形式在屏幕上显示出来,同时可进行交互处理[10-11]

三、基于大数据的地质信息服务系统的构建

(一)地质信息特点与数据资源的整合

参考文献:

本文所讨论的同心条件和邻接条件均未考虑齿轮变位的情况,有关于变位行星机构的配齿条件可按上述原则,利用相应的变位公式推导得到.

地质空间大数据的整合就是对数据的一致性进行处理。针对空间数据的不同特征需研制不同的技术、方法:空间数据模型的检索、匹配、表达、应用技术用来解决时空属性;通过语义信息获取有效地质知识来掌握地学领域本体研究;开展分布式多元数据的组织机制和汇聚模型,能有效地解决地质数据的海量、多源、异构的特点;构建地质资源网络高速传输、信息高度共享和功能高效管理的资源交流机制来应对各独立系统在区域性、时效性方面的限制。

(二)地质云

数据处理与集成主要是对已经采集到的数据进行清洗去噪以及进一步的集成存储等适当的处理。结构化数据能够使用关系数据库技术来处理。NoSQL数据库具有能支持灵活的结构和非结构化数据、针对大数据体量可扩展性更好等优点,因此,非结构化数据可用NoSQL数据库来处理。

  

图3 “数据链”的构成以及循环

造模后第7天,模型组和各给药组大鼠足跖肿胀度均较空白组显著增加,差异均有统计学意义(P<0.01);上述各组大鼠足跖肿胀度大多于造模后第14天达到峰值,随后逐渐下降。造模后第21、28天,各给药组大鼠足跖肿胀度均较模型组显著下降,差异均有统计学意义(P<0.05),但组间比较差异均无统计学意义(P>0.05),详见表3。

(三)地质信息服务系统建设思路

地质信息服务系统利用虚拟化、并行计算等技术建立起基于大数据的地学数据共享平台,提供地理空间信息查询、访问、获取途径以及信息共享解决方案,采用数据挖掘提取数据有效的知识,实现从数据的采集、加工、传输、管理、处理及发布,到以各类应用接口的形式向用户提供云端资源和服务。数据的采集加工涉及到地质数据的快速清洗、整理与质量控制,对地质数据的管理包括多源地质数据的组织方式、快速整合技术、基于语义的地质大数据的搜索技术。地质大数据体系的建设尤其要引入人工智能技术,以及基于大数据的地质分析结果的可视化技术。

地质信息服务系统通过国家级节点,建立地质调查局属专业机构、全国地质资料馆、大区中心、国家部委、行业内部等节点连接。节点网络中的最顶层节点、一般节点到最底层的数据采集点通过各种通信网络实现这些层物理层面的对接,节点连接向上可对接国土云及更广泛的大数据平台,成为更上层的云平台中的一个子集,一个专业云;向下可延伸至数据生产环节,使得数据成果及时转化服务[14]

(四)信息服务模式的扩展及地质信息服务系统的应用

MapReduce是一个利用集群资源,以高并行度处理大数据集、支持非结构化大数据分析的分布式编程模型。系统由Map和Reduce两部分组成,每一个Map操作相对独立,所有的Map可以并行运行;Reduce依赖于Map的计算输出,Reduce操作也相对独立。Map用来遍历并划分输入数据,以Key-Value对的方式输出,这些中间数据以Key的取值聚集到不同的Reducer上,执行Reduce操作产生计算结果。

四、结语

(1)大数据时代需提升知识服务水平,加强地质数据的共享与交换,服务国家建设与社会经济发展,地质信息服务迎来了新的发展机遇。

(2)“地质云”大大减少各生产单位的重复建设及运行成本,实现地质数据、信息化基础设施和公用软件的集中和共享,挖掘非结构化数据的新数据信息,探索以需求带动的地质核心数据的应用。

(3)地质大数据体系以数据为核心建设内容,在快速实现数据采集及有效汇聚的基础上,最终是为了推进地质数据集成与信息服务。

大数据处理流程中最核心的部分是对数据信息的分析处理,上层的大数据可以由作为计算资源底层的云计算来处理。分布式文件系统实现大数据稳定、高效的存放与读取;分布式数据库实现数据的高速访问;利用各种大数据分析技术在开源的数据实现平台上分析整理得出有用信息,并通过可视化技术展示给用户。

地质数据具有多源、异构、随机性、不确定性、非线性等特点,同时,地质数据空间时间跨度大,获取难度大、成本高、地质体空间几何形态的千变万化尤其是不连续性及多值面的地质现象、观测的抽样性等。

[1] 李胜强. 国土资源基础数据库整合与集成建库模式与实现[J].国土资源信息化,2005(3): 9-14.

[2] 张翠光,冯艳芳,侯荣玖. 关于制定国家基础地质数据采集、更新与发布管理方法的初步研究[J]. 国土资源情报,2009(2):14-17.

[3] NI L M,Y LIU,LAU YC,et al. LANDMARC: Indoor location sensing using active RFID[J]. Wireless Networks,2004, 10:701-710.

[4] 刘智慧,张泉灵. 大数据技术研究综述[J]. 浙江大学学报(工学版),2014 (6): 957-972.

[5] GHEMAWAT S,GOBIOFF H,LEUNG S T. The google file system[J]. ACM SIGOPS Operating Systems Review,2003,37: 29-43.

医学心理学被认为是医学和心理学的双向分支。从医学分支来看,医学心理学研究医学中的心理行为问题,如各种病人的心理行为特点、各种疾病的心理行为变化等;从心理学分支来看,医学心理学研究如何将心理学的系统知识和技术应用于医学各方面,包括在疾病过程中如何应用相关心理学科学知识和技术。自医学心理学成为必修课以来,虽然教学内容、方法手段、评价方式不断优化,教学模式不断改进,但仍存在不少问题。如课程总学时与现代医学模式要求不匹配,开课学期与学生知识、能力结构不一致;课程教学大纲与执业医师资格考试要求不吻合,课程教学目标与应用型人才培养目标不符合,知识传授与能力培养不协调等[3]。

[6] DEAN J,GHEMAWAT S. MapReduce: Simplified data processing on large clusters[J]. Communications of the ACM 51, 2008,1: 107-113.

[7] CHANG F,DEAN J,GHEMAWAT S,et al. BigTable: A distributed storage system for structured data[J]. ACM Transactions on Computer Systems,2008,26: 4-5.

[8] 李乔,郑啸. 云计算研究现状综述[J]. 计算机科学,2011(4):32-37.

[9] 李婧,陈建平. 地质大数据存储技术[J]. 地质通报,2015(8):1589-1594.

[10] 唐泽圣,陈莉,灯俊辉. 三维数据场可视化[M]. 北京: 清华大学出版社,1999.

[11] 王媛媛,丁毅,孙媛媛,等. 数据可视化技术的实现方法研究[J]. 现代电子技术,2007(4): 71-74.

随着市场经济的发展,中国年轻人的思想道德建设也面临着巨大的挑战。青少年在学习传统文化的过程中,可以从古人先进的思想文化中汲取先进的知识完善自己的知识系统。当代社会,青少年的学业压力过大,忽略了对自身思想道德和价值取向的建设。接受传统文化的教育与熏陶,不仅可以开拓视野,增加知识面,在丰富青少年精神内涵的同时也提高了思想境界。

[12] 陈建平,李婧. 大数据背景下地质云的构建与应用[J]. 地质通报,2015(7): 1260-1265.

[13] 李超岭. 卫星移动通信在地质云中的应用[J]. 通信世界,2016(6): 48-54.

[14] 郑啸,李景朝. 大数据背景下的国家地质信息服务系统建设[J]. 地质通报,2015(7): 1316-1322.

 
李敏,傅洁,陈安蜀,李磊,周小希
《河北地质大学学报》2018年第02期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息