更全的杂志信息网

探讨人工智能在档案开放鉴定中的应用

更新时间:2016-07-05

档案工作的根本目的是整合各种档案信息资源以便于社会大众的利用,档案开放是社会大众获取和利用档案信息最基本也是最重要的途径。随着科技的日新月异,电子信息技术也给档案工作带来了巨大的变革,“智慧档案”的概念随之应运而生。新技术的引进和运用不会改变档案工作的根本目的,而是为了更加高效、更加便捷地为社会大众服务。

我国于20世纪80年代开始提出档案开放政策,并于1987年公布的《中华人民共和国档案法》规定:“国家档案馆保管的档案,一般应当自形成之日起满30年向社会开放。经济、科学、技术、文化等类档案向社会开放的期限可以少于30年,涉及国家安全或者重大利益以及其他到期不宜开放的档案向社会开放的期限可以多于30年”。但在档案开放利用的实际工作中,还存在着许多限制和不足。本文旨在探析利用人工智能技术在档案开放鉴定中的应用来解决这些问题。

一、档案开放利用现状分析

(一)我国档案开放程度分析

从全国综合档案馆的馆藏数据和开放数据来看我国档案的开放程度(以下数据来源于国家统计局)。据统计,2015年国家综合档案馆馆藏档案数量为58641.7万卷,2006年国家综合档案馆馆藏档案数量为21656.5万卷,10年间馆藏档案增长率为170.78%。2015年国家综合档案馆开放档案为9266.3万卷,2006年为5746.3万卷,10年间开放档案增长率为61.26%,可以看出开放档案的增长速率相较于馆藏档案缓慢了很多。2015年国家综合档案馆的馆藏数据为58641.7万卷,开放档案数据为9266.3万卷,开放率仅为15.8%,而且开放率逐年在下降。

图1 2006—2015年国家综合档案馆馆藏档案数量和开放档案数量

图2 2006—2015年馆藏档案增长率、开放档案增长率和开放率

(二)我国档案利用程度分析

从全国综合档案馆的利用档案数量来看,2006年国家综合档案馆利用档案1166.4万卷,2015年为1978.3万卷,增加率为69.6%。但是2015年的利用档案在已开放档案中利用率为21.3%,相对于整个馆藏数量则仅仅为3.37%,档案资源利用率极低。根据浙江省统计局数据,2015年档案资料利用人次为47.52万人;又根据国家统计局数据,浙江省2015年总人口为5539万人,这些数据表示浙江省档案利用人次仅占总人口的0.86%,意味着浙江省档案资源与99%以上的社会大众无关。

二、档案开放的主要瓶颈

相对于国外档案的高开放率,我国档案自20世纪80年代提出开放以来一直处于比较低的开放率,其主要原因有两个方面。第一,档案法律法规对档案开放时间起着引导性和约束性作用,基本上要形成满30年才能开放。第二,开放鉴定困难,由于人力和能力等方面条件约束,无法准确和准时地理解内容并做出鉴定,保密过度而开放减少,往往会导致开放数量减少。如图3所示,2006年人均管理档案数为0.9545万卷,而到2015年时上升至3.1895万卷。2006年国家综合档案馆数为3154个,专职员工为22689人;而10年后综合档案馆数上升至3322个,人员却降低至18386人(以上数据均取自国家统计局)。

自然语言处理包括句法语义分析、信息抽取、文本挖掘、机器翻译、信息检索、图像识别等等,结合现下jieba分词、Word2Vec等几个最流行的工具,机器就能“读懂”档案的内容了。注意,这里读懂被加了引号,是因为现阶段自然语言处理都是基于统计模型的,而不是基于语义模型。

图3 人均管理档案数和档案馆平均专职人员数

三、人工智能技术

在分析数据前,首先要让计算机“读懂”数据,也就是自然语言处理。机器处理自然语言的历史一般认为是从1950年Alan Turing在Mind杂志上发表的“计算的机器和智能”开始的,经过了60多年的发展,这个领域已经取得了实质性的突破。机器自然语言处理从用语法规则去理解自然语言,转变成了基于数学模型和统计的方法去分析自然语言(吴军,2014)。在中文中,词是表达语义的最小单位,机器处理自然语言是建立在词的基础上的,所以中文分词就是把一整段的句子分成单独的几个词。

王飞:现在,学校大体实施行政管理体制,教务处、总务处是一种行政管理模式,各个部门有一名主任。5个委员会是为学校董事会和学校做出最终决策提供建议的一种咨询机构,并不是行政机构。对管理人员来说是一种监督,必须成为学校的体制给予固定下来。它的确会给学校增加很大的负担,但却可以保证学校能够健康发展,这是我的一种想法。

(一)人工智能技术实现原理

另外,被作用了扭转冲击力的钻头使岩石模型掉落失效的单元更多,但其承受的最大压力值和最小压力值都要略小于正常钻进对应的岩石模型,即钻头在相同时刻承受的压力值要小一些,钻头损坏速度和程度会更低,可有效提高钻头的使用寿命。

计算机能读懂档案后,就需要进行学习。计算机学习主要有训练和预测两个方面,对应于人类的归纳和推测。计算机学习的方法有很多种,比较经典的有回归算法、神经网络、SVM支持向量机、聚类算法、降维算法、推荐算法、朴素贝叶斯等等。按训练的历史数据有无标签,我们可以将算法基本分为监督学习算法和无监督学习算法。因为档案开放只有可开放和不可开放两种结果,所以需要使用监督学习算法,而神经网络算法是当下非常流行的一种监督学习算法,递归神经网络(RNN)非常适合运用于自然语言处理,例如Socher et al.(2013c)成功使用了递推神经网络来预测语句情感,并取得了80.7%的准确率。所以,神经网络算法也非常适合计算机来做档案开放鉴定。

图4 人工智能与人类的对比

(二)自然语言处理

随着近年来人工智能技术的兴起,各行各业都引入了人工智能的技术来提升生产力和效率,档案行业也不例外。浙江、江苏、青岛等省市陆续提出了“智慧档案”并进行了试点探索,而本文旨在探讨运用人工智能技术中的深度学习方法来实现档案的开放鉴定工作。

传统意义上,计算机使用方式是我们通过鼠标或者键盘等输入装置给它一连串指令,然后计算机按照指令去执行并输出结果,一一对应,非常明确。而人工智能最大的不同点在于,它接受的是数据,自己分析,然后输出结果。

开放鉴定困难造成档案开放率逐年递减,而法律法规导致开放的档案时效性较差,无法满足社会大众的需求,也就产生了上一节档案资源与99%以上的社会大众无关的局面。

(三)学习方法

以一个经验丰富的档案工作者鉴定一份档案是否开放为例,他首先需要了解这份档案的内容,然后根据自己的经验来给出鉴定结果。如图4所示,我们人工智能技术的原理就是模拟这种方式,利用已有的历史数据,得出某种模型,并利用这种模型来预测未知属性。人工智能中计算机学习的方式与人脑思维的经验过程是非常相似的,不过计算机能考虑更多的可能性,执行更加复杂的运算,也拥有更快的速度。利用这种技术,我们便可以使用计算机来对档案做开放鉴定。

从《死火》中的“我”意图将死火带入火宅,死火选择烧完,到《墓碣文》的“我”借死尸由死问生,探讨“本味”因“自我”在此在的不断向前拓展之中而不可知,再到《死后》的“我”见到了死后的苦闷之极致急着醒来回到现实之中,鲁迅一直在向生存和爱的方向逃亡,并准备以全部的痛苦来承担对于生存和爱的选择。生命具神性,生存在现实,人要首先获得生存才能领会生的全部意义,虽然真正的爱与生存远比死要艰难得多。为了满足爱人希望他活下去的愿望,为了给敌人“在他们的好世界上多留一些缺陷”[5]4,更为了遵照自己的心音,鲁迅带着以鹰隼之利爪把握深渊的勇气回到人间,获得了他自己所热爱的灵魂的荒凉与粗糙。

神经网络算法是人工智能中的一个新的领域,它的原理是模仿人脑的机制来解释和处理数据,建立大脑神经网络系统传递信息,可以用于分析图像、声音和文本。所谓深度学习神经网络,就是拥有层数非常多的神经网络。举个例子,想要在图5的三个图中让电脑识别是否有人脸,设计几个神经元来判断是否有眼睛,是否有鼻子,是否有嘴巴,是否有头发,等等,然后依靠最终神经元的输出判断是否有人脸,如图6所示。如果想判别是男人的脸还是女人的脸,或者判定其他更复杂的东西,就需要增加更多的神经网络层。

神经网络算法运用到档案的开放鉴定中分为两个步骤:训练和预测。训练的意思就是把已经由人工划分好的历史数据让机器学习,得出一个模型。经过不断地参数调整,这个模型就可以拥有较高的档案开放鉴定准确率了。机器鉴定档案会有以下三个优点:鉴定标准统一,效率高,无须相关专业知识即可鉴定。

图5 判别人脸的例子

图6 简易神经网络

(四)不足与展望

运用人工智能技术中的神经网络算法来鉴定档案是否开放,还存在着许多实际操作中的问题。第一,模型训练需要档案全文数字化,导致训练数据的数量需求量非常大,至少千万级别,而2015年全国开放档案才9266.3万卷,训练数据获取难。第二,算法设计和参数调整需要相当大的人力和时间,神经网络是一个非常年轻的领域,理论建立并不完备,很多方面都要摸索着前进。第三,可能会有部分误判,由于模型预测过程完全是黑箱模式,无法知道判别的具体依据。尽管有着诸多困难,但这些在实现“智慧档案”的道路上是不可避免的,人工智能技术的引入会加快“智慧档案”的实现。

针对VoIP电话这类对实时性要求较高的嵌入式设备,本文采用了NLMS的频域实现FDNLMS算法,该算法借助FFT极大的简化了运算。与NLMS算法的对比实验显示,此算法的综合性能更好,在没有降低收敛性能的前提下,显著改善了算法实时性。

《档案管理理论与实践-浙江省基层档案工作者论文集》2017年第00期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息