更全的杂志信息网

朝鲜语特殊短语结构的语言特征分析及自动提取*

更新时间:2009-03-28

0 引言

机器翻译,又称自动翻译,是利用计算机将一种语言翻译成另一种语言的过程[1]。其概念产生于20世纪30年代,经过几十年的研究、发展,特别是随着计算机技术的高速发展,机器翻译已逐步进入到了人们的日常生活中。那么,如何更好、更快、更高效地进行机器翻译便成为此项技术的关键问题。但目前,机器翻译的译文有时还比较生硬,语句不够通顺,甚至由于受存储单词和专业术语的限制,会出现错译,翻译后通常需要进行人工校译和编辑加工。

朝鲜语中存在大量特殊短语结构,如果能在朝汉翻译中准确地翻译这些特殊短语,将对提高朝汉机器翻译的准确率和效率起到十分关键的作用。首先,句子的翻译往往会因为语序混乱而导致译文不通顺,而通过提取特殊短语,建立相应的短语库,翻译时便可以方便快捷地得到语序正确的短语译文。其次,特殊短语中,构成短语的固有动词很大一部分是一词多义,短语有固定搭配,如果能够建立相应的短语库,将能够更加快速、更加准确地进行匹配,提高翻译效率。故本文将基于标注语料库,对特殊短语结构进行语言特征分析,并将实现特殊短语的自动提取。

1 特殊短语结构的语言特征分析

短语是由两个或两个以上的词组成的,如:“/去学校、/吃饭”等,但上述短语组合结构较为自由,本文研究的特殊短语,其结构较为固定,基本结构为:助词+中心词+词尾,如:“”,也存在个别特殊情况,如:“”。该类结构中谓词活用形式(谓词词干+词尾)有限,与之搭配的名词性成分的语法标记(助词)相对固定,在朝鲜语中出现频率较高。

本文将特殊短语按照短语结尾的类型分为以连接词尾结尾的特殊短语(例如:“/基于语料库”)和以冠形词转成词尾结尾的特殊短语(例如:“/以美国为首的”),但也存在特殊情况,即以一般副词结尾的特殊短语(例如:“”)。本文将分别对三者进行语言特征分析,为确定左右边界提供语言学基础。

1.1 以连接词尾结尾的特殊短语结构

该结构如下所示:

 

上例中包含“(一般名词,代码:NNG)、(一般名词,代码:NNG)、(宾格助词,代码:JKO)(一般动词,代码:VV)、(接续词尾,代码:EC)”等成分。朝鲜语中,谓语(动词和形容词)占一个句子的支配地位。在一个句子中谓语作为语言的语义中心要素,反映着人的经验,它决定着什么样的名词以什么样的关系与之搭配[2]。特殊短语作为一个小的句子单元,其中心词为该短语中的动词(例如:“”中的“”是中心词)或形容词(例如:“”中的“”是中心词),是短语翻译的核心,与该中心动词搭配的名词也十分重要,只有两者相互合理搭配,短语才有实际意义,才能够完成对短语的翻译。

根据与动词搭配的名词性成分的语法标记(助词)分类如下,其中还存在包含名词性转成词尾“”的特殊情况。

(1)包含副词格助词的特殊短语结构

该特殊短语的结构:NNG+JKB+[XR/VV/(NNG+XSV)]+EC。

  

NNG JKB XR/VV/(NNG+XSV)EC名词 副词格助词词根/动词/(名词+动词派生后缀)连接词尾

 

②两个或两个以上名词(代词)混合叠加/与传统习惯相类似

该特殊短语的结构:NNG+JKO+[XR/VV/(NNG+XSV)]+EC。

  

NNG JKO XR/VV/(NNG+XSV)EC名词 宾格助词词根/动词/(名词+动词派生后缀)连接词尾

 

(3)包含接续助词的特殊短语结构

该特殊短语的结构:NNG+JC+[XR/VV/(NNG+XSV)]+EC。

(2) 任给O1,O2∈O(X),csO1,csO2∈τ,下证csO1∩csO2∈τ。由O1∩O2∈O(X),又只需证csO1∩csO2=cs(O1∩O2)即可。

  

NNG JC XR/VV/(NNG+XSV)EC名词 接续助词词根/动词/(名词+动词派生后缀)连接词尾

 

(4)包含名词性转成词尾的特殊短语结构

该特殊短语的结构:NNG+JKO+[VV/(NNG+XSV)]+ETN+VV+EC。

  

ETN VV EC名词 宾格助词NNG JKO XR/VV/(NNG+XSV)词根/动词/(名词+动词派生后缀)名词性转成词尾动词 连接词尾

 

1.2 以冠形词转成词尾结尾的特殊短语结构

该结构如下所示:

 

该短语结构与以连接词尾结尾的特殊短语类似,具体的分类如下:

(1)包含副词格助词的特殊短语结构

该特殊短语的结构:NNG+JKB+[XR/VV/(NNG+XSV)]+ET M。

 
 

昌乐并不出产黄金,却在这十几年里,形成了一条集蓝宝石开采、黄金珠宝首饰加工、宝石镶嵌、展览展示、批发零售到休闲旅游购物的各环节功能较完备的产业链条。在昌乐黄金产业发展的历史长河中,有这样一家企业,有这样一位人物起到了至关重要的作用。

该特殊短语的结构:NNG+JKO+[XR/VV/(NNG+XSV)]+ET M。

社会公平的本质是公共服务资源空间配置的合理性及带有补偿性质的分布公平性,强调应当向特定的社会弱势群体倾斜.老年人日常前往养老服务设施较多选择步行,而中心城区老年人口集聚的区域在步行方式下的可达性值较低,资源配置空间公平性较差,应在老年人口集聚的中心城区和新建开发区加大公共养老服务资源的投入,使得养老服务设施空间布局更加合理,从而在一定程度上实现社会公平,体现城市以人为本的发展理念.

  

NNG JKO XR/VV/(NNG+XSV)ET M名词 宾 格 助词词根/动词/(名词+动词派生后缀)冠形词转成词尾

 

(3)包含接续助词的特殊短语结构

其次,代购的商品需要依法足额纳税。根据海关法,从海外购买回国的物品如果在免税额度之上的,需要向海关申报,并补足税款。而一些代购者在入关时伪报商品性质、低报商品价值甚至入境不申报,有的偷税漏税数额巨大,这就触犯刑法、海关法等法律。根据刑法规定,走私罪,走私货物、物品偷逃应缴税额10万至50万元人民币属于“数额较大”,50万至250万元人民币属于“数额巨大”250万元人民币以上属于“数额特别巨大”,对应刑期分别为3年以下,3至10年以及10年以上有期徒刑或者无期徒刑,并处偷逃应缴税额1至5倍罚款。广东珠海这名网店店主正是因为偷税漏税数额巨大而被判刑10年,并处以罚款。

鲁迅的叙述、鲁迅的叙述所建构出的意义、鲁迅研究者以鲁迅的文本为核心建构出的意义,这三者既不能被视为相同的,又不能被视为毫无联系的。但青年周树人的经历与鲁迅的叙述之间产生分离却是完全可能的。在这一前提下,对于鲁迅在其叙述中呈现的意义进行阐发和对青年周树人生平的考证是同一研究领域中的两种行为。二者的意义中有相辅相成的一面。但也各有其独立性。他们之间出现分歧并不令人忧虑,反而是研究深入的标志。

该特殊短语的结构:NNG+JC+[XR/VA/(NNG+XSV)]+ET M。

  

NNG JC XR/VA/(NNG+XSV)ET M名词 接 续 助词词根/形容词/(名词+动词派生后缀)冠形词转成词尾

 

(4)包含名词性转成词尾的特殊短语结构

④冠形词+名词|代词/有关此类疑问

  

ETN VV ET M名词 宾格助词NNG JKO XR/VV/(NNG+XSV)词根/动词/(名词+动词派生后缀)名词性转成词尾动词冠形词转成词尾

 

1.3 以一般副词结尾的特殊短语结构

特殊短语结构也存在特殊情况,即结尾为一般副词的特殊短语,如:“/如下”。这种特殊短语结构中,与中心词相连的助词分类方法不同,仅当短语包含副词格助词与接续助词时有实际意义,故对该特殊短语结构进行如下分类:

(1)包含副词格助词的特殊短语结构

该特殊短语的结构:NNG+JKB+MAG。

  

NNG JKB MAG名词 副词格助词 一般副词

例如:/如下

⑤数字|数词+名词21/有关21世纪

该特殊短语的结构为:NNG+JC+MAG。

  

NNG JC MAG名词 接续助词 一般副词

例如:/与大众文化不同

2 特殊短语的左右边界问题

自动提取特殊短语,即按照相关规则,提取范围内的短语。而实现自动提取的核心则是确定其左右边界。首先确定左边界,特殊短语的最左端为单个名词或名词短语,故其左边界应为在助词前与动词搭配的名词性成分(如:“”中副词格助词“”前与“”搭配的名词“”,“”中宾格助词“”前与“”搭配的名词“”)。安帅飞等[3]利用世宗语料库中的二十多万句子,提取归纳了单个名词之外的8大类名词短语,名词短语的左边界等同于特殊短语的左边界。本文据此,构建了特殊短语的左边界规则集。

然后确定右边界,通过语料中的大量特殊短语实例可以发现特殊短语的最右端为连接词尾、冠形词转成词尾以及一般副词,故右边界为连接词尾(例如:“”中动词“”后的连接词尾“”)、冠形词转成词尾(例如:“”中动词“”后的冠形词转成词尾“”)以及一般副词(例如:“”中的一般副词“”)。故将其右边界分为上述3类。

以包含副词格助词的特殊短语为例,该特殊短语左边界为名词,包括单个名词与名词短语,将左边界按照单个名词与名词短语进行分类研究,具体情况如下。

2.1 右边界为连接词尾的特殊短语的左边界问题

(1)左边界为单个名词的特殊短语/据此

(2)左边界为名词短语的特殊短语,可分为以下8种情况[3]:

①名词|代词++名词|名词叠加

 

②两个或两个以上名词(代词)混合叠加/对于教育问题

③名词|代词+接续助词|特殊的副词+名词|代词/按照传统与习惯

该特殊短语的结构:NNG+JKO+[VV/(NNG+XSV)]+ETN+VV+ET M。

(2)包含宾格助词的特殊短语结构

(2)包含接续助词的特殊短语结构

“这是绝对不可能的!”陆叔叔打断了张大爷的话,随即报了警,“不过,这大雪天的,警察赶到这里也得一段时间。这样吧,张大爷、小江,你们和小达在这里待着,保护好现场;我和霍铁先去看看情况!”

⑥名词|名词叠加++名词

 

⑦名词+名词派生词尾+肯定指示词+冠形词性转成词尾+名词

 

⑧名词|代词+数词+(依存名词)/对于我一个人而言

2.2 右边界为冠形词转成词尾的特殊短语的左边界问题

(1)左边界为单个名词的特殊短语/对于文化的

(2)左边界为名词短语的特殊短语,可分为以下8种情况[3]:

①名词|代词++名词|名词叠加

 

②两个或两个以上名词(代词)混合叠加/对于军事领域的

③名词|代词+接续助词|特殊的副词+名词|代词

 

④冠形词+名词|代词/根据该理论的

⑤数字|数词+名词

 

⑥名词|名词叠加++名词

缺点:对全厂DCS要求较高。与DCS的配合量增加,需配合的内容:①运算程序需要焚烧炉供应商提供,并协助DCS进行DCS编程及调试;②系统维护需要ACC与DCS双方协作完成;③时间成本和人力成本同比增加,为方案一的2~3倍。

 

⑦名词+名词派生词尾+肯定指示词+冠形词性转成词尾+名词/不过一间房子

 

2.3 右边界为一般副词的特殊短语的左边界问题

(1)左边界为单个名词的特殊短语/如下

(2)左边界为名词短语的特殊短语,可分为以下8种情况[3]:/与祭祀程序相类似

(2)包含宾格助词的特殊短语结构

 

④冠形词+名词|代词/不过是一个电视节目

⑤数字|数词+名词/不过一年/不过是形式上的需要

据园区管委会副主任余亮茹介绍,上海化工区是国家新型工业化产业示范基地、国家级经济技术开发区、国家生态工业示范园区、国家循环经济工作先进单位,连续6年蝉联全国化工园区20强榜首。

⑦名词+名词派生词尾+肯定指示词+冠形词性转成词尾+名词/有关一间房子的

在“一带一路”的倡议指引之下,我国的企业获得了更多走出去的机遇,越来越多的沿线国家加入“一带一路”中来,因此,在与众多国家的经济贸易合作中,由于国与国之间的差异性而导致了我国的税收征管也随之面临着新的挑战与困难。为了克服这些困难和挑战,我国采取的措施有签订“国际税收协定”、建立完善现有税收体制、培养更多的人才等。在“一带一路”的指引下,同时完善税收服务体系,那么我国的国际贸易发展会取得进一步的发展。

 

3 特殊短语结构提取及短语库的建立

Perl语言的最初设计者为拉里·沃尔(LARRY WALL),Perl语言借取了 C、sed、awk、shell scripting以及很多其他程序语言的特性。其中最重要的特性是它内部集成了正则表达式的功能[4]。而实现特殊短语的自动提取的关键,就是Perl语言的正则表达式功能,根据相应的语言特征和确定的左右边界,自动提取规则内的短语,这是建立短语库的重要一环。

另外,短语库的建立还需要对自动提取的短语进行人工筛选,选出有实际意义的短语加入短语库。

(1)建筑工程设计智能化。随着信息时代的来临,传统的建筑工程设计模式已经无法满足当前建筑工程领域的快速发展的现实需要,人们越来越渴求迅速见到建筑物“成品”。BIM技术则满足了这种需求,利用计算机技术和BIM技术在建筑工程设计领域中的应用,使得三维空间及立体结构的运用,使人们能够看到设计完成后的建筑物“成品”模样,给客户更加直观的判断,并对建筑工程提出其个人意见或建议,从而使建设完成后的建筑物成品更加符合其现实需要。

3.1 特殊短语结构自动提取

将该特殊短语按照助词的种类进行分类,根据其语言特征,使用Perl语言实现特殊短语自动提取,即以助词为提取特殊短语结构的核心。以包含副词格助词(JKB)的特殊短语为例,对特殊短语的自动提取进行说明。

基于韩国“世宗计划”标注语料库中的20余万句语料,共提取出56 216个短语结构,其部分结果如表1所示。

 

表1 部分特殊短语的提取结果Table 1 Some extractions of special phrases

  

序号No.特殊短语结构Structures of special phrase频数Frequency 123456789 1 05 808 2 338 2 190 1 348 1 159 1 084 854 817 784 556

自动提取的结果存在非特殊短语的结构(如”等)(表1),故需要进行二次分析。观察结果分析得出,符合以下规则的短语不属于特殊短语。

从那天起,老闻头儿真的不敢再抽烟了,他害怕极了,真的要决心戒烟,他终于明白击败自己的不是对手,自制自律才是重要的,抽烟就是一个坏习惯,它毒害青少年,影响了身体健康。生命只有一次,只有身体健康,才是最幸福的啊!

连接词尾后与补助动词(VX)相连的短语,如下例所示:

 

经过二次分析,根据规则再次抽取短语,避免了上述不符合特殊短语结构情况的发生,取得了较好的效果。采用自动提取与人工筛选相结合的方式,按照不同的中心词进行分类,共抽取了50余种特殊短语结构:

 

3.2 特殊短语库的建立

根据自动提取结果,依据所总结的规则,进行人工筛选,最终选取符合规则的短语加入短语库。以包含副词格助词(JKB)的特殊短语结构为例,对短语库的建立进行说明。

将经过自动提取与人工筛选的结果按照不同的中心词进行分类,部分分类结果如表2所示。

 

表2 特殊短语库Table 2 Corpus of special phrase

  

中心词Head word特殊短语结构Structures of special phrase译文Translation

3.3 实例测试

对信息提取系统的评价,最为常用的两个指标是召回率和准确率[5],因此这两个指标也是衡量特殊短语自动提取成功与否的重要标准。

基于目标导向的“双主线”新任教师培训课程设计,依托成人学习理论,以培训目标为起点确定“双主线”培训课程,注重发展教师的专业能力,主要体现在以下几个方面。

根据所确定的特殊短语的左右边界,编写相应代码,使用计算机对特殊短语进行自动提取,人工判断结果是否全部被召回,是否全部正确,并计算其召回率和准确率。

选取5 000句训练语料,以包含“”且右边界为连接词尾的特殊短语为例进行测试,部分结果如表3所示。

经过人工筛选得出,该语料中共有48个包含“”且右边界为连接词尾的特殊短语,自动提取出48个结果,召回率为100%,提取结果中,出现3个错误结果,准确率为93.8%。其中的错误结果均是由于名词前做修饰成分的定语过长造成的,但此种情况在朝鲜语中并不多见,且长定语结构较为复杂,难以研究其规则,故可以暂不考虑此种情况的发生。所以总体上,测试取得了满意的效果。

Gardner模型拟合的相关系数(如表2所示)均>0.99,说明模型拟合度较高,可描述土壤水分特征曲线的变化规律。

 

表3 基于5 000句语料的部分提取结果Table 3 Some extractions from 5 000 Korean sentences

  

序号No.特殊短语Special phrases频数Frequency

4 结束语

本文通过分析特殊短语的语言特征,寻找特殊短语自动提取的左右边界,进而建立规则,编写代码,实现自动提取,建立特殊短语库,并经过测试,取得了满意的效果。

但本文的工作还有两点不足:(1)虽然本文依据的标注语料库达50万句之多,但语料所涉及的范围仍旧有限,所以有必要适当扩大语料的范围。(2)虽然召回率与准确率都较高,但错误结果仍然存在,所以需要进一步分析论证,将错误率降低。

参考文献:

[1] 赵铁军.机器翻译原理[M].哈尔滨:哈尔滨工业大学出版社,2000.ZHAO T J.Theory of machine translation[M].Harbin:Harbin Institute of Technology Press,2000.

[2] 毕玉德.现代朝鲜语动词语义组合关系研究[M].北京:民族出版社,2005:28.BI Y D.Research on the semantic co mbinations of moder n Korean ver bs[M].Beijing:Nationalities Publishing House,2005:28.

[3] 安帅飞,毕玉德.韩国语名词短语结构特征分析及自动提取[J].中文信息学报,2013,27(5):205-210.AN S F,BI Y D.Str uct ure characteristic analysis and auto matic extraction of Korean noun phrase[J].Journal of Chinese Infor mation Processing,2013,27(5):205-210.

[4] 施瓦茨,菲尼克斯,福瓦.Perl语言入门[M].盛春,蒋永清,王晖,译.南京:东南大学出版社,2012.SCH WARTZ R L,PHOENIX T,FOY B.Lear ning Perl[M].SHENG C,JIANG Y Q,WANG H(eds.).Nanjing:Southeast University Press,2012.

[5] 俞士汶.计算语言学概论[M].北京:商务印书馆,2003.YU S W.Introduction of co mputational linguistics[M].Beijing:Co mmercial Press,2003.

 
毕玉德,扈毅,安帅飞
《广西科学院学报》 2018年第01期
《广西科学院学报》2018年第01期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息