更全的杂志信息网

基于混合语义空间的汉译英自动评分模型

更新时间:2009-03-28

汉译英是英语考试中主要的题型之一,在中国大学生英语四六级等级考试中,汉译英翻译题型的分值为15%,意味着汉译英的翻译能力已经成为考核学生英语水平的重要方式之一[1]。翻译不仅考查学生对英语的表达能力,也考查学生将汉语意思转变为英语的能力。众所周知,提高翻译能力必须经过大量的实战训练,然而学生平时练习很难得到老师的及时批改,因此研究开发一种英语译文自动评分模型具有较大的实践价值。

翻译与写作在英语考试中都属于主观题型,两者存在一定相似性。英语作文自动评分系统起源于国外,包括PEG、IEA等[2]。作文自动评分主要包括对待测作文的单词、语法、切题程度等方面的分析。作文自动评分系统已趋于成熟,而翻译领域的自动评分系统还处于探索阶段。翻译自动评分与作文自动评分存在一定差异,比如作文是根据题目进行书写,答题范围很广,且无标准答案,而翻译是根据指定的句子或者段落进行翻译,有标准答案,且译文需与待翻译文本在意思上紧密关联。美国著名的翻译理论家Eugene[3]曾说:“翻译即译意”,因此翻译自动评分的关键在于判断学生译文与标准译文间的语义相似程度。国外有关翻译自动评分的算法主要是针对机器翻译系统,其中较具代表性的算法是Papineni[4]提出的BLEU算法,该算法主要通过比较待测译文与标准译文之间的n元组的相似度来计算它们之间的距离,最终生成翻译的评分。国内在近年来也开始了对翻译自动评分的研究,姚建民等[5]通过待测译文与标准译文间的句子相似度来评估机器翻译译文的质量。文秋芳等[6]使用了翻译单位对齐技术对人工译文进行质量评估。田艳等[7]指出,单从句子之间词语的匹配程度进行译文质量分析,会导致将同义词误判为翻译不到位的问题,并提出一种基于知网的相似度方法,用于计算标准译文与待测译文之间的相似度,从而判断待测译文与标准译文是否语义一致,该相似度算法实际上属于词语间的词义相似度,并非真正意义上的语义相似度。Wu等[8]基于向量空间模型(VSM)计算待测译文与标准译文间的语义相似度,进而判断译文翻译质量,由于VSM方法无法得到同义词之间的语义相似度,需要人工进行调整,存在较大的主观性。

根据中国大学生考试翻译评分标准[9],全面评价一篇翻译译文应从单词语法的使用情况、语义表达的完整性等方面进行分析。当译文的单词出现错误时,会导致待测译文与标准译文语义不同,因此在进行翻译自动评分时无需对单词进行独立检错处理。目前的翻译自动评分算法在对译文进行分析时并未考虑语法错误对译文评分的影响,且无法准确得到待测译文与标准译文间的语义相关度。鉴于此,提出一种基于混合向量空间的汉译英自动评分模型,该模型从语法错误以及语义相关度2个方面对待测译文进行了较为全面的分析。

1 汉译英自动评分模型

1.1 语法检错处理

学生在进行汉译英时,经常易犯的语法错误有冠词错误、形容词短语错误、介词短语错误、时态错误、助动词和情态动词错误、主谓一致性错误等。针对这些错误,采用一种基于规则与统计相结合的语法检错算法进行检错纠错。

基于规则的方法主要是通过大量语法错误的句子总结出错误语法的表达形式,再按照已定义规则存入规则库中。在进行语法检错时,将待分析句子与规则库中的错误规则进行对比,若可以对应上某个错误规则,则该句子存在相应的语法错误。本研究使用的规则库建立在Naber等[10]的基础上,包含了26类常见的语法错误,35 898条规则。以主谓一致错误的规则为例,其规则如下:

〈wrong example〉The number of volunteers〈market〉grow〈/market〉each year.〈/wrong example〉

〈rule id=“THE_NUMBER_OF_VBP” name=”the number of vbp(vbz)”〉

本论文基于分段插值和广义重心坐标,针对包含悬浮节点的不协调网格,提出采用退化多边形思想的有限元方法,不需要在局部或整体区域上添加单元或者重新划分网格,可以直观地处理各种复合网格情况,并且由于形函数的常数性质,建立系数矩阵时速度更快,由于规避了钝角三角形等形态不佳的情况,在精确度方面比经典方法好。所提出的方法可望扩展到更加复杂的四面体不协调网格问题,其误差估计也与经典有限元法相似。

3)将二者生成的语法错误结合起来,去除重复部分,作为译文的语法错误集,并计算译文中含有语法错误的句子数占句子总数的比重,从而给出译文T语法错误评分:

六是深化水利领域改革创新,着力提升体制机制活力。深化水利建设管理改革,明晰各级事权划分,积极推进政府水利项目代建制。深化水利工程管理体制改革,鼓励企业、社会组织、个人竞争参与公益性水利工程的管护;全面开展水利工程管理单位绩效考核工作。深入推进农业水价综合改革,积极探索农业水权有偿转换。

基于统计的语法检错算法主要采用N元语法模型,其基本原理基于马尔可夫假设。假设s=w1w2wn是含有n个单词的句子,其中wi为句子中的各个单词,i∈[1,n],p(wi)为单词wi出现在语料库中的概率,则句子s出现在语料库中的概率p(s)为:

只要保证路面的平整、清洁,同步碎石封层技术才能够正常进行。因为同步碎石封层技术要想对道路养护的效果好,就必须在平整的里面上进行操作,只要这样才能保证与地面充分接触,养护效果好。如若地面不平整或地面灰尘多,清洁度差,沥青与颗粒性碎石和地面的粘合程度收到影响,使得同步碎石封层技术的效果就大大降低,质量大打折扣,并且不利于施工完成后期对该整修路段的监修和养护工作的开展。因此,道路平整且整洁是该技术正常进行的基础。

〈token〉number〈/token〉

〈token〉of〈/token〉

〈token postag=‘NNS’〉〈/token〉

〈marker〉

〈token postag=‘VBP’〉〈/token〉

〈/marker〉

〈/pattern〉

本次研究数据整理后用SPSS22.0软件进行统计学处理,计数资料以(n%)进行表示,计量资料经(±s)进行表示,检验水准经P<0.05对结果的论述,并证实结果具有统计学意义。

〈message〉主谓一致错误。the number of 后谓语动词一般用单数,建议改为〈suggestion〉〈match no=“5” postag=“VBZ”/〉 〈/suggestion〉?〈/message〉

3.金融支持。金融在为产业和城镇化发展提供充足资金的同时,也使得资金能够更有效率地被运用于产业和城镇的发展。不仅如此,金融往往能够在农村人口向城镇转移的过程中,为新移民在住房、教育、医疗等方面提供资金支持,产业生产要素的集聚、市场规模的扩大、现代服务业的进步都需要金融业提供必要的资金支持,而这些都是产业和城镇融合发展所必需的。

〈correction example〉The number of volunteers grows each year.〈/correction example〉

〈/rule〉

其中:“rule id”为语法错误规则的唯一标识符,“pattern”表示语法规则的匹配模式,“token”表示错误语法匹配的内容,“market”表示翻译译文中语法错误内容的标记,“suggestion”表示对该语法错误的修改建议,“wrong example”表示含有该语法规则,且使用错误的句子示例,“correction example”表示含有该语法规则,且使用正确的句子示例。

〈token〉the〈/token〉

p(s)=p(w1)p(w2|w1

p(w3|w2w1)…p(wn|w1w2...wn-1)。

(1)

其中:αi为控制待测向量qi与初始向量间关联程度的系数;βij为控制qiqj间关联程度的系数。

 

(2)

其中c(wi-1wi)为词对wi-1wi在语料库中出现的次数。使用语料估算概率分布p(wi|wi-1)的过程称为训练过程。英语单词数量十分庞大,若在进行语法检错过程中出现训练语料不存在的单词时,则该句子的概率为0,该现象被称为数据稀疏问题,因此,采用Kneser-Ney平滑算法[11]对数据作进一步处理。

卢潇还针对在中美贸易摩擦环境下美国LNG对中国的影响谈了自己的看法。他认为,总体来说,现阶段美国LNG对中国天然气供给影响不大,美国对中国的LNG出口量还比较小,在关税生效前,平均每月只有2船,主要以现货为主,2018年9-11月中国没有进口美国LNG。从成本端考虑,以12%斜率油价合同为基准,以当前10%的关税水平,在油价66美元/桶以上时,美国LNG具有竞争力;如果关税增加到25%,则平衡油价将达到76美元/桶,如果油价在70美元/桶波动,美国LNG存在竞争优势。但是,未来关税的不确定性和政治阻力会影响中国买家的选择,在这种背景下,中美贸易争端将有利于其他国家的LNG项目。

规则与统计相结合的语法检错算法的主要步骤如下:

由图4可知,电压互感器1、2、3、4、5、6、7、8、9和10号C相的量测数据序列之间的平均欧氏距离均小于阈值,而电压互感器11的量测数据序列与上述电压互感器的量测数据序列的平均欧氏距离大于阈值,由此可以判定电压互感器11,也就是叙二线C相的电压互感器发生故障。

2)使用基于统计的N元模型语法纠错算法对译文进行语法错误检测。

〈pattern〉

1)读入翻译文本,对文本进行分词分句以及词性标注等预处理操作,再与规则库中的规则进行匹配,得到基于规则库的语法错误。

 

(3)

其中:M为待测译文T中含有语法错误的句子总数;N为待测译文T的句子总数。G(T)的取值范围为0~1。

(3) 工程后航道内最大淤积强度为0.9 m/a,平均淤积强度为0.6 m/a左右。年淤积总量为415.2万m3,淤积强度较大。

1.2 构建混合语义空间

混合语义空间是一个包含词向量和短语向量的矩阵集合,这些词向量和短语向量包含了分布式语义知识(如Word2vec[12]和GloVe[13])和结构化知识(如ConceptNet[14]和PPDB[15])。在混合语义空间中,语义相似度可以通过向量间的余弦相似度来表示。为了构造一个混合语义空间,Faruqui等[16]提出了一个用语义词典改造Word2Vec和Glove词向量的方法,在此基础上,Speer等[17]提出了一个名为“ConceptNet Numberbatch”的混合语义空间,该语义空间结合了ConceptNet中的结构化知识以及Word2Vec和GloVe中词向量的分布式语义知识。为了使混合语义空间更适于表示翻译文本,采用一些经常出现在翻译中的同义词和近义词对“ConceptNet Numberbatch”作进一步改造,步骤如下:

将ConceptNet Numberbatch表示为一个初始向量Q={q1,q2,…,qn}为待推测向量,将词间的同义和近义关系表示为一个无向图。改造过程中词与词之间的关系示意图如图1所示。其中:白色节点为待推测向量,白色节点间的连线表示待推测向量在无向图中有同义近义关系,如correct和right是同义词;灰色节点为词对应的初始向量。通过改造,既拉近白色节点与灰色节点的距离,又拉近有连线关系的白色节点间的距离。基于Faruqui[16]提出的方法,通过如下最小化公式得到待测矩阵Q

 
 

(4)

即第n个在语料库中的单词出现的概率仅与前n-1个单词有关。本研究主要采用二元模型,因此式(1)可简化为:

  

图1 改造过程中词与词之间的关系示意图Fig.1 The schematic diagram of the relationship between words in the retrofitting process

通过对混合语义空间的进一步改造,能准确得到近义词、同义词、近义短语以及同义短语之间的语义相似度。

1.3 语义相关度计算

待测译文T与标准译文T′间语义相关度的计算步骤如下:

显然有AO∥PF∥BG,又因为AP=PB,所以由垂径定理得CF=FD,所以OC+OD=(OF-CF)+(OF+FD)=2OF=OG,所以由切割线定理得所以

1)将待测译文T以句子为单位进行切分,记为{TS1,TS2,…,TSn},将标准译文T′以句子为单位进行切分,记为

2)将待测译文T和标准译文T′中的句子所包含的词和短语表示为混合语义空间的向量形式,并将这些向量按照Arora[18]提出的把词向量表示为句向量的方法表示为句向量,记待测译文T中的各个句向量为{TS1,TS2,…,TSn},记标准译文中的各个句向量为

3)待测译文T与标准译文T′间的语义相关度的分数记为:

 

(5)

其中为待测译文T中的第i句句向量与标准译文T′中的第i句句向量间的余弦相似度。S(T,T′)的取值范围为0~1。

这就是正大集团于北京平谷区投资的“种养一体化”可持续发展项目,该项目自2012年竣工至今,已获得良好的经济效益,不仅如此,还为当地农民开辟了致富之路。

1.4 翻译自动评分

根据中国大学生考试翻译评分标准以及大量译文的评分实验,将语法分值定为翻译总分值的25%,语义相关度分值定为翻译总分值的75%,待测译文T的最终翻译评分为:

Score(T)=0.25G(T)+0.75S(T)。

(6)

其中Score(T)的取值范围为0~1,根据英语四六级翻译所占分值的比重,翻译自动评分在此基础上乘以系数15,即实验部分自动评分的取值范围为0~15。

2 实验与分析

2.1 训练集

N元语法模型的训练语料来源于雅虎N-gram,包括1450万篇文章,约1.2亿个句子,34亿个单词,以及ICNALE(international corpus network of asian learners of english)和布朗语料库(Brown corpus)。

混合语义空间主要是基于ConceptNet Numberbatch数据集改造而来。构造ConceptNet Numberbatch的语料包括使用包含约1000亿单词的Google news语料库训练出的300维的word2vec词向量,经包含60亿单词的wikipedia语料库训练出的GloVe词向量,以及包含世界上绝大多数知识关系的知识图ConceptNet5.5。在此基础上,采用包含超过2.2亿词的语义词典PPDB中的同义词对ConceptNet Numberbatch进行改造。

2.2 测试集

选取1000篇英语四六级译文,用于进行翻译自动评分测试,这些四六级译文由本团队老师进行挑选,具有较强的针对性。

不敢说什么心得,说一点我个人的写作习惯吧。在写一个人物的时候,我总是习惯把这个人的方方面面都设想好,这才动笔。譬如说,这个人从小是怎么长大的,老师是怎样,父母是怎样,他会喜欢吃什么样的东西,喝什么样的茶,喜欢哪种类型的女孩子,为什么喜欢,等等等等。

2.3 实验结果与分析

实验采用皮尔逊相关系数来评估模型的有效性。皮尔逊相关系数是一个广泛用于评价机器生成结果与人工结果间相近程度的量,通过它来比较机器自动评分结果与人工批改结果间的相关程度。皮尔逊相关系数ρX,Y的计算公式为:

ρX,Y=

 

(7)

其中:N为译文自动评分集合X和人工评分集合Y中的元素总数量;Xi为自动评分集合X中第i篇译文的评分结果;Yi为人工评分集合Y中第i篇译文的评分结果。皮尔逊相关系数越接近1,表明这2个分数的相关度越高;反之,若得分越接近零,表明其不相关度越高。设定翻译的满分为15分,将翻译自动评分模型与BLUE模型、VSM模型分别对同样的1000篇四六级译文进行评分测试,并与人工评分进行对比,实验结果如表1所示。

 

1 3种连贯分析模型与人工评分的皮尔逊相关系数Tab.1 The pearson correlation coefficient of three model

  

模型皮尔逊相关系数BLUE模型0.58VSM模型0.69本模型0.87

从表1可看出,BLUE模型和VSM模型在该1000篇四六级翻译文本测试集上的表现相对于本模型较差,皮尔逊相关系数分别为0.58和0.69。BLUE译文分析模型主要针对机器翻译质量进行评分,因此在对中国学生四六级翻译进行评分时,与人工评分差距较大。VSM翻译自动评分模型相较于BLUE模型取得了稍好的效果,与人工评分结果的相关系数达到了0.69。但是,无论是BLUE模型还是VSM模型,它们在英语汉译英考试的自动评分领域上的表现都不及本模型,本模型的评分结果与人工评分结果的相关系数达到了0.87,远高于另外2种模型。这表明,相对于另外2个模型,本模型对于翻译自动评分的结果更接近于人工评分结果,表明本模型应用于学生英语翻译评分的自动批改系统的准确率更高。

将本模型评分与人工评分在1000篇四六级译文中进行对比,并采用散点图的形式对教师分数和自动批改分数的分布情况进行展示,结果如图2所示。

从图2可看出,在英语翻译译文的整体评分方面,本模型的批改结果与人工的批改结果整体比较接近,人工翻译评分的平均分为9.83,本模型翻译评分的平均分为10.96,评分结果的误差为1.13,皮尔逊相关系数为0.87。

(1)洗胃前心理护理。无论何种原因自杀,入诊后患者必然存在心理障碍、抑郁情绪,具有强烈的情绪波动,从而拒绝洗胃。此时,护理人员需通过患者及家属了解其自杀原因,后在情绪给予充分认同、理解。患者得到认同后,势必会与护者拉近距离,从而促使其心理情绪得到一定宣泄。随后,通过语言引导,唤起患者对亲人、爱人的责任感,以提高治疗配合度;

淼哥放下书,揉揉肩膀:“就像有人信誓旦旦地说自己是在街头,被人拍了一下肩膀,然后就被人迷倒了一样。大都是贪心被人钻了空子,不好意思说自己傻,就找了个幌子,说自己被麻醉了。

3 结束语

结合基于规则与统计的语法检错算法以及基于混合语义空间的语义相似度算法,从语法检错结果以及语义相关度分析结果2个方面对待测译文进行了较为全面的分析,并将其结果量化为得分,从而得到了一个评分接近于人工评分的汉译英自动评分模型,在实际应用中可以实现对中国学生英语汉译英的自动评阅。

  

图2 人工评分和机器评分散点图Fig.2 The scatter plots of human score and machine score

参考文献:

[1] 周佳.浅谈2013新改革后大学英语六级考试的翻译技巧[J].海外英语,2014,18:63-64.

[2] DIKIS.An overview of automated scoring of essays[J].The Journal of Technology,Learing,and Assessment,2006,5(1):1-36.

[3] WAARD J D,NIDA E A.From One Language to Another: Functional Equivalence in Bible Translation[M].Nashville:Thomas Nelson Inc,1986:106-111.

[4] PAPINENI K,ROUKOS S,WARD T,et al.Bleu:a method for automatic evaluation of machine translation[R].Thomas J. Watson Research Center,2001:1-24.

[5] 姚建民,周明,赵铁军,等.基于句子相似度的机器翻译评价方法及其有效性分析[J].计算机研究与发展,2004,41(7):1258-1265.

[6] 文秋芳,秦颖,江进林.英语考试翻译自动评分中双语对齐技术的应用[J].外语电化教学,2009,125:3-8.

[7] 田艳.网上英汉自动评分实践探索[J].中国翻译,2011,28(2):38-41.

[8] LI Li,WU W.Automated Chinese-English translation scoring based on answer knowledge base[C]//Proceedings of 12th IEEE International Conference on Cognitive Informatics & Cognitive Computing,2013:86-93.

[9] 张英萍.大学英语四级新题型“段落翻译”探析[J].考试周刊,2014,(7):7-8.

[10] NABER D.A Rule-Based Style and Grammar Checker[M].Bielefeld:GRIN Verlag,2003.

[11] KNESER R,NEY H.Improved backing-off for M-gram language modeling[C]//IEEE International Conference on Acoustics,Speech,and Signal Processing,1995:181-184.

[12] MIKOLOV T,CHEN K,CORRADO G,et al.Efficient estimation of word representations in vector space[C]//Proceedings of Workshop at ICLR,2013:3111-3119.

[13] PENNINGTON J,SOCHER R,CHRISTOPHER D.Manning.GloVe:global vectors for word representation[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing,2014:1532-1543.

[14] LIU H,SINGH P.ConceptNet:a practical commonsense reasoning toll-kit[J].BT Technology Journal,2004,22(4):211-226.

[15] GANITKEVITCH J,DURME B.V,CALLISON-BURCH C.PPDB:the paraphrase database[C]//Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics,2013:758-764.

[16] FARUQUI M,DODGE J,JAUHAR S.K,et al.Retrofitting word vectors to semantic lexicons[C]//Proceedings of NAACL,2015:1-10.

[17] SPEER R,CHIN J,HAVASI C.ConceptNet 5.5:an open multilingual graph of general Knowledge[J].AAAI,2017,(31):4444-4451.

[18] ARORA S,LIANG Y Y,MA T Y.A simple but tough-to-beat baseline for sentence embeddings[C]//ICLR Conference,2017:1-16.

 
潘婷婷,黄桂敏,刘剑
《桂林电子科技大学学报》2018年第06期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息