更全的杂志信息网

基于会话语料库的日语性别角色语言自动提取方法论

更新时间:2016-07-05

一、研究背景

日语的角色语言「役割語」由日本语言学家金水敏最先提出,目前在包括日语和汉语在内的多种语言研究中取得了一系列令人瞩目的研究成果(金水敏,2002:205)。对“角色语言”定义如下:根据某种特定的语言表达(词汇、语法、委婉表现、音调等)可以联想起具体的人物特征(比如年龄、性别、职业、阶层、时代、容姿/风貌、性格等),或者当提到某种人物形象时可以联想起这种人物形象会使用的特定语言表达,则称这种能够和特定人物形象联系起来的语言表达为角色语言。

为了便于理解角色语言的含义,在这里对日语和汉语各举一例来说明。日语实例来自日本漫画家手冢治虫的漫画《铁臂阿童木》中老博士和阿童木的一段会话摘录如下:

博 士:親じゃと?(父亲?)

わしはアトムの親がわりになっとるわい!(我成了阿童木的父亲了!)

阿童木: でも博士,アトムにはやっぱりロボットの親がいいでしょう。

(可是博士,对阿童木来说还是有个机器人父亲比较好吧。)

(金水敏,2002:2)

在上述例子中,老博士使用了「じゃ/(是)」替换了「だ/(是)」,同时使用了「わし/(我)」替换了「わたし/(我)」。在日语中出现这样会话的时候,有关于漫画中老博士背景知识的漫画读者能够联想到发话者的角色。同时,给定漫画中的老博士这样一个角色的时候,也能够联想到老博士会以上例中替换标准词汇中助词和人称代词的方式讲话。在这里,这种能够明显体现“老博士”这一身份特征的「じゃ/(是)」和「わし/(我)」可以被视作漫画中“老博士”这一角色的角色语言。

汉语例句如下:

皇帝:给朕传令下去,即日起攻打匈奴。

大臣:臣领命。

上述会话中出现了“皇帝”和“大臣”两个角色,在角色身份未知的前提下,对中国古代皇帝和大臣说话方式熟悉的人可以判断出正在会话的两者的身份。而在给定皇帝和大臣这两个角色的身份的时候,也能够想象出两者在会话时会自称“朕”和“臣”。该段会话中,第一人称代词的“朕”和“臣”可被视作皇帝和大臣这两个角色的角色语言。

综上所述,角色语言可以被视作分辨具备某种属性的人群的语用标志。同时角色语言也可以从具有某种特定属性人群的词汇中提取出来。有鉴于此,我们认为可以通过分析具有某种特定属性人群的会话文本来提取角色语言。关于人群的特定属性有很多划分标准,比如性别、年龄、社会阶级、地域、国籍、时代等等。在已有日语角色语言研究成果中,关注度最高,最为广泛讨论的是日语的性别角色语言问题。这是由于日语是一种在异性之间语言特征相对明显的语言。也就是说,日语中男性和女性的词汇各有其特征。

目前许多学者对于日语中男性和女性词汇的特征问题进行了深入探讨。郝素岩(2000)通过比较中日文献详细分析了日语中的性别差异;孙永恩(1997)通过历史上的资料对日语“女性语”进行了总结;张忆杰(1994)通过对川端康成《雪国》的分析,对日语中男女词汇的区别进行了研究;曹春玲(2017)则是在对日本在校大学生和社会工作人员进行基于日本电影台词中男女词汇终助词的表达形式的调查基础上,通过量化统计分析,详细讨论了日语中男女终助词的使用问题;而白晶(2001)则针对日语中人称代词,感叹词和终助词的女性词汇进行了广泛研究。

通过对上述文献的梳理,可以发现,目前用以区分日语性别的词汇主要是人称代词和终助词。例如,在人称代词中男性较为常用的是「おれ∕(俺)」「ぼく∕(我)」「おまえ∕(你)」等,而女性则较为常用「あたし∕(我)」。在终助词中,男性较为常用的是「ぞ∕(终助词,男性词汇)」「ぜ∕(终助词,男性词汇)」等,而女性则较为常用「わ∕(终助词,女性词汇)」。这种在异性之间的语言使用上有着明显差异的人称代词和终助词,可被视作在日语中表现异性语言特征的角色语言。这些角色语言是对男性和女性的会话进行大量观察后总结出来的。目前被广泛应用于提取日语性别角色语言特征的方法也是这种基于内省的方式,但这种方法存在一定的局限性。作为研究对象的语言是随时在变化的,通常基于内省的方法不能对时刻变化的语言现象做出反应,而且基于内省的方法能观察到的语料的范围有限。当面对大规模(从几十万上百万字的)语料库的时候,难以仅凭观测发现其中隐藏的角色语言规律。

医院成立监督小组,对门诊相关部门特别是重点科室的各个环节进行专项监督检查,对督查中发现问题及时纠正;对新发投诉,督促和帮助科室落实整改,跟踪投诉解决情况,并纳入考核。

F130: あの,おっしゃったら楽しみにしましょう。

具体操作主要分为三个步骤。首先,准备用于提取日语性别角色语言的日语会话语料库;其次,利用日语分词工具将语料库中的句子分解成为语素,提取并统计说话人的词汇信息,然后制作统计检验需要的二元表数据;最后,对统计得出的词汇信息进行 fisher精确检验来提取异性在会话中差异最为显著的词汇形成日语性别角色语言。日语性别角色语言提取流程如图1所示。

图1 日语性别角色语言提取流程图

二、语料库准备

本文的研究目的是从异性的日语会话文本中提取符合该性别的角色语言,因此研究对象为异性之间的日语会话文本。我们采用名古屋大学大曾美惠子名誉教授构建的日语自然会话语料库(旧名大会话语料库)作为角色语言特征提取的语料库。该语料库以日语研究和教学为目的作成,其中所有会话参与者均以日语为母语,并且对彼此之间十分熟悉。其中男性37名,年龄范围为10几岁到60几岁;女性162名,年龄范围为10几岁到90几岁,但缺少第100号女性的年龄数据。会话参与者的出身地从日本最北端的北海道直到最南端的冲绳县,遍布日本全境。语料库中的每一组会话有2名至4名参与者。整个语料库收录的会话时间总长度大约为100小时,并且已经将录音文件转换成文本格式。该语料库中的一部分文本内容如表1所示。

在日语自然会话语料库中以M(Male)开头的文本表示男性的会话文本(M001~M037),共37名男性的会话数据。以F(Female)开头的会话文表示女性的会话文本(F001~F162),共162名女性的会话数据。表1中列出了1名男性(M023)和3名女性(F023, F107,F128)之间的会话。在会话内容一栏中显示了每个人的会话内容的日语文本。在日语自然会话语料库中除了由录音文件转换而来的文本之外,还存在一些表示会话中其他行为的特殊记号。例如表示中断的〈録音中断(录音中断),表示某1名会话者发笑的〈笑い(笑)〉,〈笑いながら(边笑边说)〉和表示2名会话者同时发笑的〈2人で笑い(2人同时笑)〉等。

我们首先使用Python程序设计语言编写程序将所有男性(以M开头)和女性(以F开头)的会话内容各自整理成一个文本(后缀名为.txt)文件。其次,由于女性会话的数量(162)远多于男性会话者(37)的数量,为了保持数据的均衡性尽量将女性的会话文本总长度调整为与男性基本一致。我们根据上述原则对已有的语料库进整理,整理后的语料库包含所有37名的男性会话文本共310,830字和女性24名的会话文本共311,163字。最后,由于本文只关注会话内容,在进行数据预处理的过程中删除了语料库中出现的除了〈笑い(笑)〉以外的记号,并将文中与〈笑い(笑)〉相关的记号(例如〈笑いながら(边笑边说)〉)统一整理成为〈笑い(笑)〉,遇到〈2人で笑い(2人同时笑)〉的时候则在会话双方的对应位置同时加上〈笑い(笑)〉的记号。这样处理的理由有二,一是保持在接下来的日语词法分析的处理中对文本中所有的〈笑い(笑)〉得到同样的解析结果以保证统计结果的一致性;其二是由于年轻女性相对性格比较开朗,在日常会话中很有可能比男性笑更多次,这样在会话中的〈笑い(笑)〉也可能构成异性角色语言。

三、日语分词和角色语言提取模型

表1 日语自然会话语料库内容(部分)

参加者编号 性别年龄F023 女性30岁后半出身地现居地 会话内容爱知县爱知县掃除してきちゃったもん。(我完成扫除了。)〈笑い〉トイレのところさあ,汚かってさ,こうやって思わずふいちゃってさ。((笑)厕所那儿挺脏的,我不由得这样擦了一下)きれいに。(擦干净了)わー主婦してるとか思ってさ。(哇,我觉得我在做主妇做的事情。)よかったね,主婦泊めて,ここの宿とか思って〈笑い〉,バスルームまで掃除しちゃった。(这儿的旅馆让主妇来住宿也是好事啊,(笑)连浴室都打扫了。)M023 男性20岁后半岐阜县爱知县遊びにいったのに。(明明是去玩的。)F107 女性30岁后半爱知县爱知县ほいでさあ,なんかさ,トイレットペーパーも,トイレットペーパー本体がなくって。(嗯,怎么说呢,连该放手纸的地方都没有放。)F128 女性20岁前半爱知县爱知县宿代もらわない。(拿不到住宿费。)

4月13日,宁夏回族自治区食品药品监督管理局印发《宁夏食品药品安全“黑名单”信息共享和联合惩戒办法》。《办法》规定,存在提供虚假证明、文件资料、样品或者采取其他欺骗、贿赂等不正当手段取得许可证或批准证明文件;伪造、涂改、倒卖、出租、出借、转让许可证或批准证明文件;受到吊销许可证行政处罚;一年内累计两次因违反食品药品相关法律法规规定受到责令停产停业处罚;逾期未主动履行行政处罚决定等情形的食品药品生产经营者或责任人员将被纳入黑名单。被纳入黑名单者,将在申请政府性资金支持、取得政府供应土地、申请办理行政审批等多个领域受到限制或惩戒。

まだ 副詞,助詞類接続,*,*,*,*,まだ,マダ,マダ

よく 形容詞,自立,*,*,形容詞・アウオ段,連用テ接続,よい,ヨク,ヨク

ない 助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ

? 記号,一般,*,*,*,*,?,?,?

可以看到通过词法分析后日语句子「まだよくない?」被分解成「まだ∕(副词,还)」「よく∕(形容词,好)」「ない∕(助动词,表示否定)」和“?(记号)”等几个日语语素。

然而,在国外尤其是美国与北欧地寒冷地域,热泵得到了广泛的应用,而且能正常运转。1994年,有关文献将空气热源热泵的使用范围划定在长江流域地区,而1995年,有厂家率先突破了这一范围,将其产品销售到了黄河流域的几个城市。随后,空气热源泵的应用范围不断北移,目前,已在京、津、胶东和西北地区有了成功的应用范例。现就新疆乌鲁木齐铁路集装箱中心站站后工程应用实例进行分析。

为实现从异性的日语会话语料库中抽取角色语言,首先需要对语料库中出现的每个词汇进行统计。但是日语文章不像欧美语言那样有文中空格作为单词之间的自然分隔符。因此,数据提取的第一步是将日语句子分割为可以统计的单位。这个步骤被称为词法分析。词法分析能够将日语句子切分成为能够表达意义的最小单位,即语素。目前针对日语的词法分析软件主要有MeCab,ChaSen和JUMAN等几种。其中MeCab由京都大学情报学研究科和日本电信电话公司交流科学基础研究所的共同研究项目进行联合开发,该词法分析软件不依存于其所需字典和语料库,其处理速度快于ChaSen和JUMAN(金明哲, 2009:30)。因此,本文利用MeCab(IPA词典)软件进行词法分析。MeCab不仅能够对日语句子进行切分,还可以完成对每个语素进行词性标注和读音标注等一系列工作。例句 「まだよくない?∕(还不太好吗?)」词法分析结果如下:

为了安全和方便实现,构建的实验平台包括三相低压微电网和能量回馈装置。这里用38 V/50 Hz的三相低压微电网模拟实际三相电网,能量回馈装置完成能量回馈功能。

由于本文的目的是要从语用的角度取得异性之间使用差距最明显的词汇,我们在数据采集的时候事先去除了与文章内容联系紧密的“实义词(content words)”。“实义词”是指和文章内容联系紧密的词汇,本文事先去除了名词,动词和形容词;另外,与角色语言无关的标点符号等记号也不列入考虑范围之内。去除“实义词”的原因主要是考虑到男女在语言使用上的频度差很可能受到会话内容的影响。例如,假设分析对象的男性之间会话的内容是关于足球比赛的,而女性之间会话的内容是关于化妆品的,那么“前锋”“守门员”等名词,“射门”“扑救”等动词,“快”“准”等形容词则自然会多次出现在男性关于足球的会话语料库中;反之,“粉底”“面膜”等名词,“抹”“敷”等动词,“白”“漂亮”等形容词则是会在女性之间关于化妆品的会话中大量出现。这种情况会导致内容语在一方的语料库大量出现而在另一方的语料库中几乎不出现,从而会被作为异性间使用差别较大的性别角色语言抽取出来。显然,这些词汇会随着会话的内容变化而并不能如实反映异性的词汇特征。因此,本文从语料库中事先去掉了“实义词”,而仅对副词,连词等“功能词(function words)”进行统计,创建用于抽出性别角色语言所需的数据集。从文本文件中提取数据的操作是利用日本同志社大学金明哲教授开发的文本挖掘软件MTMineR(Ver5.4)来完成的,提取到的数据集例子如表2所示。

现代科学技术的发展和应用,促进了编辑手段和出版过程的智能化、自动化和电子化,这种在新时代下呈现出来的新变化是编辑出版新功能和特点的展示。因此高校专业学生不仅要熟练掌握有关编辑出版理论和实践有关的知识,同时还应该开设现代编辑出版专业需要的信息技术工具学习课程,对于电子和网络出版物制作和发布有关的知识要了如指掌,这才是新时期用人单位需要的。

表2 男女别会话词汇数据统计表(部分)

性别/词汇 男性(M) 女性(F)うん(嗯) 1296 2507ね―(表示确认) 141 658です(是) 682 1676なあ(啊) 83 311

在表2中列出了异性会话中出现的词汇。正如表2所示,在总字数大致相同的语料库中「うん∕(嗯)」和「ね―∕(表示确认)」的使用上女性要明显多于男性,而在「です∕(是)」和「なあ∕(啊)」的使用上男性要明显多于女性。这种在异性之间使用频度较大的词汇,也就是说在日常会话中男性经常使用而女性很少使用,或者女性经常使用而男性很少使用的词汇可以被视作为性别角色语言。因此,本文在大规模语料库中抽出这种异性之间使用差别较大的词汇作为本研究讨论的日语性别角色语言。

本文抽出日语异性的角色语言的步骤可以抽象为一个从两组统计数据中寻找差异最明显的项目的问题。统计模型中的卡方检验被广泛应用于这种差异特征提取问题。卡方检验是由统计学家卡尔・皮尔逊(Karl Pearson)所提出的一种常用的检验两个变量独立性的方法。在卡方检验中,首先假设需要进行检验的两个变量是独立的,然后根据实测值和假设独立的时候的理论值的偏差来判断假设是否成立。当实测值和理论值的差足够小的时候则认为是样本本身的误差从而的出结论二者独立这一假设成立,而当偏差达到一定值后则该偏差不可忽略,二者独立这一假设不成立,从而得出结论二者是相关的。假设数据的实测值为Oi,期待值为Ei,那么用于衡量偏差程度的值可由下式计算得出。

将所有词汇整理成上述二元表形式之后,我们对表3中词汇「ね―∕(表示确认)」使用R语言进行计算后得到的p值为2.2×10-16。这个值明显小于假设检验的常用显著水平0.05,说明「ね―∕(表示确认)」是该语料库中区别异性词汇的显著特征。而且p值越小说明特征越明显。我们对每一个词汇生成一张二元表,进行计算得出该词汇对应的p值,并对该p值进行排序从而抽出特征词汇。我们对语料库中所有词汇按照其p值从小到大顺序排列得出在本文所用语料库中差异最明显的词汇集合。但是,对语料库中“比較的”这一日语词汇而言,女性使用频度为0而男性仅为2,其二元表中除了合计项以外的单元格中会出现2个单元格的值小于5,卡方检验不适用于在这种频度小于5的单元格占全体单元格的1/4以上(上例是1/2)的情况。在这种情况下,一般使用fisher精确检验来取代卡方检验。因此,本文使用fisher精确检验来进行性别角色语言的抽取(金明哲,2009:133)。

表3 词汇「ね―」(M的)二 元统女计性表(F)

?

每个词对应的值越大则表示该词汇在性别的分类中越有效。为了计算得到每个词对应的值,我们将语料库中所有出现的词整理成二元表的形式。日语中终助词「ね―」的二元表整理结果如表3所示。

四、试验结果分析

日语会话中男性和女性的词汇合计的 fisher精确检验结果如表4所示。按照0.05的显著水平来考虑本研究一共抽出了848个日语性别角色语言。其中p值越小说明在对应的词汇在男性和女性语料库中所使用的差异更大。由于篇幅关系,我们在所有848个性别角色语言中选取在异性中特征差异最明显的20个词汇进行考察。

表4中的数据可以大致分成四类。首先是日语敬语。从表4中我们可以看出,在用于区别日语性别特征的词汇中,最显著的特征为「です」,这个特征和第7位的「ます」都是敬语形式,而且都多用于男性。我们知道在日语中关系比较亲密的人在会话的时候会使用“だ”这样的简体形式,而有在关系相对疏远或者上下级关系的时候会使用敬语形式。该结果说明通过日语自然会话语料库的分析,相比于女性而言,男性倾向使用相对正式的敬语形式的词汇。例如:

针对于这种凭借单纯观测难以得出结论的情况,学者们提出了基于语料库统计分析的解决方法(毕玉德,2005;刘海涛,2015)。因此,我们试图采用统计的方法对大规模语料库进行挖掘,从而来实现日语异性角色语言的提取。

(既然你那么说了我们就期待着吧。)

M004:いやいや,甘味がね,一番のるんですよ。

使用传统他手术进行治疗,让病患平卧,全麻病患,头部稍向后仰,将手术区域暴露,于胸骨前切出8至10毫米的切口,离断甲状腺前肌群与颈阔肌,将切口缝合。

(那儿的话,这个甜味才是最美的味道。)

表4 日语性别角色语言fisher精确检验结果(p值升顺前20位)

顺序 词汇 男性(M) 女性(F) p值1 です 1676 682 3.69×10-102 2 うん 1296 2507 3.26×10-83 3 ねー 141 658 1.50×10-78 4 うーん 232 719 1.16×10-56 5 なあ 311 83 2.40×10-33 6 ん 817 444 3.90×10-28 7 ます 424 175 2.94×10-26 8 の 3628 4642 2.91×10-25 9 ふーん 123 323 5.62×10-21 10 そう 1433 1984 7.62×10-19 11 どー 24 130 1.95×10-18 12 さ 827 1236 1.19×10-17 13 よー 26 118 7.21×10-15 14 ええ 163 54 1.28×10-14 15 ああ 344 177 2.60×10-14 16 という 155 54 3.55×10-13 17 すごく 36 125 2.01×10-12 18 すごい 194 357 2.05×10-11 19 ねえ 582 390 6.97×10-11 20 えっ 35 115 7.01×10-11

其次是应答词汇。在表4中,对发言表示应和的应答词汇有「うん」「ええ」和「ああ」。相对于正式表达应答的「はい」而言,这三种词汇显得更加随意,更适合应用于亲密朋友之间的场合。在这三种词汇中在「うん」的使用上女性要明显多于男性,「ええ」和「ああ」的使用上男性要明显多于女性。例如:

F130:冷やしすぎ。

国家级试点示范项目以渐进的形式展开。2013年,国务院批复设立海南博鳌乐城国际医疗旅游先行区,特批9项优惠政策,打造健康旅游发展样本。2016年,国家旅游局、国家中医药管理局联合印发《关于开展国家中医药健康旅游示范区(基地、项目)创建工作的通知》,计划到2019年,在全国建成10 个示范区、100个示范基地和1000 个示范项目。2017年,国家卫生计生委等部门启动首批13个健康旅游示范基地建设,经过一年的创新实践,各个基地的示范作用已初步显现(见下表)。安徽、云南等省份陆续启动了省级示范基地和项目建设。

(凉的过火了。)

M004:ええ。

(是啊。)

M019: あの,発表っていうか,質問した人じゃなかったっけ。

(刚才的发表,是不是没有人提问?)

M007:ああ,質問してた。

5.油田内部自身因素。在油田的开发建设过程中,难免会对周边农田、林地、水域、空气质量等产生不同程度的影响,尽管这些影响按照国家标准属于可控范围,仍然成为部分农户索要高额补偿费的借口。另外,企业还需要不断完善自身的工作机制,从业人员的素质还需要不断提高,整个油地工作需要根据宏观形势的变化不断创新思维,探索和谐共建的新思路、新办法、新措施。

(啊,有人提问了。)

F089:そう,訓練ですよね。きっと。

(是啊,一定是训练吧。)

F011:訓練,うん,習ってないからね。

(训练,是吧,因为没学过啊。)

「うーん∕(嗯―)」和「ふーん∕(嗯―)」,这两种中间加上了长音的应答词汇经常被用来表达发话人需要思考或对当前会话表示自己感兴趣的场合,在这两种应答词汇中都是女性的使用频度要明显高于男性。「えっ∕(诶)」这个应答词汇常被用于表示惊奇,在本研究的语料库中得到的结果也是女性要明显高于男性。例如:

顾客满意是指顾客在接受企业提供的服务或者商品之后的消费感知。顾客的满意受到多方位的影响,包括产品的外观、质量、价格以及销售人员的服务态度等等。顾客的愉悦感越高,满意度就越高。简而言之,就是说顾客满意就是指在消费的过程中感觉良好,能够满足其消费的需求与期望,进而将其自身的感受通过直接表达或暗示的方式对外传递,肯定其消费过程的一种方式。而满意度是消费者根据消费体验做出的感知评价。顾客满意是由多方面的因素产生的,不仅包括企业产品与服务方面,还包括消费者的自身标准。因此要实现顾客满意是一项复杂的工程。

F028: 本当にスウェーデン語しゃべっちゃうっていう状況で。その方が楽だねとか言って。

(真的是用瑞典语在聊天,他说那样更顺畅。)

F004:うーん,そうなんだ。

(嗯―,这样啊。)

F028: キャンプにいる間ずっとその名前で呼ばれるんだもん。

以砂为骨料、石膏为主要的胶结材料,水泥为辅助胶结材料,1%硼砂溶液作为缓凝剂。按照一定的配比号 573 进行试验,配比情况为胶结材料与砂的比为5∶1,水泥、石膏比为7∶3。在本试验中,取骨料的质量为1 700 g,按照相似材料配比方案计算,需要水泥 238 g,石膏 102 g,硼砂溶液 340 g。

(在野营的时候有人一直被喊那个名字。)

(27)多形带叶苔 Pallavicinia ambigua (Mitt.)Steph.余夏君等(2018)

F004:ふーん,え,何人いるの?

(嗯―,诶,那是有几个人啊?)

F028: やってることはすごいおもしろいなって思ったけど。

(我觉得正在做的事非常有意思。)

浪歌手,从邂逅那天起,就悄悄地在他的心中占据了一席之地。进了地铁入口,拐了弯,高潮不由自主朝流浪歌手常站的位置望去,他看到那里有一圈人在围观什么。高潮走过去一看,原来被围观的是几位上访者。上访者扯着一块铺展开的喷绘

F004: そうか。えっ,それはさ,日本語以外にもさ,ほかの外国語も勉強できるの?

(是吗,诶,那除了日语以外还能学别的外语吗?)

第三是在先行研究中经常被作为识别异性语言特征的助词。在表4中的终助词有「ねー/ねえ/(表示确认)」「なあ/(啊)」「の/(终助词,女性词汇)」「けどー/(可是)」「さ/(吧)」和「よー/(哟)」。在这些终助词中除了「なあ/ (啊)」以外都是女性使用次数较多,其中本文使用MeCab进行词法分析的时候将「けどー/ (可是)」解析成为了「け」和「どー」两个部分。因此在表4中「どー」的出现频度其实是「けどー/(可是)」。例如:

F004: 私,最初ねー,別におとなしい印象はなかったよー。

(我最开始的时候也没有什么奇怪的印象。)

调控装置中叶片及主体框架是关键部件,其受风压及外力载荷影响,需要进行结构有限元安全性分析。叶片结构初始参数如下:20片叶片,长度400 mm,厚度1 mm,质量18.4 kg。主体框架结构初始参数如下:前圈厚度10 mm;框架直径1 000 mm;十字加强筋宽度5 mm。关键部件结构应力分析结果如图6所示。

F028:あー,なかった〈笑い〉。

(啊,没有啊(笑))

F004: すごい,うーん,取り乱してるっていうのがわかるわけよ。

(真厉害,嗯,已经知道对方开始慌乱了。)

F028:はーあ,そうなっちゃうのかなあ。

(啊―,真会变成那个样子吗?)

F004: それ何歳のときだったの。スウェーデンに行ったの。

(去瑞典的时候是几岁的时候?)

F028:にじゅうー,1になった年かな。

(好像是21岁的时候吧。)

F004: 私さー,年中鼻がずるずるしてて,ちっちゃいころからずっとそうなんだけど,まあ,アレルギー性らしんだけどー。

(我啊,一年中鼻子都不舒服,从小时候就这样,好像是过敏性鼻炎。)

F028: あー,原因は何か花粉症とかじゃなくって。

(啊,不是因为花粉症什么的啊。)

F033:内容は論文読んでるだけなのにねえ。

(内容就是读到的论文吧。)

F056: あー,でも,本当は研究しようと思ってたのね。

(啊,不过,是真的想要做研究的吧。)

最后,还有其他几类词汇也能够比较明显地反应性别差异,如「という∕(说话,思考的内容)」、「すごく∕(厉害)」和「すごい∕(厉害)」等词汇使用上女性多于男性。「という∕(说话,思考的内容)」表示对某种事物解释说明,男性更多使用。「すごく∕(厉害)」表示程度的副词,「すごい∕(厉害)」则是表示对某种现象赞扬,近年也被年轻人作为流行口语来使用。这两种词汇都是女性的使用居多。

F105: 結局,ほかのもの見る,見に行くけどさあ。

(结果,也会去看别的东西。)

M032: 人によっては自分探しという人もおるよ

うですが。(好像也有人是为了寻找自我。)

F056: すごい迷ってさあ,選んだのが,何だこれは。

(迷茫了好久之后,究竟选了一个什么东西啊。)

F033: あるある。この前,小物屋さん入ってさあ,見てるときはすごい楽しいじゃん。

(有的有的,之前我们去过的杂货铺里面的从西都特别好吧。)

除了可以按照词语的语法功能分类以外,在表4中我们还注意到,凡是带有长音记号的,「うーん∕(嗯―)」、「ふーん∕(嗯―)」、「ねー∕(表示确认)」、「よー∕(哟)」、 「どー∕(怎样)」都是女性更加常用,相对而言这也体现了女性在会话时更爱拖长某些音节的特点。

五、结语

本文提出了一种对日语角色语言进行提取的方法,并将该方法应用于自然会话语料库中。本文采用fisher精确检验方法实现了日语性别特征语言提取。通过对结果的分析发现,在表现性别特征方面,除了已经普遍被接受的能正确反映日语口语中性别特征的人称代词和「の∕(终助词,女性词汇)」等终助词以外,表示应答的「うん∕(嗯)」「ええ∕(嗯)」和「ああ∕(啊)」,终助词的「ねー/ねえ(表示确认)」「なあ∕(啊)」「さ∕(吧)」和「よー∕(哟)」,还有「どー∕(怎样)」「という∕(说话,思考的内容)」等词汇都能够有效地反映日语中异性的特征。研究结果对已有的日语性别特征语言研究进行了扩展,验证了通过语料库分析进行特征语言提取的新方法,该方法比起传统的内省方法有着客观性强,可实时分析大量语料等优点。

本文最主要的问题点在于语料库的建设。文中采用的自然会话语料库中抽取的男性37名和女性24名自的文字数都在31万字左右,这个数据量仍然没有达到能够切实反映日语语言本身的程度。另外,从这个语料库中挖掘出来的角色语言仍然不能排除会话双方的出身地等地域要素的影响。因此,在后续研究中有必要建设更大规模的均衡语料库,以增加语料库的覆盖面。

参考文献:

[1] 金水敏.2002.ヴァーチャル日本語 役割語の謎[M].東京:岩波書店.

[2] 金明哲.2009.テキストデータの統計科学入門[M].東京:岩波書店.

[3] 白晶.2001.从日语男女用语差别看女性语的特点及特征[J].长春大学学报 , (11): 71-73.

[4] 毕玉德.2005.面向语言信息处理的朝鲜语知识库研究[J].中文信息学报 , (3): 28-32.

[5] 曹春玲.2017.日语影视作品中男女词汇终助词使用的调查研究[J].日语学习与研究, (4): 30-40.

[6] 郝素岩.2000.谈日语的性别差异[J].日语知识, (8): 15-17.

[7] 刘海涛.2015.学科交叉是发现语言规律的利器[N].浙江大学学报, 2015-11-13.

[8] 孙永恩.1997.日语“女性语”特色[J].日语知识, (11): 16.

[9] 张忆杰.1994.日语的男女词汇区别[J].日语学习与研究, (1):40-45.

孙昊
《东北亚外语研究》 2018年第01期
《东北亚外语研究》2018年第01期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息