基于语料库的《万水千山走遍》语言风格研究
史传敏
内容摘要:《万水千山走遍》是三毛的一部游记散文,本文通过自建《万水千山走遍》语料库,从高频词、标点符号、文本难度和句子分析四个层面,对作品进行风格分析。
关键词:《万水千山走遍》 语料庫 语言风格 高频词 标点 文本难度 句子
1.引言
《万水千山走遍》是作家三毛撰写的一部散文游记,国内关于文本风格的研究大多从文学角度,基于研究者自身的主观感受,对作家的思想、作品的语言、结构进行描述。本文旨在通过定量的语言特征统计与分析,结合此前对《万水千山走遍》的定性传统风格学描写,总结出这部作品的风格。
2.语料库的建立
本文首先建立《万水千山走遍》语料库,采用“语料库在线”网页对语料进行初步分词和词性标注,辅以人工校对,然后借助于AntConc和Excel对词汇、标点进行量化统计和分析,再用AntConc进行主题词分析和高频词检索。
3.《万水千山走遍》作品风格分析
3.1基于语料库的高频词分析
高频词是反映文本内容和作者用词习惯的一个重要语言特征。Leech和Short(2001)认为频次超高或者超低的词都是一种偏离。刘颖(2014)认为,对于同一类型的不同作家的作品,高频词可以反映不同文本之间的关注内容的差异。
分析名词可以大致了解语料涉及的主题;分析动词可以知道三毛在这部作品中使用动词的倾向性,是表示人或事物的动作、存在、变化还是表示人的必理活动及意愿等等;分析形容词可以发现作者的情感及作者叙述性的写作倾向。用AntConc的Wordlist功能处理《万水千山走遍》语料库可以得到前100个高频词,我们可以进一步整理出高频词的词类。见表1:
由表1可知,《万水千山走遍》中使用最多的人称代词是“我”,并且“我”的使用频次非常高,从第一人称的视角还原旅途场景、抒发个人情感,这样的叙述手法可以达到让读者感同身受的效果。整体上,人称代词整体在文中的比例非常高,这体现了三毛以移步换景的手法向读者叙述这趟心灵放逐之旅的见闻。
文中高频的动词有走、去、来、看、吃、想等,名词有时候、东西、地方、旅馆等,这类词都是偏口语化的用词,单音节词比较多,这些生活化词高频率的使用营造出一种轻松中又有些忙碌的旅行氛围。另外,高频词中的动词的数量远远高于其他,这也体现了散文游记的特点,着重于刻画见闻轶事,描摹人物景致。
3.2基于语料库的标点符号分析
符号是书面语言中不可缺少的一部分,标点符号是文本中的有机成分,不是外加上去的,同一个文本使用不同标点符号会产生不同的效果。我们通过Excel统计出《万水千山走遍》中的标点符号使用频次,见表2。
从表2可以看出,文本中“,”出现的频率非常高,经过检索我们可以发现这篇散文多是短句,甚至话题链内部不需要逗号标注停顿的地方很多都用上了逗号,这些用逗号隔开的内容往往都含有作者想要表达的语义重点,或者传递某种氛围。如(1)。
(1)也是那一晚,做了一个梦,梦中,大巴士——那种叫做青鸟的干净巴士,载了我去了一个棕榈满布的热带海滩,清洁无比的我,在沙上用枯枝划一个人的名字。
例(1)一个话题中包含7个小句,由逗号造成的短暂停顿赋予了文本一种韵律感,使文本内容更加轻松易读。同时,在名词代词后的停顿让读者有更多时间将注意点转向文本意境的描摹刻画,而不仅仅是叙述内容本身。如(1)中“清凉无比的我,”突出表现“我”的身体、心理状态都是极佳状况。
此外,“。”“!”“?”在文中的使用频率也很高。其中,句号的使用可以表现文本话题链之间的转换,作为一部游记散文,丰富的叙述主体内容决定了文本需要使用大量的句号,从而使文本更具生动性和画面感。问号和感叹号的使用往往是为了表达作者强烈的情感,有时甚至出现多个感叹号并列出现的情况。如(2)。
(2)“喂!!混账!”我追着去打车子,水中跑也跑不快,连腰上都已湿了。
例(2)中两个感叹号连用,放大了语气,表现作者的极度愤慨。问号和感叹号在文本中的大量出现反映了作者善于刻画人物心理,描摹事件情状的特点。
此外,这篇散文中的双引号使用频次仅次于“,”“。”。经检索发现,整部散文游记具有对话和描写相结合的特点。
3.3基于语料库的文本难度分析
在计算风格学中,有几个指标可以用来衡量文本的难易程度,包括类符形符比,平均词长,平均句长,平均段长等。类符形符比(Type Token Ratio,TTR)是类符(Type)和形符(Token)之比,形符是指一个文本中所有的词,类符是文本中词频为1的词,TTR是衡量词汇丰富度的指标,词汇丰富度越高,文本越难。TTR的公式(陆芸,2012):
表3是《万水千山走遍》语料库的文本难度各项指标系数。
通过对文本难度的分析,我们可以看到这个文本中的形符类符比较低,可见文章中超过一半的词汇都出现不止一次,词汇丰富度低,文本难度不高。平均词长为1.5左右,进一步验证了上文中得出的文章以单音节词居多的结论,平均句长和平均段长比为0.466,可见平均每段的的句子数为2.14,说明一个篇章中的情节较少,更加降低了文章理解的难度。
3.4基于语料库的句子分析
句子分析主要从两方面着手,一是句长离散度,二是句子破碎度。
句长离散度是文本中句子的句长偏离平均句长的程度,计算公式(苗艳艳,2017):
Ds表示句长离散度,Li表示平均句长,Ls表示不同句子的长度,N表示文本中句子的总数。句长离散度的大小反映的是文本的节奏变化程度,值越小表示句长变化不大,文本比较平稳,句长重复很高,整个文本就比较有韵律。
句子破碎度是指一句话的停顿次数,一般来说,句子中的标点符号越多,停顿越多,破碎度越高,口语性越强。计算公式(阚明刚,2011):
句子破碎度=小句数/总句数
表4是句长离散度和句子破碎度具体数据。
《万水千山走遍》文本的句长离散度为18.193,句子破碎度为2.648,文本的句长离散度较高,表明文本中的句长变化比较大,文章结构富于变化,长短句错落。句子破碎度较高,表明文章中每句话中的停顿较多,口语性很强。
4.结论
本文通过自建《万水千山走遍》语料库,从高频词、标点符号、文本难度和句子分析四个层面,对作品进行风格分析,得出结论如下:
通过高频词分析,可以得出三毛大量使用第一人称叙述这次旅行见闻,叙述语言多以单音节词动词为主,内容偏口语化,读起来轻松、流畅、自然。
标点符号方面,文章以短句为主,在造成停顿的同时,传递出特定语义重点,营造特定氛围。感叹号和句号的使用强化了文章的情感语气,使表达更切合口语特点。双引号的高频使用体现了文章一大叙述特点——对话和描写相结合。
文本难度方面,这部散文游记中超过一半的词汇都出现不止一次,词汇丰富度低,平均词长、句长、段长都较短,文本理解难度不高。
句子方面,这部游记散文的结构富于变化,长短句错落,并且口语性较强。
参考文献
[1]阚明刚.几个语体参数的定量对比研究——以新闻报道和访谈对话为例[J].语文学刊,2011(17):46-48+54.
[2]刘颖,肖天久.金庸与古龙小说计量风格学研究[J].清华大学学报(哲学社会科学版),2014,29(05):135-147+179.
[3]陆芸.词汇丰富性测量方法及计算机程序开发:回顾与展望[J].南京工业大学学报(社会科学版),2012,11(02):104-108.
[4]苗艳艳.基于语料库的毕飞宇、苏童作品风格比较研究[D].南京师范大学,2017.
[5]Leech,Short. Style in Fiction:A linguistic introduction to English Fictional Prose.北京:外语教学与研究出版社,2001.
(作者单位:上海交通大学人文学院)