莫言作品语言特色的计算机分析方法

    翟厚呈,万少东,王义鹏,王朝龙

    

    

    

    摘 要:本文运用计算机软件方法,实现对莫言若干篇作品的自动处理,分析他遣词用句的文学特色,尝试计算机软件和数据库技术在文学领域的应用。

    关键词:莫言;词频分析;文本处理

    0 引言

    文本分词处理是情报学、信息技术研究的重要方向和应用领域,目前对于英文文本处理的技术比较成熟,而中文表达方式在结构上与英文有着巨大的差异,中文文本中的词语的用法变化多端,需要深入地研究。诺贝尔文学奖得主莫言(1955-),原名管谟业,生于山东高密县,中国当代著名作家。香港公开大学荣誉文学博士,青岛科技大学客座教授。他自1980年代中以一系列乡土作品崛起,充满着“怀乡”以及“怨乡”的复杂情感,被归类为“寻根文学”作家。其作品深受魔幻现实主义影响,写的是一出出发生在山东高密东北乡的“传奇”。莫言在他的小说中构造独特的主观感觉世界,天马行空般的叙述,陌生化的处理,塑造神秘超验的对象世界,带有明显的“先锋”色彩[1]。我们通过计算机从定性的角度研究莫言的语言特色,从而提高人们欣赏莫言、欣赏文学、热爱中华民族文化的水平。

    开发计算机处理语言文本软件,就是通过计算机技术进行定量的分析,能更准确地反映作家的写作技巧和语言驾驭能力,总结知名作家的艺术发展之路。本文选取莫言的代表作品5篇以上,进行分词后保存到数据库,进行聚类分析,最后选取一定的高频词结合作品的情节分析它们的特色所在。

    1 文本选取及处理

    1.2 文本选取

    本文选取莫言不同时期的五部具有代表性的作品《红高粱》、《檀香刑》、《丰乳肥臀》、《生死疲劳》和《蛙》进行分析。1981年莫言发表了人生的第一部作品《春夜雨霏霏》。至今莫言共发表了80多篇短篇小说、30部中篇小说、11部长篇小说,出版过5部散文集、一套散文全集、9部影视文学剧本,以及两部话剧作品。

    如图1,莫言作品时期间隔明显。莫言是我国新一辈极具活力的作家之一。早期的作品描写童年记忆的乡村世界,表现独特的生命体验。中期受拉美魔幻现实主义的影响,构造独特的主观感觉世界,塑造神秘的超验的对象世界,给人以“先锋”色彩。而后进入新的探索期,激情勃发,画面五彩斑斓,语言充满进攻型,反叛语言[2]。本文进行分析研究的五部作品是莫言不同时期的作品,一部是早期的,一部是中期的,其余三部是新时期的。

    1.2 技术方法

    运用计算机语言VB和VC开发出一款中文语言文本处理软件,定量的分析莫言作品中语言特色;使其具备对选中的文本进行分词处理及将处理好的词汇导入数据库表,并统计词频;然后利用SQL server 2005和Excel 2010中分类、排序和汇总等功能对数据进行对比分析等处理。

    1.3 文本处理

    文本处理分为两个部分。第一,将将不同格式的莫言小说的电子文档转为统一的.txt文件格式,运用自编文本处理软件将电子文档进行分词处理,并导入SQL server 2005和Excel 2010中,使其满足分类、排序和汇总等功能将数据处理为所需形式。第二,人工结合计算机分析的结果将每部作品中出现频率高的字、词提取出来,利用Excel 2010进行对比分析。并与莫言所生活的环境和所处时期进行对比,得出其语言的用语特色。

    2 软件设计

    软件设计可分为两个部分工作。

    第一,准备工作。在处理数据前先对词频分析和如何词频分析进行了研究。现在较为成熟的词频分析为英文的词频分析,因为英文每个单词之间都有空格符间隔,易于进行提取单词处理。而现在较为成熟的中文分词软件是AnalyzerTest和中科院张华平博士的分词软件,而这两款分词软件都有一些欠缺。AnalyzerTest的分词效果稍差些,速度和准确性有待提高;张华平博士的分词处理软件的可操作性不高,使用方法繁琐。因此,本文力求克服上述软件的缺点,就如何实现并提高中文分词的效率和如何提高软件的可操作性方面进行了重点改进。软件设计侧重于两个方面:(一)基于字符串的分词方法,这种方法主要是提高对长字符串的提取。现行的中文分词软件对超过两个字的长字符串的分词效果差,这样对文章分析的破坏性很大。本文着力提高对字符串的提取效果,对文本处理意义很大。(二)基于统计的分词方法,特别关注对叠词的提取。叠词在文章分析过程中很容易改变原意。

    第二,编写程序,文本分词处理。本文的特点是以助词、语气词、标点符号等特殊字词为标志来实现分词处理,应用中预期效果很好。

    文本处理的程序运行流程如图2所示。在实际应用中如果仅仅利用上述的特殊字词为标志来处理文本的话,那么产生的结果会有较大的失真现象。例如若以助词“的”为特征词来做分词处理,那么如果出现“有的放矢”这个词,软件就会将“的”剔除,变成“有”和“放矢”这两个词。使分词的效率大大降低。从而使得出的词频分析失去准确性。所以,针对上述问题本软件设计了解决方法。一般地,中文的语句和字词有一个特点,就是每句话都由固定词性的字词构成,如“主语+谓语+宾语”就构成一个简单的语句。并且中文本每个字词都有其固有的词性,如“动词”、“名词”、“介词”、“助词”等。本文利用了这层关系进行分词处理,分词的失真率已经大大地降低了,并且词频的统计准确性更高。

    3 莫言作品语言特色分析

    莫言曾说:“语言变起来比较困难,语言是一个作家风格的最主要的体现。以前我一个老师说过‘语言在某种意义上是一个人的精神分泌,他认为一个人之所以讲话时这种语调,这种风格,他的词汇量的组成跟他的生活是有关系的。我努力变化着语言,尽量简洁平实一点,通俗易懂一点……”[4]莫言是文学大家,利用计算机对他的作品进行分析,是为了更好的欣赏他的作品,分析他长期以来的遣词造句的特色。如表1所示,表1是莫言文章中所使用的部分助词与语气词的词频分析。这些词在本文的软件运行时会当成分词标志全部被处理,通过对这些助词和语气词的分析,可以分析出莫言的一些用语习惯。比如其对“的”的使用,几乎没有什么变化,而其对“啊”、“是”的使用频率却随着写作时间的推移,他对这个字的使用频率更高。得出的一个明显的印象是莫言作品胶东地区口语化的描述较多,阅读起来比较有自然而轻快的感觉;莫言的文学更加贴近生活。

    通过分析,莫言作品还有很多遣词造句的特色,比如莫言的文章中很喜欢使用叠词,如:《红高粱》中,马骡驴牛“咯嘣咯嘣高粱秸子,口炎炎啦口炎炎啦吃高粱穗子”,《檀香刑》中,他学伤风山羊一样地咳嗽:“吭吭坑!吭吭坑吭吭坑吭”,这些叠词形式的声音词往往使文学语句整齐匀称,从而增强语言的节奏感,读来朗朗上口,声韵铿锵。通过对莫言作品的文本处理分析,一方面可以从高频词的使用揭示其语言技巧,另一方面,也可以通过低频词的出现反映了莫言作品中浓郁的乡土气息。例如通过统计分析发现莫言作品中常常出现一些方言语汇,虽然出现的频次较低但很有特色,呈现出原生态的语言,对山东高密的方言运用尤为突出。如“褡裢”一词的描写是北方乡间农民外出时随身携带的一种布袋,它搭在肩膀上,前后各一个口袋,用来放随身携带的物品,活灵活现地写出了“父亲”的农民身份,突出了人物形象的穷困、沧桑之感。 再如“胡吣” 是上官吕氏骂司马亭的话。“吣”的普通话之意是 “呕吐”,高密方言中引申为胡说八道之意。莫言以他独特新锐的思维和视角,创造出新颖鲜活的个性语言,彰显了语言艺术的无穷魅力 [5]。

    总之,计算机不再是死板的机器,通过它分析文学作品,可以很灵活,也可以利用自己的“语言”对一句话,一段文字,甚至一篇文章进行全面处理,它可以利用自己的“眼睛”洞察每个字词细微的差别,展现文学艺术之美。

    参考文献:

    [1]天涯论坛[EB]. http://bbs.tianya.cn/post-develop-1101210-1.shtml

    [2]唐毅.浅论莫言的创作特色[J].魅力中国,2009(13).

    [3]努努书坊_小说在线阅读[EB] http://book.kanunu.org/files/writer/8236.html

    [4]高迭勤.莫言小说的叙述语言与视角[J] .写作, 2001(11).

    [5]邱晓岚,南瑛.论莫言小说语言的艺术特色[J].漯河职业技术学院学报,2012(01).

    [6]360doc个人图书馆[EB] http://www.360doc.com/content/11/1211/00/821761_171375026.shtml.2011-12-11

    本文系“江苏省高等学校大学生创新创业训练计划2013年立项项目(201351256028X)”的成果。

相关文章!
  • 融资融券对日历效应的影响:来

    王璐摘 要:过去的研究表明,中国股市的运行效率受到政府监管与干预并存在非对称交易的现象。2010年3月31日,中国股票市场实行了融资融券

  • 小桥老树的“官场江湖”

    张凌云凭借一部《侯卫东官场笔记》,他红遍大江南北,接连几年闯入国内作家富豪榜;他神龙不见首尾的低调一度引发全国大搜索。因他的作品而

  • 公司治理、内部控制对盈余管理

    金玉娜柏晓峰摘 要:按照形成原因——作用机理——解决机制的路径,对抑制盈余管理有效途径的实证研究表明:机会主义偏误和技术性错误是盈余