网站首页  词典首页

请输入您要查询的论文:

 

标题 红楼梦前80章与后40章的作者分析
范文

    谭翔予 陈龙 石水萌

    摘 要:《红楼梦》的作者问题成功地吸引了国内外读者的注意。基于此,本文以数理统计为基础,应用支持向量机的理论和方法,建立相应模型,证实了《红楼梦》前80章回和后40章回在某些字、词、句上确实存在显著性差异。首先采用引用大胆假设,小心验证的思路,使用机器学习-支持向量机进行分类,通过高斯径向基函数,寻找到最优分类超平面,由于数据样本不足,导致分类结果正确率仅为85%;然后,使用matlab软件绘制类别分界图。最终效果:0-80章回在1的水平上,81-120章回在-1的水平上,并且分界点明显在80-81章回之间,佐证了《红楼梦》前80章回和后40章回作者不同。

    关键词:红楼梦;格拉布斯检验;方差分析;支持向量机

    0.引言

    《红楼梦》,中国古典四大名著之一,清代作家曹雪芹创作的章回体长篇小说。《红楼梦》开篇以神话形式介绍作品的由来,说女娲炼三万六千五百零一块石补天,只用了三万六千五百块,剩余一块未用[5],弃在青埂峰下。剩一石自怨自愧,日夜悲哀。一僧一道见它形体可爱,便给它镌上数字,携带下凡。不知过了几世几劫,空 空道人路过,见石上刻录了一段故事,便受石之托,抄寫下来传世。辗转传到曹雪 芹手中,经他批阅十载、增删五次而成书。

    以贾、史、王、薛四大家族的兴衰为背景,以贾府的家庭琐事、闺 阁闲情为脉络,以贾宝玉、林黛玉、薛宝钗的爱情婚姻故事为主线,刻画了以贾宝 玉和金陵十二钗为中心的正邪两赋有情人的人性美和悲剧美。通过家族悲剧、女儿悲剧及主人公的人生悲剧,揭示出封建末世危机。

    同时也是一部具有世界影响力的人情小说作品[1],是中国古典小说巅峰之作,中国封建社会的百科全书,传统文化的集大成者。小说以“大旨谈情,实录其 事”自勉,只按自己的事体情理,按迹循踪,摆脱旧套,新鲜别致,取得了非凡的艺术成就。“真事隐去,假语村言”的特殊笔法更是令后世读者脑洞大开,揣测之说久而遂多[3]。围绕《红楼梦》的品读研究形成了一门显学——红学。

    因某些历史原因,《红楼梦》在传播和保留过程中出现了令人遗憾的缺失。前80章回曹雪芹本著,120章回高鹗续40章回的两大版本,是目前公认的版本。本文通过建立SVM分类模型[2],就《红楼梦》前80章回和后40章回中的语句和语义来佐证前80章回和后40章回的作者不同。

    1 数据预处理

    1.1格拉布斯检验法

    通过下列公式进行计算1-80章与81-120章“必是”、“索性”、“为什么”等词在不同章节出现的次数对应的<!--[if gte vml 1]> <![endif]--><!--[if !vml]-->3092465.png<!--[endif]-->值:

    <!--[if gte vml 1]> <![endif]--><!--[if !vml]--><!--[endif]-->? (1)

    <!--[if gte vml 1]> <![endif]--><!--[if !vml]--><!--[endif]-->经过一系列的计算,整理得到下表,用所得到的<!--[if gte vml 1]> <![endif]--><!--[if !vml]--><!--[endif]-->值与格拉布斯临界值检验表进行对比,其中<!--[if gte vml 1]> <![endif]--><!--[if !vml]--><!--[endif]-->,将异常数据剔除[4]。

    通过对比格拉布斯临界值找出可疑极值点,将这些可疑极值点进行剔除。

    1.2 距离反比加权插值法

    由于相邻章节在内容和作者上都有很大的相似性,相邻章节之间的影响会比较大,所以采用距离反比加权插值法进行填补,更大程度上保留了章节的信息量,具体计算过程如下:

    设每组数据之间的距离为1,权重计算公式如下:

    5 SVM分类

    先大胆假设,后合理验证。本文选择使用SVM[6]方法来进行学习分类,为了证明分界点在80章与81章之间,在语句和语义选择上。通过参考资料,分析出它们不同之处,用关键字词反映语句和语言的特点,最终选择了“怎么”、“若”两个作为代表,“怎么”代表反问句,“若”代表假设句。模型如下:

    假设1-10章回与81-90章回作者不同;

    选择核函数[10]进行SVM学习。

    常用的核函数有四种,包括线性核函数、多项式核函数、径向基核函数、二层神经网络核函数,在这四种核函数中,最常用的是高斯径向基函数,它的特点:收敛速度快,泛化能力强。

    作为核函数[7]进行SVM学习,找寻分类最优超平面,通过拉格朗日方法把问题转化为其对偶问题

    <!--[if gte vml 1]> <![endif]--><!--[if !vml]--><!--[endif]-->为拉格朗日乘子该,问题就是求解最优化问题。分类函数变为

    之后通过支持向量机进行分类分类效果见下图:

    对分类结果进行分析,使用的SVM分类正确率为85%。因为样本个体的数据太少,学习样本数目不足,尽管对数据进行了处理[8]但仍然有较大的随机性,将分类结果做成表格(数据见附录)和图,分析两类的分界点。

    求证分类

    结论

    分界点明显在80章和81章之间,虽然中间有少量章节被错误划分,但是在假设的前提下,可以认定《红楼梦》前80章回和后40章回不是一个作者。

    参考文献

    [1]汪维辉.《红楼梦》前80回和后40回的词汇差异[J].古汉语研究,2010(03):35-40+95-96.

    [2]施建军.基于支持向量机技术的《红楼梦》作者研究[J].红楼梦学刊,2011(05):35-52.

    [3]杨粟森,彭旭,赵映诚.基于数理统计的《红楼梦》前80回与后40回相关性的多指标综合分析[J].电子世界,2017(02):197-199.

    [4]公丽艳,孟宪军,刘乃侨,毕金峰.基于主成分与聚类分析的苹果加工品质评价[J].农业工程学报,2014,30(13):276-285.

    [5]胡竹菁,戴海琦.方差分析的统计检验力和效果大小的常用方法比较[J].心理学探新,2011,31(03):254-259.

    [6]杨小勇.方差分析法浅析——单因素的方差分析[J].实验科学与技术,2013,11(01):41-43.

    [7]林海明,杜子芳.主成分分析综合评价应该注意的问题[J].统计研究,2013,30(08):25-31.

    [8]丁爱玲,谢小军,闻怡.具有高斯核函数的支撑矢量机与径向基函数分类器的比较[J].交通与计算机,2003(03):44-48.

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/2/6 1:00:51