标题 | 红楼梦前80章与后40章的作者分析 |
范文 | 谭翔予 陈龙 石水萌 摘 要:《红楼梦》的作者问题成功地吸引了国内外读者的注意。基于此,本文以数理统计为基础,应用支持向量机的理论和方法,建立相应模型,证实了《红楼梦》前80章回和后40章回在某些字、词、句上确实存在显著性差异。首先采用引用大胆假设,小心验证的思路,使用机器学习-支持向量机进行分类,通过高斯径向基函数,寻找到最优分类超平面,由于数据样本不足,导致分类结果正确率仅为85%;然后,使用matlab软件绘制类别分界图。最终效果:0-80章回在1的水平上,81-120章回在-1的水平上,并且分界点明显在80-81章回之间,佐证了《红楼梦》前80章回和后40章回作者不同。 关键词:红楼梦;格拉布斯检验;方差分析;支持向量机 0.引言 《红楼梦》,中国古典四大名著之一,清代作家曹雪芹创作的章回体长篇小说。《红楼梦》开篇以神话形式介绍作品的由来,说女娲炼三万六千五百零一块石补天,只用了三万六千五百块,剩余一块未用[5],弃在青埂峰下。剩一石自怨自愧,日夜悲哀。一僧一道见它形体可爱,便给它镌上数字,携带下凡。不知过了几世几劫,空 空道人路过,见石上刻录了一段故事,便受石之托,抄寫下来传世。辗转传到曹雪 芹手中,经他批阅十载、增删五次而成书。 以贾、史、王、薛四大家族的兴衰为背景,以贾府的家庭琐事、闺 阁闲情为脉络,以贾宝玉、林黛玉、薛宝钗的爱情婚姻故事为主线,刻画了以贾宝 玉和金陵十二钗为中心的正邪两赋有情人的人性美和悲剧美。通过家族悲剧、女儿悲剧及主人公的人生悲剧,揭示出封建末世危机。 同时也是一部具有世界影响力的人情小说作品[1],是中国古典小说巅峰之作,中国封建社会的百科全书,传统文化的集大成者。小说以“大旨谈情,实录其 事”自勉,只按自己的事体情理,按迹循踪,摆脱旧套,新鲜别致,取得了非凡的艺术成就。“真事隐去,假语村言”的特殊笔法更是令后世读者脑洞大开,揣测之说久而遂多[3]。围绕《红楼梦》的品读研究形成了一门显学——红学。 因某些历史原因,《红楼梦》在传播和保留过程中出现了令人遗憾的缺失。前80章回曹雪芹本著,120章回高鹗续40章回的两大版本,是目前公认的版本。本文通过建立SVM分类模型[2],就《红楼梦》前80章回和后40章回中的语句和语义来佐证前80章回和后40章回的作者不同。 1 数据预处理 1.1格拉布斯检验法 通过下列公式进行计算1-80章与81-120章“必是”、“索性”、“为什么”等词在不同章节出现的次数对应的<!--[if gte vml 1]> <!--[if gte vml 1]> <!--[if gte vml 1]> 通过对比格拉布斯临界值找出可疑极值点,将这些可疑极值点进行剔除。 1.2 距离反比加权插值法 由于相邻章节在内容和作者上都有很大的相似性,相邻章节之间的影响会比较大,所以采用距离反比加权插值法进行填补,更大程度上保留了章节的信息量,具体计算过程如下: 设每组数据之间的距离为1,权重计算公式如下: 5 SVM分类 先大胆假设,后合理验证。本文选择使用SVM[6]方法来进行学习分类,为了证明分界点在80章与81章之间,在语句和语义选择上。通过参考资料,分析出它们不同之处,用关键字词反映语句和语言的特点,最终选择了“怎么”、“若”两个作为代表,“怎么”代表反问句,“若”代表假设句。模型如下: 假设1-10章回与81-90章回作者不同; 选择核函数[10]进行SVM学习。 常用的核函数有四种,包括线性核函数、多项式核函数、径向基核函数、二层神经网络核函数,在这四种核函数中,最常用的是高斯径向基函数,它的特点:收敛速度快,泛化能力强。 作为核函数[7]进行SVM学习,找寻分类最优超平面,通过拉格朗日方法把问题转化为其对偶问题 <!--[if gte vml 1]> 之后通过支持向量机进行分类分类效果见下图: 对分类结果进行分析,使用的SVM分类正确率为85%。因为样本个体的数据太少,学习样本数目不足,尽管对数据进行了处理[8]但仍然有较大的随机性,将分类结果做成表格(数据见附录)和图,分析两类的分界点。 求证分类 结论 分界点明显在80章和81章之间,虽然中间有少量章节被错误划分,但是在假设的前提下,可以认定《红楼梦》前80章回和后40章回不是一个作者。 参考文献 [1]汪维辉.《红楼梦》前80回和后40回的词汇差异[J].古汉语研究,2010(03):35-40+95-96. [2]施建军.基于支持向量机技术的《红楼梦》作者研究[J].红楼梦学刊,2011(05):35-52. [3]杨粟森,彭旭,赵映诚.基于数理统计的《红楼梦》前80回与后40回相关性的多指标综合分析[J].电子世界,2017(02):197-199. [4]公丽艳,孟宪军,刘乃侨,毕金峰.基于主成分与聚类分析的苹果加工品质评价[J].农业工程学报,2014,30(13):276-285. [5]胡竹菁,戴海琦.方差分析的统计检验力和效果大小的常用方法比较[J].心理学探新,2011,31(03):254-259. [6]杨小勇.方差分析法浅析——单因素的方差分析[J].实验科学与技术,2013,11(01):41-43. [7]林海明,杜子芳.主成分分析综合评价应该注意的问题[J].统计研究,2013,30(08):25-31. [8]丁爱玲,谢小军,闻怡.具有高斯核函数的支撑矢量机与径向基函数分类器的比较[J].交通与计算机,2003(03):44-48. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。