标题 | 基于主成分分析的电影数据研究 |
范文 | 张超 摘要:为了综合分析电影数据,本文通过工具SPSS19.0,运用主成分分析方法,对样本进行数据统计分析,建立了对应的数学模型,希望为电影制作方和影院提供一定的参考。 关键词:主成分分析;数学模型;SPSS 中图分类号:TP311 文献标识码:A 文章编号:1009-3044(201 9)30-0001-02 1概述 随着涌现出很多优秀并且庞大的电影量,一部电影又包含了众多的属性,这些不同的属性引起的效应大小各异。基于庞大的电影数据,就需要我们用计算机来处理和分析,来减少人工工作量,获得我们想要的信息。本文使用主成分分析方法,对电影数据进行综合统计分析,希望可以为电影制片方合理分配资源和影院排片提供一定的参考。 3实验数据 本文实验采用了50部电影数据,其来源于豆瓣网站,包含了导演影响指数、明星指数、评分、片长、是否黄金周、影片类型、是否续集、想看人数、制作地区、票房收入共10个属性。其中影片类型和制作地区数据不能直接使用,必须先转换为数值类型,本文采用最基本的分类标记,对制作地区中国大陆标记为1,香港标记为2,美国标记为3,印度标记为4。同理对影片类型进行标记。通过这种简单的数值标记能确保这两个变量能进人数据分析。 4主成分分析过程 本文使用从豆瓣电影搜集的票房相关数据进行分析,借助数据统计分析工具SPSS19.0对样本数据进行主成分分析,分析步骤:首先加载数据:文件一打开一数据一选择本地数据。然后分析数据:分析一降维一因子分析。获得输出结果如下表1、2所示: 由表1结果可知,在本例中,成份1、2、3和4的特征值大于1,他们累计贡献率达到70.21%,还算不错,所以我们通过主成分分析,可以提取4个主要成份,转换后的这4个综合指标可以大致反映原始数据。 使用spss数据分析软件对电影票房数据进行分析,从中提取出了4个主要成份,從表2可知导演影响指数、评分、片长和想看人数在第一主成份具有较高载荷,明星指数和是否续集在第二主成份具有较高载荷,第三主成份上没有反映出较高载荷的指标,第四主成份主要反映了是否黄金周这一个指标信息。 用成份矩阵中一个主成分对应的数值,与主成分相对应特征值平方根的商,计算出的数值便是一个主成分中每个指标所对应的系数,便得到4个主成分的数学模型如下: 5结束语 本文通过主成分分析数据分析方法,使用spss软件分析数据,提取了4个主成分,他们累计贡献率达到70.21%,转换后的这4个综合指标可以大致反映原始数据,并且建立了综合数学模型,对于电影的综合评价分析具有一定的参考意义。但由于实验数据面窄,某些重要的特征属性无法获取,这些因素对综合分析电影数据都有一定的帮助,未来通过搜集更全面的实验数据进行改进。 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。