基于数据挖掘的房地产价格预测

孙珊珊



摘 要: 针对当前房地产价格预测精度低的难题,提出基于数据挖掘的房地产价格预测模型。首先对当前房地产价格预测研究的现状进行分析,指出房地产价格变化的混沌性和随机性;然后采用混沌理论对数据进行预处理,重建房地产价格预测模型的样本,并采用相关向量机建立房地产价格预测模型;最后采用房地产价格数据进行验证性测试。该模型可以描述房地产价格历史数据中隐藏的变化特点,获得了比其他模型更优的房地产价格预测结果。
关键词: 房地产市场; 价格预测; 混沌性变化; 非线性拟合
中图分类号: TN911?34; TP391 文献标识码: A 文章编号: 1004?373X(2017)05?0126?04
Abstract: Since the prediction accuracy of the current real estate price is low, a real estate price forecasting model based on data mining is proposed. The study situation of the current real estate price prediction is analyzed to point out the chaos characteristics and randomness of the real estate price variation. The chaos theory is used to preprocess the data, and reconstruct the samples of the real estate price prediction model. The relevance vector machine is adopted to set up the real estate price prediction model. The data of the real estate price is employed to conduct the verification test. The model can describe the hidden change characteristics existing in the historical data of the real estate price, and obtain a better prediction result than that of other models.
Keywords: real estate market; price forecast; chaos change; nonlinear fitting
0 引 言
隨着经济不断发展和城市化进程的加快,房地产市场异常活动,房地产价格不断上升,同时房地产价格还受到一个地区的经济、国家政策以及综合影响,房地产价格有时会出现一定的下降,因此房地产价格变化具有一定的规律性和随机性[1]。对房地产价格进行预测,可以帮助政府和企业掌握一个地区、国家的房地产市场变化趋势,维护社会安全和团结,因此房地产价格建模与分析成为当前房地产市场中一个十分活跃的研究方向[2]。
为了有效地对房地产价格进行预测,人们对其进行相关分析和研究,房地产价格预测模型大致可以划分为两个阶段:传统预测模型阶段和现代预测模型阶段[3],传统模型主要有多元线性回归法,它通过拟合房地产价格的影响因子与房地产价格之间的变化关系,确定回归模型的相关参数值,从而对房地产价格将来的变化趋势进行估计,为房地产价格预测做出了一定的贡献,然而该类模型缺陷十分明显,因为假设房地产价格永远呈直线上升趋势,这与房地产价格的实际变化特点不相符,这主要是由于房地产价格的影响因素很多,因素间又相互影响以及干扰,导致房地产价格具有周期性,同时具有随机性,甚至具有一定的混沌特性[4?5]。现代模型主要针对房地产价格的随机性和混沌性进行建模,主要有神经网络、支持向量机等,可以反映房地产价格的随机性以及混沌性,获得了比传统模型更优的房地产价格的预测结果[6?8]。
相关向量机(Relevance Vector Machine,RVM)是基于现代统计学理论的数据挖掘技术,集成了神经网络学习效率高和支持向量机预测效果好的优点,在网络流量、经济时间序列等领域取得了不错的应用效果,为房地产价格预测提供了一种新的建模工具[9]。为了进一步提高房地产价格预测精度,本文提出基于数据挖掘的房地产价格预测模型。
1 房地产价格预测模型的总体设计
一个地区的房地产价格受到一系列因素的综合影响,价格波动范围很大,通常根据时间先后对房地产价格数据进行收集,它们组合成为一个时间序列[{x1,x2,…,xn},]当前时间点的房地产价格[xi]可能与[d]个相近时间点的房地产价格之间有一定的关联,因此可以将[d]个相近房地产价格值作为[xi]的输入,构建如下的数学模型:
拟合函数[f( )]的选择直接决定了房地产价格预测结果的好坏,为了解决神经网络预测精度低、过拟合和支持向量机学习效率低的缺陷,本文采用性能优异的相关向量机作为[f( )],建立整体性能优异的房地产价格预测模型,其总体框架如图1所示。
2 相关向量机描述
(2) 针对房地产价格的混沌性和随机性,采用混沌理论确定其输入向量数量,重建房地产价格学习样本。
(3) 采用RBF函数作为相关向量机的核函数,将训练集输入到相关向量机进行学习,并对相关参数进行优化,建立房地产价格模型。
4 房地产价格预测的实证分析
4.1 房地产价格数据
为了测试数据挖掘的房地产价格预测效果,采用某地区近10年的房地产价格数据作为研究对象,共有120个时间序列点,具体见图2。最近的50个时间序列点作为验证集,其他时间序列点用于建立房地产价格预测模型。
4.2 估计输入向量的数量
由于房地产价格数据的混沌性较弱,因此采用关联维法估计输入向量的数量,结果如图3所示。
对图3进行分析可以清楚地看出,当输入向量数据的数量达到7时,此时房地产价格的关联维数已经不再发生变化,十分稳定,即该房地产价格的最优输入向量数为7,这表示当前时间点的房地产价格值受到最近7个时间点房地产价格的影响,否则重建房地产价格的时间序列。
4.3 实验结果
50个房地产价格验证样本的单步预测结果如图4所示,对图4中的房地产价格预测结果进行分析可以发现,采用数据挖掘技术可以发现房地产价格的变化特点,得到了较高的预测精度,而且房地产价格的预测偏差变化幅度小,变化十分平稳,这表明房地产价格预测结果是可靠的,有一定的实际应用价值。
房地产价格的建模与预测主要是对将来房地产价格的变化趋势进行把握,单步预测结果的實际应用范围有一定的局限性,因此需要进行多步提前的房地产价格预测,本文模型的提前4步房地产价格预测结果如图5所示。对图5的多步房地产价格预测结果进行分析可知,本文模型的多步房地产价格预测误差明显要大于单步预测误差,预测精度相应降低,然而房地产价格整体趋势预测好可以帮助人们了解房地产价格市场的变化趋势,具有十分重要的应用价值。
为了进一步分析数据挖掘的房地产价格建模与预测优越性,采用多元线性回归法、支持向量机[10]、BP神经网络[11]对相同数据进行建模与预测,统计它们的预测精度和执行时间,结果如表1所示。
对从表1的预测精度和执行时间进行分析,可以得到如下结论:
(1) 在所有模型中,多元线性回归法的建模速度比较快,房地产价格预测误差最大,预测精度最低,是因为其属于线性建模方法,虽然估计参数效率快,但是只能描述房地产价格的线性变化特点,无法反映房地产价格变化的随机性,预测结果不可靠。
(2) BP神经网络、支持向量机的房地产价格预测精度要高于多元线性回归法的预测精度,这是因为神经网络和支持向量机属于非线性建模方法,可以对房地产价格随机性变化特点进行描述,更好地把握了房地产价格的变化趋势,然而支持向量机的建模时间太长,BP神经网络有个别时间点的房地产价格预测误差比较大。
(3) 本文模型的房地产价格预测精度要高于对比模型,这是由于本文模型不存在多元线性回归法只能预测线性变化特点的局限性,同时克服神经网络预测结果不稳定,不会出现支持向量机计算时间复杂度高的问题,且执行效率要远远高于支持向量机,获得了更加理想的房地产价格预测结果。
5 结 语
房地产价格的建模与预测具有十分重要的实际应用意义,为了避免当前房地产价格预测模型存在的局限性,设计了基于数据挖掘技术的房地产价格预测模型,采用混沌理论对房地产价格数据进行预处理,确定房地产价格预测模型的输入向量,然后采用相关向量机描述房地产价格的随机性变化特点,最后通过仿真对比实验结果表明,本文模型的房地产价格预测精度要高于当前其他经典的房地产价格预测模型,而且执行效率也具有一定的优势,在房地产市场管理中具有广泛的应用前景。
参考文献
[1] 柳冬,王雯珺,汪寿阳.我国房地产价格影响要素分析与趋势预测[J].经济与金融,2011,22(5):3?11.
[2] 周海波.房地产价格影响因素的实证研究[J].海南大学学报,2009,27(5):537?543.
[3] ANUNDSEN A K, JANSEN E S. Self?reinforcing effects between housing prices and credit [J]. Journal of housing econo?mics, 2013, 22(3): 192?212.
[4] 武田艳,占建军,严韦.基于MIV?BP型网络实验的房地产价格影响因素研究[J].数学的实践与认识,2015,45(18):43?50.
[5] 周亮,周正.基于时间序列的房地产价格指数预测方法探讨[J].哈尔滨商业大学学报(社会科学版),2008(2):80?83.
[6] 杨励雅,邵春福.基于BP神经网络与马尔可夫链的城市轨道交通周边房地产价格的组合预测方法[J].吉林大学学报(工学版),2008,38(3):514?519.
[7] 李万庆,张金水,孟文清.基于小波神经网络的房地产价格指数预测研究[J].河北工业大学学报(自然科学版),2008,25(1):74?76.
[8] 何芳,王小川,肖森予,等.基于MIV?BP型网络实验的房地产项目风险识别研究[J].运筹与管理,2013,22(2):229?234.
[9] 杨柳,张磊,张少勋,等.单核和多核相关向量机的比较研究[J].计算机工程,2010,36(12):195?197.
[10] 梁坤,聂会星,徐枞巍.基于支持向量机的北京市房地产价格指数预测[J].合肥工业大学学报,2011,34(4):588?592.
[11] 李大营,许伟,陈荣秋.基于粗糙集和小波神经网络模型的房地产价格走势预测研究[J].经济与金融,2009,21(11):18?22.