标题 | 大数据背景下区域商品需求预测研究 |
范文 | 王巍 任文强 摘 要 互联网时代,电商平台销售量猛增,使得电商企业对各种商品的库存管理进行保管与控制变得越来越复杂,库存管理的关键就是库存量的把控。所以对库存商品的需求预测是非常必要的。本案采用时间序列预测法建立模型,随机选取一定数量商品,经过特征选择去除异常数据,然后选择ARIMA模型,划分出训练集和验证集后,得出未来一周的商品需求的预测结果。对比一周的商品真实需求,来验证本方案使用的模型预测准确性。 关键词 大数据 预测研究 區域商品需求 一、研究背景 利用数据挖掘技术可以对未来的商品需求量进行精准预测,从而帮助商家自动做出供应链过程中的某些决策。这些以大数据驱动的供应链能够帮助商家大幅降低运营成本,提升用户的体验,对整个电商行业的效率提升起到重要作用。 本方案以长风大数据提供的2014年10月1日至2015年12月27日的销售数据为依据,预测某种商品(如item_id = 727)在未来1周全国和区域性需求量,运用数据挖掘技术和方法(时间序列ARIMA),精准刻画商品需求的变动规律,对未来1周的全国和区域性商品需求量进行预测。 二、数据研究技术及数据处理 本次研究基于两个数据集中的详细数据进行分析。运用的数据预处理方法有:数据清理和数据标准化。并运用时间序列预测法作为回归预测方法。 本方案随机挑选item_id=727为商品例子,由于预测目标设定为未来1周的需求变化,故而将商品数据时间跨度为2014年10月1日至2015年12月20日作为训练集,2015年12月21日至2015年12月27日作为测试数据。 (一)数据处理方法及模型选择 本方案采用logisPMT,基于ARMA算法进行数据处理。ARMA模型是研究时间序列的重要方法,在市场研究中常用于长期追踪资料的研究,本方案预测的是1周的销售值,对于短期内相关数据的预测,ARMA模型具有优越性。 (二)数据预处理 第一,载入本地数据与原始数据观测。新建一个工程,在Data区域中选择Logis云端数据组件,将数据表格“智能分仓数据_item_feature”载入。从Data区域将“数据表格”组件与“Logis云端数据”组件相连,在info区域展现原始数据的基本信息,包括数据的体量(232621条数据)、特征维度(32个字段)以及缺失值比率(没有缺失值),有无元变量等信息。 第二,数据清洗。由于本任务没有缺失字段,所以直接结合本任务的需求,进行特征选择。由于本任务将以构造时间序列模型为核心,故特征变量只选择日期型变量“date”和目标变量“qty_alipay”。 三、模型训练 (一)测试集与训练集 为了验证训练模型的优劣,将商品数据时间跨度为2014年10月1日至2015年12月20日作为训练集,2015年12月21日至2015年12月27日作为验证集。 (二)异常数据过滤 从螺旋图中可看出,该商品预测值的时间段式需求的平淡期,为了降低某些异常值的存在对构建模型的影响,商品全面需求变化受季节影响较大需对其进行消除,可进行季节性调整。 (三)模型判断 为了选择合适的ARIMA模型,引入自相关图ACF,从“时间序列”区域中选择“相关图”组件,并与“时间选择对象”组件相连。 在95%的置信度下,滞后1阶自相关值大部分没有超过边界值,部分超过边界可能是由于异常值的影响。引入偏相关图PACF。序列的偏自相关函数中,超过95%的序列偏相关系数都在1倍标准差的范围内,可以判断该序列的偏自相关值选1阶后结尾,于是设置本方案中ARIMA模型的参数为arima(1,1,1),预测步长设置为7。 (四)模型假设检验 为了评估训练后模型的性能,从“时间序列”区域中选择“模型评估”组件,并与“时间对象选择”组件和“ARIMA模型”组件相连。RMSE为均方根误差,MAE为平均绝对误差,MAPE为平均绝对百分误差,R2为相关性较弱,AIC为赤池信息准则,BIC为贝叶斯信息准则等。MAE值为16.9,开方即为4.1,表明单个记录的总体平均预测误差为4.1,模型的总体性能较好。 (五)模型预测误差 为了获取详细的预测值,从“Data”区域选择“数据表格”组件,命名为“预测值”,并与“ARIMA模型”组件相连。 得出结果qty_alipay(forecast)预测值第1天:22.533;第2天:22.380;第3天:22.388;第4天:22.415;第5天:22.445;第6天:22.474;第7天:22.504。对7天的预测值求和为157.139。 得出结果Qty_alipay测试集第1天:15.000;第2天:17.000;第3天:28.000;第4天34.000;第5天:37.000;第6天:21.000;第7天:4.000。对7天的测试集求和为156。对1周(7天)的预测值与实际值对比误差为1.139,预测效果满足预期。 四、结语 本文在大数据背景下,以历史一年海量买家的行为数据以及商品信息数据为依据,预测各种商品在未来一周全国和区域性需求量,选取了有效的特征,建立ARIMA模型,获得了优于传统预测方法的商品需求预测结果,该结果为后续建立准确的分仓规划模型、提出有效的分仓规划建议奠定量化基础,但ARIMA的预测精准度有待提高,可尝试与神经网络等模型相结合进行进一步研究。 (作者单位为北京吉利学院) 参考文献 [1] 朱晓峰.大数据分析与挖掘[M].机械工业出版社,2019. [2] 李长春.大数据背景下的商品需求预测与分仓规划[J].数学的实践与认识,2017. [3] 史密斯·D .汉密尔顿(美).时间序列分析[M].夏晓华,译.北京:中国人民大学出版社,2014. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。