网站首页  词典首页

请输入您要查询的论文:

 

标题 基于环境因素的医药销售预测模型研究
范文

    刘恰恰

    摘 要:大气污染和氣象要素变化已成为自然环境中影响人体健康的两个重要指标,在一定程度上也成为影响医药销售的重要因素。本文主要以大气污染和气象要素作为医药销售的影响因素,对其进行特征化处理,基于随机森林回归对特征与销量构建医药销售预测模型,并与典型模型进行对比。实验表明,本文模型具有较好的预测效果。

    关键词:随机森林回归;医药销售预测;大气污染;气象要素

    中图分类号:C931 文献标识码:A

    环境变化对人体健康的影响是不可忽视的,尤其对呼吸道疾病。[1]相关文献研究[2,3]表明,大气污染和气象要素均可使人类疾病的发病危险性增加。基于医药销售领域现状,本文以呼吸道疾病的药物为例,应用随机森林回归对特征与销量构建医药销售预测模型。

    1 数据预处理

    本实验数据包括3部分,即医药销售数据、大气污染和气象要素,分别来源于某医药企业2015.1—2018.6期间日销售数据、全国天气网和市环保局监测站。

    从医药数据特点来看,需检查原始记录中是否存在脏数据及不能直接进行相关分析的数据,如对缺失值进行插补;对异常值进行判断;对不同量纲的数据进行变换等。

    从环境数据分析,本文选取6个大气污染指标,即SO2、NO2、CO、O3、PM10、PM2.5日浓度值,统计出各因子日最高、最低浓度;计算出各因子的日平均浓度;选取5个原始气象指标,即日最高温(T_max)、日最低温(T_min)、日平均温(T_ave)、日风速,基于原始数据计算出日温差、最高温、最低温、平均温、周变异系、平均风速,分别用T_var、v_max、v_min、v_ave、v_T、W_pow表示。

    2 特征选择

    针对不同人对环境变化的适应性不同,考虑到发病前的潜伏期,对销量与环境指标进行时滞期相关及显著性分析,判断出医药销售的主要影响因素,进而提取有效的特征指标。

    对销量与环境因素进行当日及前几日Spearman分析,显示两者存在紧密相关性,同时存在一定延滞效应。其中,药品销量与NO2、O3、PM2.5、PM10呈显著正相关,与SO2呈显著负相关,与CO未达到显著;与 T_ave、T_max、T_min、T_var呈显著负相关,延滞期可长达一周;与v_ave、v_max、v_min、v_T呈显著正相关,与v_T成显著正相关,与W_dir相关性较小且显著性不太明显。因此,通过对销量与特征指标综合分析,剔除不具备统计学意义的特征,最终把存在显著性的环境指标作为模型输入特征。

    3 模型构建

    随机森林模型构建主要是对两类参数的调参过程,主要包括:过程影响参数和子模型影响参数,本文以OOB误差最低为原则选取最优参数。[4]

    首先,对过程影响参数进行调整,当n_estimators取50时,误差呈明显下降趋势;取100时,误差仍有下降趋势;直至取150时,误差逐渐接近收敛,考虑到训练的效率,最终选取200;然后固定n_estimators=200,再对子模型影响参数进行分析。对max_feature设定1.50的范围进行调整,当max_feature取1—10时,随特征数增加误差急剧下降;当取值在11.50之间,误差总体趋于平稳,且取13时误差最小,因此最终选择max_feature=13;对min_samples_split设定2.10的范围进行调整,随最小样本数增加,模型误差率呈上升趋势,调参后最优解仍保持为2;对min_samples_leaf设定范围1.10进行调整,随叶子节点最小样本数增加,误差也呈上升趋势,调参后最优解为3。

    4 实验结果

    为了衡量模型的预测效果,实验分为两个模块,即针对不同特征、不同模型,分别对预测结果的影响进行实验与分析。

    4.1 特征比较

    在医药销售预测过程中,大气环境指标可变性较大,在实际应用中不一定能同时收集到,需要判断每个特征对模型的影响程度。首先,基于特征选择的结果,进行多次实验,计算出平均准确率(ACCU);其次,每次实验依次去掉一个特征,得到12组不同准确率,且发现准确率出现不同程度的降低,每个特征对模型影响程度排序为:var_tem > T_min > T_ave> T_max > NO2 = PM2.5 > T_var = PM10 > W_pow >O3 > SO2。所以,当因素不全或不确定时,W_pow、O3、SO2的影响力相对较小,可以取大概范围进行初步预测。

    4.2 算法比较

    本文模型与ANN、SVR及ARIMA模型进行比较,发现不同模型预测误差相差明显,其中随机森林拟合效果最好,传统的ARIMA模型拟合效果最差,ANN模型与SVR模型预测精度大致相同。各模型预测平均绝对百分误差(MAPE)分别为:00508、0.0873、0.0981和0.187,即本文随机森林模型预测效果最好。

    5 结语

    本文实验即证明对环境因子进行特征提取的有效性,又证明随机森林回归模型在医药销售预测领域应用的优越性,模型预测精度能为医药企业的销售决策提供一定的参考价值,从而有效解决库存压力大、过期药品多等问题。但由于实际医药销售影响因素的复杂性,研究仍存在不足,有待进一步改进,比如区域、经济条件、政策等因素没有考虑进去,在今后的研究中需要进一步拓展,期待取得更好的预测结果。

    参考文献:

    [1]Agm B,Pmsb F.Prevalence of influenza vaccination in adults and elderly with chronic respiratory diseases[J].Cadernos De Saude Publica,2018,34(5):e00194717.

    [2]盛魁.RBF神经网络在药品销售预测中的应用[J].长江大学学报,2013,10(19):65.67.

    [3]刘德玲.大区域内药品销售预测方法研究与仿真[J].计算机仿真,2012,29(7):227.230.

    [4]Breiman L.Random Forests[J].Machine Learning,2001,45(1):199.228.

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/3/22 17:58:16