应用于物种分布模型的多种算法
杨若男+盛炎平
[摘 要]回顾了物种分布比较了常用的11种模型,包括回归模型、分类模型和复杂模型。给出了各模型的优缺点、特性和适用范围,并且提供模型应用导向。模型应用导向主要包括三个步骤:模型选择、模型建立和参数评估。
[关键词]模型建立;模型选择;物种分布模型
[中图分类号] G642.0 [文献标识码] A [文章编号] 2095-3437(2016)05-0120-02
物种分布模型也称为生态模型[1],用算法来预测特定地区内的物种分布,依赖物种和环境变量之间的统计关系。衡量生态模型的3个目标是:真实性、广泛性和准确性,一般情况下,只能达到期望目标的三分之二。物种分布模型是静态实证模型,而非机械模型。物种分布模型将观测到的物种-环境的现象与指定区域的环境变量联系起来。它们之间的关系非常复杂。[2]在过去的30年中,学者们已经创建了很多模型去预测物种-环境之间的关系。但是,不同的模型做出的预测是不同的。[3]下面介绍比较常见的11种物种分布模型。
一、模型种类
基于物种和环境变量之间的联系预测物种分布,有很多物种分布模型。下面介绍几种常用的模型。
广义线性模型是一般线性模型的扩展,包括线性回归、逻辑回归和泊松回归。广义线性模型的自变量包括交互项和高阶项,所以该模型更适用于物种和环境变量之间的非线性关系,且所有的参数都有统计学意义。使用时,应注意精度问题,移除无关变量。
广义可加模型是广义线性模型的非参数推广,适用性更强。其使用光滑函数建立物种-环境之间的非线性关系。光滑函数的自变量都是相互独立的,并且构建最终的模型。使用时,应适当减少,以避免过拟合。
多元自适应回归样条是线性回归模型的推广,能够自动模拟非线性和交互作用。使用时,系数是可变的,并且不同级的变量,其参数有不同的最优化值。当自变量较多且交互项的阶数较低时,多元自适应回归样条效果良好。
混合判别分析是线性判别分析的推广,是基于混合模型的一种分类方法,具体是一个因变量可写成一些自变量的线性组合。假设每一类环境变量均服从正态分布,用混合的正态分布获取每个分类的密度估计。
广义线性模型用一个简单的模型拟合物种和环境变量之间的关系,而广义助推法是把很多简单模型的预测结果组合起来给出物种分布和环境变量之间的更为精确的估计。即使预测变量和因变量之间的关系比较复杂,广义助推法最终也会产生与观测值非常接近的估计值。
人工神经网络是由大量处理单元组成的一个复杂的模型系统,能够描述复杂的全局行为。人工神经网络的关键特性就是包含一个隐元。每一个隐元得到信息,输入,求和,增加常量,然后通过一个固定函数转换结果。
分类回归树使用递归分区把数据分割成越来越小的同质的子集,直到达到终止条件。在决策树中,每一类数据都可以表示成一个“节点”,只能被分成两部分。相比于传统的方法,分类回归树能够揭示复杂的预测因子之间的相互作用。
随机森林应用Breimans的随机森林算法,称为预测物种分布最准确的模型之一。它通过对大量的分类树的计算来进行分类和回归,是一个包含多个决策树的分类器。当有新的样本进入的时候,就让森林中的每一棵决策树进行判断,观察哪一类被选择最多,就预测这个样本为哪一类。
预测规则遗传算法是基于遗传算法,建立限制物种分布的规则集的一种物种分布模型。它是一组随机的数学规则,每个规则被确定为一个基因,这些基因随机的组合起来去形成可能的模型描述潜在的物种分布。
最大熵方法是预测物种地理分布的万能机器学习方法,无需调整参数,直接使用默认值即可,得到比较精确的预测结果。它的基本原理是通过最大熵的概率分布预测目标概率分布。
分层模型将不同的物种分布模型组合起来。分层模型已发展到环境科学研究领域,对观测成分或过程成分进行组合,适用于预测数据记录和物种、环境之间的不确定性。
二、模型比较
物种和环境变量之间的关系是复杂多变的。物种分布模型可分成三大类,回归模型、分类模型和复杂模型。
广义线性模型用经典的方法量化物种-环境变量之间的联系。当物种和环境变量是多元的关系时,广义相加型更适宜。物种选择对广义可加模型或者广义线性模型影响较大。
多元自适应回归样条函数,与广义可加模型很相似,这两者性能优于广义线性模型。多元自适应回归样条比广义可加模型速度快。分层模型通常将2种或3种回归进程组合到一起。从本质上来讲,分层模型就是一系列的广义线性模型。混合判别分析、分类回归树、广义助推法都是分类模型,但是都嵌入了回归算法。与回归模型相比,分类模型在处理数据集的异常方面更精确。混合判别分析是改进的判别分析。分类树分析与传统的判别分析、聚类分析很相似。同广义可加模型相比,分类树不需要依赖物种-环境变量之间的先验假设。广义助推模型将很多简单样本模型组合在一起,可以给出更精确的预测结果。混合判别分析、分类回归树和广义助推法都是没有参数的,所以比较适合相对复杂的物种与环境关系。
分类回归树和广义助推法用递归分割完成模型预测。
人工神经网络、随机森林、最大熵和预测规则遗传算法都是复杂模型。分类回归树、广义助推法、人工神经网络、随机森林、最大熵都做了递归参数优化,所以这些模型都被称为机器学习技术。复杂模型能准确地提出输入数据的隐藏特性,能捕捉到所给数据的细节部分,这样通常会导致数据过拟合,一般会造成模型预测的偏差。在机器学习工具中,分类回归树比人工神经网络算法更有效。最大熵和预测规则遗传算法将实际生态位细致划分到每一个地理空间,同随机森林、广义助推法相比,最大熵和预测规则遗传算法与当前的分布适应度更差。
一般而言,最大熵方法的预测精度优于预测规则遗传算法。
一些研究比较了回归模型、分类模型和复杂模型的准确度。所有的物种分布模型都使用数值型和分类型的环境变量。广义线性模型和广义可加模型的回归特点决定了它们适用于数值型变量。多元自适应回归样条比分类回归树更适合数值变量。而复杂模型对于数值变量和分类变量都能处理得很好。以分类树为基础的机器学习方法更适合那些无序的、非线性的、维数高的数据。预测鸟的分布,效果最好的是随机森林,其次是分类回归树,最后是人工神经网络。
三、模型应用
在应用模型的时候要注意一些关键步骤,比如检验、标定、数据验证(数据评估)、可信度和资格评定。简单来讲就是:模型选择,模型建立,参数评估。研究人员需要根据他们的研究对象和研究目标来选择合适的模型。尽管复杂的模型有更高的预测精度,但是简单的模型也有自己独特的优势。广义线性模型浅显易懂,所有变量的回归系数都可以清楚的表达和解释。相反,其他的模型有太多的参数,以至于无法做出有实际意义的生态解读。研究人员应该熟悉每一种模型的特性。广义可加模型适用于多峰连续变量的数据;多元自适应回归样条适合于高阶交互作用的数据;广义助推法和分类回归树适用于伴随有离群观测的大量分类变量的情况;人工神经网络适合于较为复杂的物种与环境关系的情况。对于自变量和交互项项数较多时,随机森林是一种理想模型。
统计模型的建立是指为物种分布选择一个合适的算法,定义具体的因变量类型并评估模型系数,从而在建模环境下选择最优的统计路径。在本文中,我们缩小了模型建立的范围,重点在于模型结构的确定。在此,模型建立包括自变量、模型参数、变量的交互项和多项式的选择。模型参数的不同将会引起模型表现的巨大不同。模型参数的评估通常是由统计软件自动执行的,这是模型发展的关键步骤。变量系数可以由最小二乘法、极大似然法、马可夫链蒙特卡洛法、卡尔曼滤波器,引导程序以及机器学习技术中的算法来评估。变量的选择也通过变量的“贡献程度”来进行,然后由信息准则来测量。目前,大多数的物种分布模型为系数评估与模型评价提供了充足的工具。
四、讨论
在这篇综述中,比较了11种物种分布模型的特性以及这11种模型的适用范围,并且说明了如何使用这些模型。本文旨在给出当前用于预测物种分布的模型的技术指导。无论使用哪种模型,研究者们首先要做的就是仔细观察数据;之后,认真构造模型公式,应当慎重选择自变量,检查是否有必要加入多项式和交互项;另外,也需要考虑模型参数。模型评估过程也很重要,但当前模型并没有提供足够的数据来检查模型的性能。为了提升结果的准确性,一般对特定的数据集使用多种物种分布模型。
[ 注 释 ]
[1] 张文驹,陈家宽.物种分布区研究进展[J].生物多样性, 2003(5).
[2] 李国庆,刘长成,刘玉国,杨军,张新时,郭柯.物种分布模型理论研究进展[J].生态学报,2013(16).
[3] 刘芳,李晟,李迪强.利用分布有/无数据预测物种空间分布的研究方法综述[J].生态学报,2013(22).
[责任编辑:钟 岚]
[摘 要]回顾了物种分布比较了常用的11种模型,包括回归模型、分类模型和复杂模型。给出了各模型的优缺点、特性和适用范围,并且提供模型应用导向。模型应用导向主要包括三个步骤:模型选择、模型建立和参数评估。
[关键词]模型建立;模型选择;物种分布模型
[中图分类号] G642.0 [文献标识码] A [文章编号] 2095-3437(2016)05-0120-02
物种分布模型也称为生态模型[1],用算法来预测特定地区内的物种分布,依赖物种和环境变量之间的统计关系。衡量生态模型的3个目标是:真实性、广泛性和准确性,一般情况下,只能达到期望目标的三分之二。物种分布模型是静态实证模型,而非机械模型。物种分布模型将观测到的物种-环境的现象与指定区域的环境变量联系起来。它们之间的关系非常复杂。[2]在过去的30年中,学者们已经创建了很多模型去预测物种-环境之间的关系。但是,不同的模型做出的预测是不同的。[3]下面介绍比较常见的11种物种分布模型。
一、模型种类
基于物种和环境变量之间的联系预测物种分布,有很多物种分布模型。下面介绍几种常用的模型。
广义线性模型是一般线性模型的扩展,包括线性回归、逻辑回归和泊松回归。广义线性模型的自变量包括交互项和高阶项,所以该模型更适用于物种和环境变量之间的非线性关系,且所有的参数都有统计学意义。使用时,应注意精度问题,移除无关变量。
广义可加模型是广义线性模型的非参数推广,适用性更强。其使用光滑函数建立物种-环境之间的非线性关系。光滑函数的自变量都是相互独立的,并且构建最终的模型。使用时,应适当减少,以避免过拟合。
多元自适应回归样条是线性回归模型的推广,能够自动模拟非线性和交互作用。使用时,系数是可变的,并且不同级的变量,其参数有不同的最优化值。当自变量较多且交互项的阶数较低时,多元自适应回归样条效果良好。
混合判别分析是线性判别分析的推广,是基于混合模型的一种分类方法,具体是一个因变量可写成一些自变量的线性组合。假设每一类环境变量均服从正态分布,用混合的正态分布获取每个分类的密度估计。
广义线性模型用一个简单的模型拟合物种和环境变量之间的关系,而广义助推法是把很多简单模型的预测结果组合起来给出物种分布和环境变量之间的更为精确的估计。即使预测变量和因变量之间的关系比较复杂,广义助推法最终也会产生与观测值非常接近的估计值。
人工神经网络是由大量处理单元组成的一个复杂的模型系统,能够描述复杂的全局行为。人工神经网络的关键特性就是包含一个隐元。每一个隐元得到信息,输入,求和,增加常量,然后通过一个固定函数转换结果。
分类回归树使用递归分区把数据分割成越来越小的同质的子集,直到达到终止条件。在决策树中,每一类数据都可以表示成一个“节点”,只能被分成两部分。相比于传统的方法,分类回归树能够揭示复杂的预测因子之间的相互作用。
随机森林应用Breimans的随机森林算法,称为预测物种分布最准确的模型之一。它通过对大量的分类树的计算来进行分类和回归,是一个包含多个决策树的分类器。当有新的样本进入的时候,就让森林中的每一棵决策树进行判断,观察哪一类被选择最多,就预测这个样本为哪一类。
预测规则遗传算法是基于遗传算法,建立限制物种分布的规则集的一种物种分布模型。它是一组随机的数学规则,每个规则被确定为一个基因,这些基因随机的组合起来去形成可能的模型描述潜在的物种分布。
最大熵方法是预测物种地理分布的万能机器学习方法,无需调整参数,直接使用默认值即可,得到比较精确的预测结果。它的基本原理是通过最大熵的概率分布预测目标概率分布。
分层模型将不同的物种分布模型组合起来。分层模型已发展到环境科学研究领域,对观测成分或过程成分进行组合,适用于预测数据记录和物种、环境之间的不确定性。
二、模型比较
物种和环境变量之间的关系是复杂多变的。物种分布模型可分成三大类,回归模型、分类模型和复杂模型。
广义线性模型用经典的方法量化物种-环境变量之间的联系。当物种和环境变量是多元的关系时,广义相加型更适宜。物种选择对广义可加模型或者广义线性模型影响较大。
多元自适应回归样条函数,与广义可加模型很相似,这两者性能优于广义线性模型。多元自适应回归样条比广义可加模型速度快。分层模型通常将2种或3种回归进程组合到一起。从本质上来讲,分层模型就是一系列的广义线性模型。混合判别分析、分类回归树、广义助推法都是分类模型,但是都嵌入了回归算法。与回归模型相比,分类模型在处理数据集的异常方面更精确。混合判别分析是改进的判别分析。分类树分析与传统的判别分析、聚类分析很相似。同广义可加模型相比,分类树不需要依赖物种-环境变量之间的先验假设。广义助推模型将很多简单样本模型组合在一起,可以给出更精确的预测结果。混合判别分析、分类回归树和广义助推法都是没有参数的,所以比较适合相对复杂的物种与环境关系。
分类回归树和广义助推法用递归分割完成模型预测。
人工神经网络、随机森林、最大熵和预测规则遗传算法都是复杂模型。分类回归树、广义助推法、人工神经网络、随机森林、最大熵都做了递归参数优化,所以这些模型都被称为机器学习技术。复杂模型能准确地提出输入数据的隐藏特性,能捕捉到所给数据的细节部分,这样通常会导致数据过拟合,一般会造成模型预测的偏差。在机器学习工具中,分类回归树比人工神经网络算法更有效。最大熵和预测规则遗传算法将实际生态位细致划分到每一个地理空间,同随机森林、广义助推法相比,最大熵和预测规则遗传算法与当前的分布适应度更差。
一般而言,最大熵方法的预测精度优于预测规则遗传算法。
一些研究比较了回归模型、分类模型和复杂模型的准确度。所有的物种分布模型都使用数值型和分类型的环境变量。广义线性模型和广义可加模型的回归特点决定了它们适用于数值型变量。多元自适应回归样条比分类回归树更适合数值变量。而复杂模型对于数值变量和分类变量都能处理得很好。以分类树为基础的机器学习方法更适合那些无序的、非线性的、维数高的数据。预测鸟的分布,效果最好的是随机森林,其次是分类回归树,最后是人工神经网络。
三、模型应用
在应用模型的时候要注意一些关键步骤,比如检验、标定、数据验证(数据评估)、可信度和资格评定。简单来讲就是:模型选择,模型建立,参数评估。研究人员需要根据他们的研究对象和研究目标来选择合适的模型。尽管复杂的模型有更高的预测精度,但是简单的模型也有自己独特的优势。广义线性模型浅显易懂,所有变量的回归系数都可以清楚的表达和解释。相反,其他的模型有太多的参数,以至于无法做出有实际意义的生态解读。研究人员应该熟悉每一种模型的特性。广义可加模型适用于多峰连续变量的数据;多元自适应回归样条适合于高阶交互作用的数据;广义助推法和分类回归树适用于伴随有离群观测的大量分类变量的情况;人工神经网络适合于较为复杂的物种与环境关系的情况。对于自变量和交互项项数较多时,随机森林是一种理想模型。
统计模型的建立是指为物种分布选择一个合适的算法,定义具体的因变量类型并评估模型系数,从而在建模环境下选择最优的统计路径。在本文中,我们缩小了模型建立的范围,重点在于模型结构的确定。在此,模型建立包括自变量、模型参数、变量的交互项和多项式的选择。模型参数的不同将会引起模型表现的巨大不同。模型参数的评估通常是由统计软件自动执行的,这是模型发展的关键步骤。变量系数可以由最小二乘法、极大似然法、马可夫链蒙特卡洛法、卡尔曼滤波器,引导程序以及机器学习技术中的算法来评估。变量的选择也通过变量的“贡献程度”来进行,然后由信息准则来测量。目前,大多数的物种分布模型为系数评估与模型评价提供了充足的工具。
四、讨论
在这篇综述中,比较了11种物种分布模型的特性以及这11种模型的适用范围,并且说明了如何使用这些模型。本文旨在给出当前用于预测物种分布的模型的技术指导。无论使用哪种模型,研究者们首先要做的就是仔细观察数据;之后,认真构造模型公式,应当慎重选择自变量,检查是否有必要加入多项式和交互项;另外,也需要考虑模型参数。模型评估过程也很重要,但当前模型并没有提供足够的数据来检查模型的性能。为了提升结果的准确性,一般对特定的数据集使用多种物种分布模型。
[ 注 释 ]
[1] 张文驹,陈家宽.物种分布区研究进展[J].生物多样性, 2003(5).
[2] 李国庆,刘长成,刘玉国,杨军,张新时,郭柯.物种分布模型理论研究进展[J].生态学报,2013(16).
[3] 刘芳,李晟,李迪强.利用分布有/无数据预测物种空间分布的研究方法综述[J].生态学报,2013(22).
[责任编辑:钟 岚]