半监督偏最小二乘法在烟叶近红外感官评价模型中的应用
梁淼 蔡嘉月 杨凯 束茹欣 赵龙莲 张录达 李军会
1引言
半监督学习是一种结合监督学习与无监督学习,利用少量的标注样本和大量的未标注样本进行训练和分类,充分利用大量的无标识的训练样本来弥补有标识样本的不足,以提高系统学习性能的方法。早在上世纪五六十年代就有人提出半监督的思想,之后产生了自学习和自训练的的概念\[1~3\]。近些年来,半监督算法已成为机器学习领域的热点\[4~7\],自训练分类算法是其中经常被用到的一种分类算法,该算法应用领域广泛,以简洁、高效著称\[8~10\]。
近红外光谱技术是质量控制的理想手段,在农业、食品、石油等领域, 特别是烟草行业的应用日益广泛\[11,12\]。近红外光谱分析中,建立可靠的定性和定量模型是对未知样品做出准确预测的前提\[13\],使用大量代表性样品建模是建立可靠近红外统计模型的基础\[14\]。应用近红外光谱建立烟叶等复杂体系的分析模型中,与获取大量样品的近红外光谱数据相比,对烟叶感官品质进行准确标定十分困难,而仅使用标定小样品集建模或使用大量未准确标定样品集建模结果均不理想。借鉴半监督自训练理念,本研究提出半监督偏最小二乘(SSPLS)方法优化模型,并应用此方法建立优化近红外烟叶感官质量模型,既解决了使用小样品集建模的数据代表性问题,同时降低了感官评价不准确样品对模型的影响。
1引言
半监督学习是一种结合监督学习与无监督学习,利用少量的标注样本和大量的未标注样本进行训练和分类,充分利用大量的无标识的训练样本来弥补有标识样本的不足,以提高系统学习性能的方法。早在上世纪五六十年代就有人提出半监督的思想,之后产生了自学习和自训练的的概念\[1~3\]。近些年来,半监督算法已成为机器学习领域的热点\[4~7\],自训练分类算法是其中经常被用到的一种分类算法,该算法应用领域广泛,以简洁、高效著称\[8~10\]。
近红外光谱技术是质量控制的理想手段,在农业、食品、石油等领域, 特别是烟草行业的应用日益广泛\[11,12\]。近红外光谱分析中,建立可靠的定性和定量模型是对未知样品做出准确预测的前提\[13\],使用大量代表性样品建模是建立可靠近红外统计模型的基础\[14\]。应用近红外光谱建立烟叶等复杂体系的分析模型中,与获取大量样品的近红外光谱数据相比,对烟叶感官品质进行准确标定十分困难,而仅使用标定小样品集建模或使用大量未准确标定样品集建模结果均不理想。借鉴半监督自训练理念,本研究提出半监督偏最小二乘(SSPLS)方法优化模型,并应用此方法建立优化近红外烟叶感官质量模型,既解决了使用小样品集建模的数据代表性问题,同时降低了感官评价不准确样品对模型的影响。
1引言
半监督学习是一种结合监督学习与无监督学习,利用少量的标注样本和大量的未标注样本进行训练和分类,充分利用大量的无标识的训练样本来弥补有标识样本的不足,以提高系统学习性能的方法。早在上世纪五六十年代就有人提出半监督的思想,之后产生了自学习和自训练的的概念\[1~3\]。近些年来,半监督算法已成为机器学习领域的热点\[4~7\],自训练分类算法是其中经常被用到的一种分类算法,该算法应用领域广泛,以简洁、高效著称\[8~10\]。
近红外光谱技术是质量控制的理想手段,在农业、食品、石油等领域, 特别是烟草行业的应用日益广泛\[11,12\]。近红外光谱分析中,建立可靠的定性和定量模型是对未知样品做出准确预测的前提\[13\],使用大量代表性样品建模是建立可靠近红外统计模型的基础\[14\]。应用近红外光谱建立烟叶等复杂体系的分析模型中,与获取大量样品的近红外光谱数据相比,对烟叶感官品质进行准确标定十分困难,而仅使用标定小样品集建模或使用大量未准确标定样品集建模结果均不理想。借鉴半监督自训练理念,本研究提出半监督偏最小二乘(SSPLS)方法优化模型,并应用此方法建立优化近红外烟叶感官质量模型,既解决了使用小样品集建模的数据代表性问题,同时降低了感官评价不准确样品对模型的影响。
1引言
半监督学习是一种结合监督学习与无监督学习,利用少量的标注样本和大量的未标注样本进行训练和分类,充分利用大量的无标识的训练样本来弥补有标识样本的不足,以提高系统学习性能的方法。早在上世纪五六十年代就有人提出半监督的思想,之后产生了自学习和自训练的的概念\[1~3\]。近些年来,半监督算法已成为机器学习领域的热点\[4~7\],自训练分类算法是其中经常被用到的一种分类算法,该算法应用领域广泛,以简洁、高效著称\[8~10\]。
近红外光谱技术是质量控制的理想手段,在农业、食品、石油等领域, 特别是烟草行业的应用日益广泛\[11,12\]。近红外光谱分析中,建立可靠的定性和定量模型是对未知样品做出准确预测的前提\[13\],使用大量代表性样品建模是建立可靠近红外统计模型的基础\[14\]。应用近红外光谱建立烟叶等复杂体系的分析模型中,与获取大量样品的近红外光谱数据相比,对烟叶感官品质进行准确标定十分困难,而仅使用标定小样品集建模或使用大量未准确标定样品集建模结果均不理想。借鉴半监督自训练理念,本研究提出半监督偏最小二乘(SSPLS)方法优化模型,并应用此方法建立优化近红外烟叶感官质量模型,既解决了使用小样品集建模的数据代表性问题,同时降低了感官评价不准确样品对模型的影响。
1引言
半监督学习是一种结合监督学习与无监督学习,利用少量的标注样本和大量的未标注样本进行训练和分类,充分利用大量的无标识的训练样本来弥补有标识样本的不足,以提高系统学习性能的方法。早在上世纪五六十年代就有人提出半监督的思想,之后产生了自学习和自训练的的概念\[1~3\]。近些年来,半监督算法已成为机器学习领域的热点\[4~7\],自训练分类算法是其中经常被用到的一种分类算法,该算法应用领域广泛,以简洁、高效著称\[8~10\]。
近红外光谱技术是质量控制的理想手段,在农业、食品、石油等领域, 特别是烟草行业的应用日益广泛\[11,12\]。近红外光谱分析中,建立可靠的定性和定量模型是对未知样品做出准确预测的前提\[13\],使用大量代表性样品建模是建立可靠近红外统计模型的基础\[14\]。应用近红外光谱建立烟叶等复杂体系的分析模型中,与获取大量样品的近红外光谱数据相比,对烟叶感官品质进行准确标定十分困难,而仅使用标定小样品集建模或使用大量未准确标定样品集建模结果均不理想。借鉴半监督自训练理念,本研究提出半监督偏最小二乘(SSPLS)方法优化模型,并应用此方法建立优化近红外烟叶感官质量模型,既解决了使用小样品集建模的数据代表性问题,同时降低了感官评价不准确样品对模型的影响。
1引言
半监督学习是一种结合监督学习与无监督学习,利用少量的标注样本和大量的未标注样本进行训练和分类,充分利用大量的无标识的训练样本来弥补有标识样本的不足,以提高系统学习性能的方法。早在上世纪五六十年代就有人提出半监督的思想,之后产生了自学习和自训练的的概念\[1~3\]。近些年来,半监督算法已成为机器学习领域的热点\[4~7\],自训练分类算法是其中经常被用到的一种分类算法,该算法应用领域广泛,以简洁、高效著称\[8~10\]。
近红外光谱技术是质量控制的理想手段,在农业、食品、石油等领域, 特别是烟草行业的应用日益广泛\[11,12\]。近红外光谱分析中,建立可靠的定性和定量模型是对未知样品做出准确预测的前提\[13\],使用大量代表性样品建模是建立可靠近红外统计模型的基础\[14\]。应用近红外光谱建立烟叶等复杂体系的分析模型中,与获取大量样品的近红外光谱数据相比,对烟叶感官品质进行准确标定十分困难,而仅使用标定小样品集建模或使用大量未准确标定样品集建模结果均不理想。借鉴半监督自训练理念,本研究提出半监督偏最小二乘(SSPLS)方法优化模型,并应用此方法建立优化近红外烟叶感官质量模型,既解决了使用小样品集建模的数据代表性问题,同时降低了感官评价不准确样品对模型的影响。