标题 | 基于矩阵填充的众包学习模型研究 |
范文 | 刘天时 吴琼 摘 ?要: 本文提出一种鲁棒低秩近似算法(ROLA)来学习标注者之间潜在的相似性,进而解决标注数据集中的噪声。ROLA通过构造一个低秩矩阵模型,来捕获标签中的潜在相关信息,与问题的潜在特征向量。实验结果表明,ROLA在四个数据集上的准确率最高。并且与现有算法相比,在优化时间上也存在相应优势。 关键词: 低秩近似;矩阵填充;众包学习 中图分类号: TP311.13 ? ?文献标识码: A ? ?DOI:10.3969/j.issn.1003-6970.2019.04.034 本文著录格式:刘天时,吴琼. 基于矩阵填充的众包学习模型研究[J]. 软件,2019,40(4):159161 【Abstract】: This paper proposes a robust low rank approximation algorithm (ROLA) to learn the potential similarity between annotators and to solve the noise in annotated data sets. ROLA constructs a low rank matrix model to capture latent correlation information in tags and latent eigenvectors of problems. The experimental results show that ROLA has the highest accuracy on four data sets. Compared with existing algorithms, it also has corresponding advantages in optimization time. 【Key words】: Low rank approximation; Matrix filling; Crowdsourcing learning 0 ?引言 近年来在机器学习和计算机视觉方面广泛应用。然而由于雇主发布的标注任务差异,导致收集到来自于不同自由职业者的标注结果,含有大量噪声。如何甄别噪声,提高众包学习的质量是目前面临的问题[1]。 本文提出基于矩阵填充的数据去噪方法:低秩近似流形优化算法(Low-Rank Approximation Manifold Optimization,LRAMO)。以矩阵填充的视角看待众包学习问题,认为矩阵的低秩结构既标注着之间的潜在相关关系,以此为依据,将恶意或者具有相似不良标注习惯的标注者的噪声删去。而针对无噪声的标签矩阵,LRAMO算法直接进行黎曼优化的矩阵分解,获得完整的标签矩阵,能快速进行眾包学习。 1 ?低秩矩阵模型 众包学习获得数据的成本比较低廉,但是存在大量噪声[2-5]。而标签数据之间具有低秩结构,本文根据数据的低秩结构,将众包学习理解成矩阵填充问题。因此本文提出基于矩阵填充的低秩近似流形优化算法,删除恶意标注者的标注噪声,并对恶意和有不良标注习惯的标注者进行标记,优化了后续的众包学习过程。 也就是说,少数恶意和不良习惯的标注者带来噪音,当众包任务发出去后,多数认真对待任务的标注者的标签是相似的,都试图给出正确答案。由于得到的众包数据具有低秩结构,可转换成一个低秩的矩阵和一个噪声矩阵相加。这样做的目的是:(1)接受标注任务的标注者得到的数据可以分成准确标注和噪声标注。而噪声是稀疏的,根据数据的低秩结构可以轻易的推断出真实的标注。(2)噪声标注导致的偏差可以用l2,1范数表示,而矩阵的低秩结构说明标注者之间存在潜在关系[6-10]。 2 ?LRAMO优化算法 本节将众包学习看成矩阵填充问题,提出低秩近似流形优化算法(Low-Rank Approximation Manifold Optimization,LRAMO)。通过黎曼优化求解矩阵填充,不仅降低了矩阵填充的时间复杂度,而且收敛速度也有所提升。构建众包学习的矩阵填充模型,将众包学习得到的数据矩阵Z,分解成低秩矩阵X即从标注数据中采样得到的标签,和噪声矩阵E,其中E是稀疏噪声。 上式中‖?‖*表示核范数,是给定是正则参数。由于众包学习被形式化为低秩矩阵填充问题,由于矩阵填充求解秩函数是NP问题,因此这里用核函数最小化进行凸松弛。在模型中与标注者相关的噪声用l2,1范数刻画,最小化噪声矩阵E的l2,1范数对噪声进行约减。 2.1 ?标签矩阵的低秩问题 由于标注者的目的都是尽可能正确的完成任务,除去个别标注者粗心导致的错误,大部分标注者的标注习惯比较相似,因此无噪声的标注矩阵满足低秩结构。也就是说,无噪声标签的矩阵是可靠标注者,由他们得到的标签数据往往是正确的,且具有低秩结构。那么用X表示无噪声标签的低秩矩阵,其最小化问题为: 这里用黎曼流形构建解空间,求解X时E固定,交替迭代求解将上式转化成子问题,减少了迭代次数和直接求解核函数带来的高复杂度。 2.2 ?噪声的稀疏子问题 由于众包学习发布任务后,接受任务的标注者存在少部分的恶意标注,和部分由于粗心大意导致的错误标注。因此得到的标签矩阵往往含有少数噪声,而这些噪声与少数标注者相关,本文利用噪声标签的特点,用l2,1范数进行约束。文献[3]指出,l2,1范数通过相应的数学计算得到最优解。这里将恶意标注者导致的噪声标签表示为矩阵E,且E时稀疏的。将噪声标签矩阵分离,即得到真实标注的矩阵。求解噪声标签矩阵E的子问题为: 2.3 ?基于投票机制的聚合策略 LRAMO优化算法将带有冗余信息标签的采样矩阵,分解成噪声矩阵E和干净标签矩阵X。由于接受标注任务的标注者来自各行各业,有各自的认知能力和专业知识,这里基于具有专业知识的标注者推测出真实无噪声的标签。采用多数投票的聚合机制:投票策略的计算复杂度远低于推理策略,当处理大规模问题时,优势更明显;LRAMO优化算法得到的干净标签矩阵X|,是由大部分可靠标注给出的结果,因此多数投票推测得到的标注结果更具说服力,且简单快速。 3 ?实验 本节将LRAMO算法与四种目前认可度高的众包算法在真实的众包数据集上进行比较:Majority Voting(MV),Dawid&SkeneModel(DS)[4],Difficulty- Ability-Response(DARE)[2]以及SpEM。数据集来自于Amazon MechanicalTurk; RTE(Recognizing Textual Entailment),TEMP(Temporal event recognition),Duchenne以及Bluebird。 这四个数据集的相关信息见表1,m和n代表标注者和问题数量,“RCL”表示正确标签准确率,“AP”表示标注者最大问题数。 实验将LRAMO算法在每个数据集上测试10轮,其显著水平为95%。通过对所有问题从问题一到问题10的统计平均,计算四个数据集的结果。结果表明,大多数情况下LRAMO算法的结果比其他算法更准确。 4 ?总结 本文提出的低秩近似流形优化算法,以矩阵填充的角度看待众包学习问题,利用矩阵的低秩结构,找出具有潜在相关关系的标注者,进而删去噪声标注。最后将低秩近似流形优化算法与目前主流的众包学习算法比较,在准确度和运行时间上,均有所提高。 参考文献 [1] Li Q, Wang Z, Li G, et al. Learning Robust Low-Rank Approximation for Crowdsourcing on Riemannian Manifold [J]. Procedia Computer Science, 2017, 108: 285-294. [2] Jagabathula S, Subramanian L, Venkataraman A. Identifying unreliable and adversarial workers in crowdsourced labeling tasks[J]. The Journal of Machine Learning Research, 2017, 18(1): 3233-3299. [3] Liu J, Ji S, Ye J. Multi-task feature learning via efficient l 2, 1-norm minimization[C]. Proceedings of the twenty-fifth conference on uncertainty in artificial intelligence. AUAI Press, 2009: 339-348. [4] Dawid A P, Skene A M. Maximum likelihood estimation of observer error‐rates using the EM algorithm[J]. Journal of the Royal Statistical Society: Series C (Applied Statistics), 1979, 28(1): 20-28. [5] 張网娟, 许国艳, 李敏佳, 等. 基于卷积神经网络的缺失数据填充方法[J]. 微电子学与计算机, 2019, 36(03): 48-52+57. [6] 牛明航. 不完备数据的反馈式极限学习机填充算法[J]. 电子技术与软件工程, 2019(03): 145. [7] 李敬华, 李倩茹, 袁春霞. 数据可用性基本问题研究[J]. 电信快报, 2018(10): 43-46. [8] 郭新东, 杨华, 孙瑜. 基于AOP的数据填充在教学诊改系统中的应用[J]. 现代电子技术, 2018, 41(14): 150-153. [9] 余云, 王本胜, 姚丽莎. 融合项目属性和云填充的计算机智能图像识别算法[J]. 遵义师范学院学报, 2018, 20(03): 81-83. [10] 滕睿, 尚庆学, 钟湘, 等. 基于试验数据的砌体填充墙易损性研究[J]. 世界地震工程, 2018, 34(02): 96-103. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。