网站首页  词典首页

请输入您要查询的论文:

 

标题 一种液相质谱实验数据时间特征统计校准方法
范文 马媛媛
摘要:文章是对多次重复液相质谱(LC-MS)实验得到的蛋白质肽链生物数据进行时间校准建模分析,目的是校准匹配多次实验中的肽链信号,为蛋白质量化提供准确信息。本项目研究一种基于时间特征的LC-MS生物实验数据统计校准算法,解决了现在生物数据处理中的实际问题,具有现实意义。
Abstract: This paper is a modeling analysis of large biological data of protein peptide chains obtained by liquid chromatography-mass spectrometry (LC-MS) experiments. The purpose of this study was to align the signals of the same peptide in different datasets, in order to provide the accurate quantification information. This project, which provides a method for the alignment based on the time feature to solve the actual problem of biological data processing, has practical significance.
关键词:蛋白质肽链;时间特征;统计建模
Key words: protein peptide chain;time feature;statistical modeling
中图分类号:C37 文献标识码:A 文章编号:1006-4311(2018)21-0194-03
0 引言
随着生物实验技术的高速发展,生命科学研究获得大量生物实验数据,主要包括基因组学、蛋白质组学等生物学大数据,这些数据均具有4V的特性:①数据量大(Volume):目前基因组学中只需花费几千美元几个小时即可完成一个人基因组的解析,大量的物种得以测序解析,数据成爆炸性增长。②数据多样化(Variety):生物信息学中两大分类:基因组学和蛋白质组学中,实验仪器种类繁多,产生的数据格式也各不相同。同时,利用不同的生物信息分析软件或分析流程处理得到的结果也是千差万别。③有价值(Value):随着生物信息学的发展,越来越多有价值的信息从生物大数据中挖掘出来,这些价值不仅体现在其在生物科研领域,而且已应用于健康和医学等领域。④高速(Velocity):不仅体现在数据采集量急剧增长,也表现在数据的多样化和价值性上。
本项目处理的数据是由液相质谱(LC-MS)实验得到的蛋白质肽链生物大数据。实验的目的是为了确定蛋白质中生物标志物(biomarker)。这些标志物是可以标记系统、器官、组织、细胞及亚细胞结构或功能的改变或可能发生的改变的生化指标,可用于疾病诊断、判断疾病分期或者用来评价新药或新疗法在目标人群中的安全性及有效性。目前寻找和发现有价值的生物标志物已经成为科学研究的一个重要热点。本项目重点研究多次重复LC-MS实验中的肽链信号匹配算法,目的是为寻找生物标志物提供准确的量化信息[1][2]。
1 LC-MS实验简介
在LC-MS实验中,首先,将蛋白质切割成肽链,并放入容器中;其次,进入实验的LC部分,用化学试剂将容器中肽链冲入到质谱仪,由于不同肽链具有不同的斥水性,因此进入质谱仪的时间便有所不同,形成三维谱图中的时间轴(Time);再次,进入实验的MS部分,肽链进入质谱仪后将随机粘上电荷,根据质量和电荷比的不同打到检测板上的位置就不同,这样就形成三维谱图中的质荷比轴(M/Z);最后,相同时间,相同质荷比的位置上基本由同一种肽链组成,个数越多强度越大形成三维谱图中的强度轴(Intensity)。经过一次MS处理的数据称为Level1数据,数据粗糙,但是全面。生物实验中经过在LC-MS实验后再进行一次MS实验,得到Level2数据。Level2数据是从Level1数据中随机抽取生成的,点数多但是覆盖率不足,量化准确性不高,基本用来和肽链库进行比对,确定Level1数据中的部分肽链组成,进而确定Level1数据中的蛋白质组成。
2 欲解决的问题
2.1 问题的提出
目前,在LC-MS生物大数据处理中的重要任务就是对各种检测到的肽链进行量化分析,面临的一个重要问题就是对相同样本的多次重复实验数据中肽链产生的信号进行校准识别,這项工作对于减少多次重复实验产生量化误差,提高量化准确性是至关重要的。但是进行相同样本的多次重复实验生物大数据的在特征检测、校准识别、量化分析时,理论上在重复实验条件完全一致的情况下,同一种肽链在不同重复实验数据中的相对应位置(相同时间值,相同M/Z值)应该产生相同的特征峰值。实际中,由于各种误差因素的存在,重复实验数据的时间轴也会产生较大差异,这样就无法对同一肽链在多组数据中进行相关峰值识别校准,进一步说就无法量化分析。这就需要我们对多次重复实验数据进行校准。
2.2 方法思路
我们要处理重复实验数据1和数据2,通过和ms2实验产生的Level2数据比对,如图1所示,数据1与数据2在ms2中共同检测的肽链共有700个(即为交集部分,区域B),这些肽链都能分别在数据1和数据2中找到相应的信号区间。但是,通过ms2实验的检测,数据1中依然有1944个肽链没有数据2中找到(区域A部分),数据2中依然有1603个肽链没有在数据1中找到(区域C部分)。那么我们将通过数据1与数据2中共同检测到的部分建立数学模型,然后对于区域A中的在数据2中找到匹配的肽信号区间,对于区域B中的在数据1中找到匹配的肽信号区间。
2.3 数据处理流程及算法思想(图2)
2.3.1 步骤1:数据的预处理
①由实验室获取的生物大数据为mzxml格式的大数据文件,我们使用matlab中的mzxmlread函数读取初始的mzxml文件,将mzxml实验数据读出生成原始的level1数据、level2数据、原始峰值信息、level1的时间信息,并保存,同时生成实验数据三维谱图如图3。
②读入ms2实验数据生成的肽链信息总表和数据的level1信息,根据ms2数据总表中的肽链的质量值(mass)和电荷(charge state)计算出质荷比(m/z值),按照肽链m/z值前后选取20ppm宽度计算LC谱图,以获取该肽链在两组数据中的XICs(用来确定肽链可能产生的LC峰)[3]。然后对XICs做区间检测,我们使用肽链主峰位置检测到高强度峰区域在背景噪声的标准偏差的三倍作为阈值,高于阈值的区间被认为是候选LC峰区间。
③对于给定的肽,如果分别在数据1和数据2对应的XICs中,检测出n、m个候选LC峰区间,则会有n*m候选LC峰区间对。然而,只有一对是给定的肽在两个重复实验数据中对应产生的[4]。我们再处理XICs选取候选区间过程中,首先区间中形成的波峰的点的个数要多于6个,然后按照每一个区间的最高信号值由高到低选出前10个区间,并保存区间时间的起始和结束位置。
2.3.2 步骤2:生成训练数据和测试数据
对于训练数据和测试数据我们应该选取有ms2时间点并检测到包含时间点区间的肽链。这样,我们再测试模型的时候才有真实值做比对,才能检测模型的准确性。那么对数据1和数据2中在ms2检测后重复的部分,即同时在数据1和数据2中检测到ms2时间点的肽链,共700个。以这700个肽链为基础,我们首先对区间检测的结果和ms2时间进行比对,选出区间包含ms2时间的肽链,经过筛选有599个肽链符合条件。这样我们随机选取400个作为训练序列训练统计模型,剩下的199个作为测试序列测试模型准确性,重复5次,准确性取平均值。
2.3.3 步骤3:建立训练模型
我们了解到产生时间偏移是随机的,且有直方图可以观测到基本符合正态分布。因此,如果出现未确定的两个区间的时间差Δt,我们需要根据已经得到的相关时间差样本t1计算概率p(Δt|t1),我们需要根据已经得到的非相关时间差样本t2计算概率p(Δt|t2)。我们可以根据相关概率p(Δt|t1)/p(Δt|t2)比值是否大于1来判断是否为相关区间。我们知道正态分布的公式为:
2.3.4 步骤4:训练模型并测试,得出模型匹配成功率
根據步骤3中用400个训练序列训练出来的匹配模型,我们将199个测试序列输入模型输出匹配结果。同时由于测试序列具有ms2的检测结果,因此,我们将测试结果与ms2结果做比对,所谓匹配成功即为模型输出数据1与数据2中的匹配区间对均能覆盖数据1中该肽链的ms2时间和数据2中该肽链的ms2时间。通过对学习模型进行测试,得到模型检测的准确率。重复进行5次随机选取训练和测试,平均准确率结果作为算法的准确率。
2.3.5 步骤5:对所有数据应用模型进行匹配校准
在对模型进行测试之后,我们将模型应用于图1中数据1的A区域和数据2的C区域,应用过程是:以数据1的A区域中某一肽链为例,由于该肽链在数据1中被ms2检测到,有m/z和时间信息等,但是并没有在数据2中被ms2检测到。因此,我们先分别在数据1与数据2中处理生成对应的XICs,然后进行区间检测,那么在数据1中我们根据ms2检测到的时间信息确定出准确区间,同时数据2中该肽链检测到的区间均为候选区间。我们将数据2中的候选区间与数据1中的准确区间的时间差作为模型输入,判断相关性的概率值和非相关性的概率值的比值,如果大于1那么我们认为找到了该肽链在数据2中的区间。如果多个区间概率比值大于1,那么相关性概率值最大的就是我们要选择的区间。这样我们将可以将数据1区域A和数据2区域C中的肽链分别在数据2中和数据1中找到了匹配区间。
3 数据处理结果
我们对算法的验证是通过对交集肽信号进行在有真实值条件下测试准确率和对待校准集合进行无真实值情况下完成匹配。
3.1 基于ms2检测结果的模型测试结果
我们进行了5次测试,每次都是随机选取400作为训练、199作为测试,对测试结果以MS2时间点为真实值进行比对,得到区间匹配准确度结果如表1。
3.2 无ms2检测结果的待校准集合匹配结果
数据1与数据2并集共4247个肽链,数据1中待校准匹配的个数为1944个,数据2中待校准匹配的个数为1603个。经过我们对数据1和数据2非交集中共3547个肽链信号进行算法匹配,最后得到区间结果的共3098对,校准匹配的覆盖率达到87.34%。
这样实现了对两组数据大部分的肽链的匹配校准工作,且匹配成功的概率为96.32%,而且达到了比较高的匹配覆盖率。
参考文献:
[1]宁康,陈挺.生物医学大数据的现状与展望[J].北京:科学通报,2015,Z1.
[2]胡瑞峰,邢小燕,孙桂波,孙晓波.大数据时代下生物信息技术在生物医药领域的应用前景[J].北京:药学学报,2014,11.
[3]Smith R, Ventura D, Prince J T. LC-MS alignment in theory and practice: a comprehensive algorithmic review.[J]. Briefings in Bioinformatics, 2015, 16(1):104.
[4]Bielow C, Mastrobuoni G, Kempa S. Proteomics Quality Control: Quality Control Software for MaxQuant Results[J]. Journal of Proteome Research, 2015, 15(3).技术文
随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2024/12/23 3:50:14