两种软件分析唾液多肽组结果的比较

    万磊磊 陈琦 程思明 李水明 王勇

    

    

    

    摘 要 以10个唾液样本为例,唾液经氧化石墨烯-磷酸镧纳米复合材料( LaGM) 方法分离和高分辨串联飞行时间质谱进行多肽鉴定后,使用Peaks studio 8.5(PS)和Protein Pilot Software 4.0(PP)两种软件分别进行搜库分析后对比鉴定结果。研究发现,两种软件鉴定出的阈值以上肽段数量存在差异, PS软件通常能够鉴定出更多阈值以上肽段数目;两种软件鉴定出的阈值以上相同肽段在PS中占30%~60%,在PP中占60%~90%,即某些肽段只能被PS或PP一种软件所鉴定。但是,两种搜库结果在降解蛋白质数目上无明显规律,数目因样本而异。值得注意的是,如果以PP和PS的阳性结果相互参照,发现在一种软件中阈值以下的肽段,在另一种软件中也可能是在阈值以上,而且此概率与肽段的打分呈正相关。研究还发现,两种软件对不同长度肽段的鉴定有一定的偏好性: PS鉴定结果中短肽段较多,而PP软件可以给出更多的长肽段。比较而言,在PP中,短肽段易出现假阴性,在PS中,长肽段易出现假阴性,而信号的相对强度与阈值无明显的相关性。本研究结果表明,只使用一种软件进行分析,结果不能准确地代表多肽组的全部情况,两种软件都能提供另一软件鉴定不到的信息,将两种软件结果综合分析,能够得到更为全面的结果。

    关键词 多肽组; Peaks studio; Protein Pilot; 不确定性; 假阴性

    1 引 言

    多肽组是指器官、组织、细胞和体液中的全部内源性多肽,包括有特殊功能的活性多肽和蛋白质代谢产生的多肽[1,2]。在研究多肽组的成分、功能、变化规律及其相关关系综合分析中形成多肽组学[3,4],多肽组可反映生理或者疾病变化过程,在疾病研究中的应用主要体现在疾病生物标志物的筛选、疾病诊断、疗效评价及预防等方面[5]。提取富集样品中的多肽后进行质谱检测、生物信息学分析和数据挖掘是多肽组学研究的基本方法[6~8]。

    基质辅助激光解吸离子化-飞行时间质谱(MALDI-TOF-MS)技术具有快速简便的特点,将样品中多肽简单分离后利用MALDI-TOF-MS分析分子量的技术路线在多肽组学研究中被广泛采用,但相比较而言,纳升液相色谱-串联质谱(nLC-MS/MS)有更高的分离效率和离子化效率,对多肽混合物的分离较好,离子化的竞争作用相对MALDI-TOF-MS更弱,因此MALDI-TOF-MS检测到的肽段数目远少于nLC-MS/MS。“同一”分子量并不一定代表一个肽段,因此,MALDI-TOF-MS方法获得多肽组的信息不够充分。液相色谱-高分辨串联质谱方法可以克服上述缺点,肽段序列和肽段所归属的蛋白质可以更准确地表征多肽组[9~11],但是,由于MALDI-TOF-MS方法简便快捷,目前应用该方法发现多肽组标记物的研究报道较多,而nLC-MS/MS的应用在逐步增加。然而,不同搜库软件对鉴定结果的影响尚未引起重视,目前大多数多肽组学的研究只用一种搜库软件分析多肽组数据。Caseiro等[11]利用Protein Pilot (PP)搜库软件搜索出1型糖尿病患者唾液中794种不同肽序列; Yin等[12]利用Biotool搜库软件搜索小鼠星形胶质细胞中的57种肽。但是对于一种软件分析是否能涵盖全部多肽组数据仍然存疑。 Parker等[13]使用Byonic和MaxQuant/Andromeda软件鉴定分析了血浆多肽组的5000多个肽段,但是并未对两种软件的数据进行对比分析。Peaks studio 8.5(PS)是一款通用的商业蛋白质鉴定软件,Protein Pilot是AB SCIEX公司开发质谱的软件。这两种软件虽然都是将质谱数据与数据库中理论肽段序列进行匹配,根据匹配正确或者错误率对肽段进行打分。但是二者的打分机理有一定差别: Protein Pilot打分采用正确匹配的置信度(conf),体现的是肽段的正确匹配率,通常截取置信度在95分以上的肽段; 而Peaks studio 8.5采用P值打分, 体现的是肽段的错误匹配率,通常取错误率在0.01以下(-10×lgP=20)的肽段。两种搜库软件对谱图的使用效率没有明显区别,因为样品的差异会导致图谱利用率的差异; 但通常PS搜库时间相对更短。

    本研究随机选取10个志愿者的唾液样本,样品经分离和质谱法鉴定多肽后,采用PS和PP两种软件分别进行分析,比较它们在肽段鉴定数目、肽段长度和信号强度等方面的异同,从而为如何认识单一軟件的搜库结果提供参考。

    2 实验部分

    2.1 仪器与试剂

    Eksigent nanoLC-UltraTM 2D系统、TripleTOF5600高分辨质谱仪、Protein Pilot 4.5软件(美国AB SCIEX公司); Peaks studio 8.5软件(加拿大BSI公司); Excel VBA编程compare tool 比较程序; 真空冷冻干燥机(美国Thermo Savant公司)。Pierce TM C18 Tips 固相萃取柱(美国 Thermo Scientific 公司)。氧化石墨烯-磷酸镧纳米复合材料(LaGM)为本实验室合成[14]; 甲酸、乙腈(质谱纯,美国 Sigma Aldrich 公司)。

    2.2 多肽富集与液相色谱-Triple-TOF-MS分析

    10个唾液样品来自10名志愿者。每个样品分别取0.5 mL唾液,利用LaGM磁性纳米材料富集分离[15]; 分离后冻干的多肽样品重新溶解于Nano-RPLC Buffer A中,在线Nano-RPLC液相色谱在Eksigent nanoLC-UltraTM 2D系统( AB SCIEX)上进行,溶解后的样品以2 μL/min的流速上样到C18预柱(3 cm ×100 μm, 3 μm, 15 nm)上,然后以相同流速冲洗脱盐10 min。分析柱是C18反相色谱柱( 75 μm×15 cm, 3 μm, 12 nm, ChromXP Eksigent),梯度洗脱: 70 min 内流动相B由5%升高至80%。质谱采用TripleTOF 5600系统结合纳升喷雾III 离子源(AB SCIEX, USA),喷雾电压为2.4 kV,气帘气压为0.2 MPa, 雾化气压为34.5 kPa,加热温度为150℃,质谱扫描方式为信息依赖的采集工作模式(Information dependent analysis, IDA), 一级TOF-MS单张图谱扫描时间为250 ms,每次IDA循环最多采集35个电荷为2+~8+,且单秒计数大于100的二级图谱,每张二级图谱的累积时间为80 ms。每次循环时间固定为2.5 s,碰撞室能量设定为适用于所有前体离子碰撞诱导解离(CID),动态排除设置为11 s。

    2.3 数据分析条件

    质谱数据分别用Peask studio 8.5和Protein Pilot Software 4.5进行搜库分析,使用uniprot 库中的Homo sapiens 人种专一数据库。进行PS搜库时分别设置非酶切、tri-top工具、CID碎片化,翻译后修饰选择磷酸化、乙酰化、氧化以及脱氨,并添加突变搜索, 假阳性率(False discovery rate, FDR)控制为 1%; 搜库完成后,导出保存HTML以及CSV文件[16~18]。 Protein Pilot Software 4.5软件分析: 检索参数设置为非酶切,检索方式为彻底分析, FDR控制为1%,分析结束后保存Excel文件。选取每个样品的阈值上与阈值下的肽段,将两种软件打分阈值上下的肽段进行同序列比对,得出交叉肽段。使用Excel表的LEN公式,得出肽段长度,取各种肽段长度的均值。将PS中阈值上下的肽段的Area和PP阈值上下肽段的Signal按照各分数段分类并取平均值。

    3 结果与讨论

    3.1 两种软件检索出的肽段数目对比

    无论使用何种搜库软件,在表征多肽组结果时,通常只考虑阈值之上的可信肽段。为控制FDR在1%,PS软件以-10lgP为标准,阈值20以上为有效(可信)肽段[17,18],而对于PP软件,置信度95分以上为有效肽段[17],95分以下的为可疑肽段,通常舍弃。因此,首先对比两种软件阈值以上的肽段数目。如图1所示,10个样品中除样品2外, PS鉴定到阈值以上肽段数目均多于PP,但个体差异较大。在样本2中,二者的鉴定数目接近,分别为964和1192个,相差约11.49%,而在样本6中,二者给出的肽段数目分别为1076和451,PS结果为PP的2.39倍。另一方面,PS给出的可信肽段占总给出肽段的百分比较高(70.24%~86.26%),即对于这10个样本,PS软件给出的阈值以上肽段数目均大于阈值以下的肽段数目,即可信肽段数目至少是不可信肽段数目的2.3倍。相反,PP軟件搜库结果中,阈值之上肽段数目与阈值之下肽段数目的比值范围为0.27~1.13,平均值为0.69。换言之,尽管PP软件给出了更多的肽段数目,但阈值之下的偏多。如果只考虑阈值之上的肽段,使用PS软件似乎可以得到更多的肽段信息,但因为两种方法所给出的分析结果的交集并不完全重合,还需对结果进行进一步分析。

    3.2 两种软件鉴定到的阈值之上相同肽段的对比

    首先,考虑阈值之上肽段在两种软件搜库结果中的相关性。如图2A所示,两种软件鉴定出相同肽段在PS中占30%~60%,在PP中占60%~90%。 如图2B所示,在样品6中PS和PP分别鉴定到1076和451条(差异最大),相同肽段有411条,分别占PS和PP鉴定肽段的38%和91%,此结果说明在PS软件给出的结果中,有62%是PP未能给出的,而在PP给出的结果中,9%是PS软件未能提供的。在样本8中, 两种软件鉴定到的肽段数目分别为1192和964条(差异最小),共同部分有564条,分别占各自阈值以上肽段数的59%和47%,这意味着对于该样本,PS鉴定结果的41%是其特有的,而PP软件结果中53%是特有的。总体上,PS中有大约50%的肽段是PP未鉴定到的; 同样地,PP中有约30%的肽段是PS未能提供的。

    值得注意的是,在降解蛋白质的水平上,PP和PS两种软件也表现出了不同的特点。在PS搜索结果中,10个样本的阈值以下肽段所归属的蛋白质数目均小于阈值以上肽段所组成蛋白质数目,而且除了样品2和4外,鉴定到的阈值以上肽段所归属的降解蛋白质数目与总降解蛋白质数目相同,提示在这8个样本中,阈值以下肽段和以上肽段来源于相同蛋白,检索结果肽段即使存在可能的假阴性,对定性分析的结果也没有影响(图2A)。而在PP搜库结果中,有半数以上的样本阈值以下肽段归属的蛋白质数目高于阈值以上降解蛋白质(图2B),只有样本7的阈值以上肽段归属蛋白质总数等于总降解蛋白质总数。总之,PS软件鉴定到更多的肽段,在蛋白质水平上的稳定性也优于PP搜库结果。实际工作中, PP中置信度95%以下的结果是否一定要舍弃还值得商榷。本研究进行了深入的对比分析。

    3.3 两种软件检测阈值的差异

    以上结果表明,PS搜库鉴定到了更多的阈值以上肽段。为阐明这种现象是因为两种软件算法不同还是阈值标准的差异,将两种软件阈值之上和阈值之下的肽段交叉比对。如图3A所示,在PP阈值以下肽段中,有5%~17%的肽段在PS中是阈值以上的; 同样地,在PS的阈值以下肽段中,有15%~25%的肽段在PP中是阈值之上,该结果说明某些肽段序列在两种软件中均被检出,但在阈值标准的设定上不一致而导致输出结果的不同,即某些肽段在一种软件中的打分为阈值以下,但在另一种软件中是阈值以上。换言之,如果以这两种软件的阈值以上肽段结果相互参照,则二者都存在一定的假阴性。进一步发现,在PP中肽段的假阴性比例与二者的打分正相关,如图3B所示,将PP阈值下肽段按照conf分数分成(0,50)、(50,80)和(80,95)3段,发现在50分以下的肽段中,有10%~15%的肽段在PS中是阈值上的,而在80~95分段,有30%~55%的肽段在PS中是阈值上的,提示PP搜库结果中80分以上肽段也有一定的可信性; 类似地,在PS搜库结果中,-lgP值在15~20之间的肽段有30%~40%在PP中是阈值上的。 产生这样现象的原因可能因为两种软件的原理、算法和打分标准不同[16~17],也可能与实验条件和谱图质量有关。

    3.4 PS与PP阈值上和阈值下肽段以及其交叉肽段的平均长度对比

    如图4所示,在PP软件鉴定到的肽段中,阈值以下肽段平均长度大于阈值以上肽段的平均长度,随着肽段数目的增加,串联质谱图中b和y型离子的连续性减弱,打分减小; 而在PS软件中则是相反的结果,阈值以上肽段平均长度大于阈值以下肽段的平均长度。在PP软件阈值下的肽段中,有一部分是被PS软件鉴定的阈值上肽段,值得注意的是,这一部分肽段在所有PP肽段中长度偏短; 而PS阈值以下却被PP软件鉴定为阈值以上的肽段,在所有PS肽段中长度较长。该结果提示在PP鉴定到的短肽段中容易出现假阴性,而在PS鉴定到的肽段中长肽段易出现假阴性。总体上,PS鉴定到的阈值以上肽段的平均长度小于PP软件。从阈值以上肽段长度极值上来看,如图5所示,这10个样品中,PS最短肽段长度为5~6之间,最长的肽段长度在56~65之间,PP最短肽段长度为6,最长肽段长度在64~81之间。以上结果说明, PP倾向于鉴定长肽段,相对而言,PS可鉴定更多的短肽段。结合前面的结果,在PP鉴定到的阈值下肽段中,打分较高、长度较短的肽段有较大的可能是可信的,同理在PS鉴定到的阈值下肽段中,打分较高、长度较长的肽段可能是可信的。因此,在只能使用一种搜库软件时,结合上述特征有可能降低假阴性。

    3.5 PS与PP各分段肽段的信号强度

    肽段母离子相对强度与其含量正相关,在PS软件中用峰面积Area表示,在PP中用信号强度Signal表示。对比各分段肽段的信号强度后发现,即使是置信度很低的肽段也可能有很高的信号强度(表1)。PS软件相对简单,-10 lgP数值大于20的肽段的Area较高; 但是在PP软件中,阈值以下(95)分数区间的肽段Signal并没有明显地随Conf分数变化而变化的趋势(如表1)。此外,在两种软件中,一些阈值以上肽段的信号强度也可能小于阈值以下肽段,这提示信号强度与肽段的置信度之间并无必然联系,这是因为母离子的强度只是决定串联质谱图质量的因素之一。本研究仅对比了PS与PP两种软件的搜库差异,然而,多肽组的结果差异可能产生于分析的各个环节。Sun等[19]利用离心+弱阳离子交换方法提取唾液多肽,利用MALDI-TOF-MS和LTQ-Orbitrap-MS两种质谱方法鉴定和SequestTM(IPI Human 3.45)搜库,给出了REFPFYGDYGSNYL等归属于Histatin-1等3个蛋白质的4条多肽。而在本研究的分析结果中,都可以检测到含有REFPFYGDYGSNYL序列的肽段,但数目存在较大差异(2~70个)。不同分析结果之间差别较大也是影响多肽组应用的一个关键瓶颈。

    4 结 论

    多肽组的分析结果与数据处理方法密切相关,不同分析软件鉴定出的多肽组结果有交集,但并不完全一致。在本研究中,多数样本中PS软件鉴定到了更多的肽段数目,但在鉴定降解蛋白质数目上,PS和PP两种软件没有显著差别。两种软件的分析结果中,最短肽段长度相近,但PP软件能够给出更长的阈值以上肽段。此外,PP搜库结果的假阴性也值得注意,即置信度為80%~95%的肽段中,约40%在PS中是阈值以上的肽段。总之,应用这两种搜库方法综合分析、互为补充,能够提高结果的准确性,克服单一方法的局限性,并减小个体差异的影响,使在降解蛋白质水平的多肽组结果更加准确。

    References

    1 Yang J, Song Y C, Dang C X, Song T S, Liu Z G, Guo Y M, Li Z F, Huang C. Clin. Exp. Med., 2012, 12(2): 79-87

    2 HONG Xiao-Yu, WANG Hao, XU Jing-Ling, LI Shui-Ming, WANG Yong, Chinese J. Anal. Chem.,? 2016,? 44(3): 403-408

    洪晓愉, 王 浩, 徐金玲, 李水明, 王 勇. 分析化学,? 2016,? 44(3): 403-408

    3 Gelman J S, Sironi J, Castro L M, Ferro E S , Fricker L D. J. Proteome Res.,? 2011,? 10(4): 1583-1592

    4 Parker B L, Burchfield J G, Clayton D, Geddes T A, Payne R J, Kiens B, Wojtaszewski J F P, Richter E A, James D E. Mol. Cell. Proteomics.,? 2017,? 16(12): 2055-2068

    5 Zhuang B, Hu Y, Fan X M, Zhu J G, Liu H, Gao L, Liang D, Zhang J J, Yu Z B, Han S P. J. Cell. Biochem.,? 2018,? 119(1): 468-477

    6 Du Z Q, Hua J, Su X, Song D L. Health,? 2019,? 11(6): 817-826

    7 SUN Ting-Ting, ZHANG Le-Le, WANG Qian, LI Chun, CHENG Bei-Jiu, ZHANG Xin. Journal of Plant Physiology,? 2015,? 51(7): 1173-1178

    孙婷婷, 张乐乐, 王 倩, 李 纯, 程备久, 张 欣.? 植物生理学报,??? 2015,? 51(7): 1173-1178

    8 GU Shu-Qing, ZHAN Li-Na, ZHAO Chao-Min, ZHENG Jiang, CAI Yi-Cun, DENG Xiao-Jun. Chinese Journal of Chromatography,? 2020,? 36(12): 1269-1278

    古淑青, 詹丽娜, 赵超敏, 郑 江, 蔡一村, 邓晓军.? 色谱,??? 2018,? 36(12): 1269-1278

    9 Dallas D C, Guerrero A, Parker E A, Robinson R C, Gan J N, German J B, Barile D, Lebrilla C B. Proteomics,? 2015,? 15(5-6): 1026-1038

    10 Vivian H, Christopher B L, Sonia P, Tomas C, Oliver F. J. Am. Soc. Mass Spectrom.,? 2018,? 29(5): 807-816

    11 Caseiro A, Ferreira R, Padro A, Quintaneiro C, Pereira A, Marinheiro R, Vitorino R, Amado F. Proteome Res.,? 2013,? 12(4): 1700-1709

    12 Yin P, Knolhoff A M, Rosenberg H J, Millet L J, Gillette M U, Sweedler J V. Proteome Res.? 2012,? 11: 3965-3973

    13 Parker B L, Burchfield J G, Clayton D, Geddes T A, Payne R J, Kiens B, Wojtaszewski J F P, Richter E A, James D E. Mol. Cell. Proteomics,? 2017,? 16 (12): 2055-2068

    14 XU Jing-Ling, HONG Xiao-Yu, LI Shui-Ming, WANG Yong. Chinese J. Anal. Chem.,? 2016,? 44(12): 1887-1891

    徐金玲, 洪晓愉, 李水明, 王 勇.? 分析化学,??? 2016,? 44(12): 1887-1891

    15 KONG Xiang-Yi, DU Jian-Shi, XU Jin-Ling, LI Shui-Ming, WANG Yong, ZHAO Qing. Chinese J. Anal. Chem.,? 2019, 47(11): 1816-1822

    孔祥怡, 杜建时, 徐金玲, 李水明, 王 勇, 赵 晴.? 分析化学,???? 2019,? 47(11): 1816-1822

    16 Chemonges S, Gupta R, Mills P C, Kopp S R, Sadowski P. Proteome Sci.,? 2016,? 15(1): 11-26

    17 Zhang J, Xin L, Shan B Z,Chen W W, Xie M J, Yuen Denis, Zhang W M, Zhang Z F, Lajoie G A, Ma B. Mol. Cell. Proteomics,? 2012,? 11(4): M111. 010587

    18 Ma B, Zhang K, Hendrie C, Liang C Z, Li M,? Doherty-Kirby A, Lajoie G. Rapid Commun. Mass Spectrome.,? 2003,? 17(20): 2337-2342

    19 Sun X Y, Huang X, Tan X, Si Y, Wang X Z, Chen F, Zheng S G. J. Transl. Med.,? 2016,? 14(1): 240

    Comparison of Two Different Softwares for

    Analyzing Salivary Peptidome

    WAN Lei-Lei1,3, CHEN Qi2, CHENG Si-Ming1,3, LI Shui-Ming1,3,4, WANG Yong*1,3,4

    1(College of Life and Ocean Science, Shenzhen Key Laboratory of Marine Bioresources and Ecology,

    Brain Disease and Big Data Research Institute, Shenzhen University, Shenzhen 518060, China)

    2(The Eighth Hospital Affiliated to Sun Yat-Sen University, Shenzhen 518026, China)

    3(Shenzhen Bay Laboratory, Shenzhen 518055, China)

    4(Shenzhen-Hong Kong Institute of Brain Science-Shenzhen Fundamental Research Institutions, Shenzhen 518060, China)

    Abstract In this study, 10 saliva samples were used as data sets. After the saliva sample was separated by graphene oxide-lanthanum phosphate nanocomposite (LaGM) method and identified by high-resolution tandem time-of-flight mass spectrometry, Peaks studio 8.5 (PS) and Protein Pilot Software 4.0 (PP) were used for searching analysis and the identification results were compared. It was found that the number of peptides identified by the two softwares were different. Under the experimental conditions, not only the PS software could usually identify more peptides, but also the results given by the two softwares did not completely overlap, and the same peptides identified by the two softwares occupied 30%-60% in PS and 60%-90% in PP, which meant that some peptides could be only identified by PS or PP software, but at the level of degraded protein, PS method had no obvious advantages. It was worth noting that if the positive results of PP and PS were cross-referenced, peptides below the threshold in one software may be above the threshold in another software, and this probability was positive related to the score of the peptide. Further research also found that the two softwares had a certain preference for identifying peptides of different lengths. The identified results of PS had more short peptides, while PP software could give more long peptides. In comparison, in PP software, short peptides were prone to false negative result, but long peptides were prone to false negative result in PS software. And the intensity of the signal had no obvious correlation with the threshold. This study showed that it was not advisable to use only one kind of software to analyze or only use the same reference result to represent the entire peptidome. Both softwares could identify the information each other that could not be identified by the other software. Cross-referencing the two analysis softwares each other could improve the accuracy of the results.

    Keywords Peptidome; Peaks studio; Protein Pilot; Uncertainty; False negative

    (Received 10 July 2020; accepted 31 August 2020)

    This work was supported by the Shenzhen Science and Technology Innovation Committee (No. JCYJ20170818142154551) and the Shenzhen-Hong Kong Institute of Brain Science-Shenzhen Fundamental Research Institutions (No. 2019SHIBS0003).

    2020-07-10收稿; 2020-08-31接受

    本文系深圳市科技計划项目(No. JCYJ20170818142154551)和深港脑科学创新研究院项目(NO. 2019SHIBS0003)资助

    * E-mail:? wyong@szu.edu.cn