网站首页  词典首页

请输入您要查询的论文:

 

标题 基于等质量肽段末端标记策略的质谱鉴定新算法
范文 郑乃仁+单亦初+邓玉林+张玉奎
摘 要 等质量肽段末端标记(Isobaric peptide termini labeling,IPTL)是一种使用轻、重同位素分别对肽段的C端和N端进行等重标记的技术。在对使用这种标记技术得到的数据进行一级谱分析时,由于肽段的质量相同,不会增加样本的复杂性,而在处理二级谱的数据时,可利用成对的b、y离子进行分析。本研究利用IPTL方法得到的实验数据设计了一种新的打分算法: 全部离子打分算法(All ions scoring algorithm, AISA)。AISA在对数据进行处理时,可以同时得到定性和定量信息。在QExactive HeLa和HumanHCCHL数据集上的蛋白定量覆盖率分别达到99%和100%。在QExactive HeLa 2D RPLC数据集上,AISA算法鉴定到的PSM、唯一肽段和蛋白质分别比Morpheus高15%、26%和22%。在HumanHCCHL数据集上,AISA算法鉴定到的PSM、唯一肽段和蛋白质分别比Morpheus高24%、39%和27%。在QExactive HeLa和HumanHCCHL数据集上蛋白质定量比值的平均值非常接近1,分别为1.18和0.90; 在0.5~2.0区间内的定量比值分别为91%和94%。
1 引 言
与几乎处于静态的基因组不同,细胞的蛋白质组会随外部刺激及内部反应而持续变化[1,2]。使用基于稳定同位素稀释技术的相对定量方法,可以对蛋白质表达谱的变化进行研究[3,4]。通过对细胞间差异进行蛋白质表达及修饰层面上的定量描述,能为理解复杂的生物现象提供关键信息[5,6]。为引入不同质量数的稳定同位素至肽段的特定位点,可采用多种方式,最常见的是化学标记、酶解标记和代谢标记3种方法[7~10]。使用质谱检测轻、重稳定同位素标记的等量蛋白质,通过比较相应肽段的峰面积,即可对其进行相对定量研究[11]。
在采用鸟枪法(Shotgun)的蛋白质组学研究中,常使用数据依赖采集(Data dependent acquisition,DDA)模式来获取二级质谱数据。其基本策略为: 选择一级谱中丰度最高的母离子进行二级碎裂,并将其加入临时排除名单,在一段时间内不再进行采集。如果共洗脱的母离子较多,将没有足够的时间对所有母离子进行二级碎裂,可检测的动态范围不可避免地受到限制,高丰度蛋白更容易被鉴定,而低丰度蛋白很难被鉴定。在常规的DDA模式鸟枪法蛋白质组学实验中,只有约16%会被选取进行二级碎裂[12]。
样本复杂性的增加是同位素标记方法的主要缺陷。通常,使用同位素标记的方法会使一级谱中峰的数量至少增加一倍,这也将进一步加剧对低丰度蛋白质母离子采样不足的缺陷,降低蛋白质定量分析的精确性。使用等质量标记策略可以克服这一缺陷[9,13,14]。因为对等质量标记实验的定量是在二级谱层面进行的,化学干扰影响降低,使其具有更高的信噪比。
等质量标记方法主要有相对与绝对定量等质量标签(Isobaric tags for relative and absolute quantitation, iTRAQ)、串联质量标签(Tandem mass tags, TMT)、可裂解等质量标记亲和标签(Cleavable isobaric labeled affinity tag, CILAT)、N,N二甲基化亮氨酸(N,NDimethyl leucine, DiLeu)和等质量肽段末端标记(Isobaric peptide termini labeling, IPTL)等[15~20]。其中,iTRAQ、TMT、CILAT和DiLeu等都属于基于报告离子的定量方法,报告基团、平衡基团和反应基团组合在一起形成标记试剂。其中,报告基团和平衡基团有多种质量,但是它们的质量总和相等。因此,当标记试剂通过化学反应与肽段连接后,不同样品中相同蛋白质所对应的相同肽段的质量是相等的。但在进行二级谱分析时,报告基团会断裂下来。因此,根据质量不同的报告基团的丰度,就可以对不同样品中的蛋白质进行相对定量分析[21~24]。
IPTL方法采用蛋白内切酶LysC消化蛋白质,生成C端为赖氨酸的肽段; 分别使用含有轻、重同位素的試剂对这些赖氨酸残基进行选择性修饰; 进一步在N端使用含有轻、重同位素的试剂对肽段进行相反于C端的修饰,最终得到等质量的肽段混合物。同时对这些肽段进行质谱分析,在进行一级谱分析时,由于肽段的质量相同,不会增加样本的复杂性。然而在处理二级谱的数据时,则可利用成对的b、y离子进行分析[9]。在AISA算法中,同时搜索成对离子与非成对离子的信息; 可以有更多的肽段被识别与利用,极大地改善了定量覆盖度和定量结果的准确度。
IPTL方法在很大程度上增加了二级谱中的定量信息。Matrix Science公司的Mascot搜索引擎,在处理非同位素标记的肽段数据时可以获得很好的匹配结果。但是由于Mascot在对肽段数据打分时,会考虑匹配到的肽段的峰强度。从而使用IPTL方法取得的二级数据中,有大量因使用了同位素对称修饰而无法被Mascot匹配到的肽段存在,导致匹配到的肽段的相对峰强度降低,继而影响了Mascot对相应肽段的打分及鉴定结果[25]。
专门针对高分辨率串联质谱数据开发的数据库搜索软件Morpheus在一定程度上解决了Mascot所遇到的困难。Morpheus使用如下算法来计算肽段图谱匹配(Peptide spectrum matches,PSMs)的得分: 将二级谱中匹配的离子数量之和作为得分的整数部分,而所有匹配的离子对应的图谱丰度之和作为得分的小数部分。使用这种打分方式,虽然未被匹配的对称同位素标记的肽段离子仍大量存在,但并不会对最终打分造成太大影响。由于对称同位素标记的肽段离子信息未被有效利用,因此仍有部分肽段无法鉴定。如何有效利用这些信息,已成为一项新的需求。
本研究专门针对IPTL方法的特点,为利用IPTL方法得到的实验数据设计了一种新的打分算法: 全部离子打分算法(All ions scoring algorithm, AISA)。AISA在对使用IPTL方法得到的实验数据进行处理时,可以同时得到定性和定量信息。通过对数据集进行处理分析,发现AISA算法能得到比Mascot和Morpheus更多的鉴定结果,且在QExactive HeLa和humanHCCHL數据集上的蛋白定量覆盖率分别达到99%和100%。
2 实验部分
2.1 仪器与试剂
利用Ultimate 3000色谱系统(美国Dionex公司)与QExactive质谱仪(美国赛默飞世尔公司)构建一维纳升系统(1DnanoRPLCESIMS/MS); BioSpec Tissue Tearor组织匀浆仪(美国Biospec Products公司); CPX130超声破碎仪(美国ColeParmer公司); CentriVap真空浓缩仪(美国LABCONCO公司)。
去除赖氨酸的DMEM培养基(美国Thermo公司); d(2),13C甲醛和d(0),12C甲醛(美国Cambridge Isotope公司); 蛋白内切酶LysC(日本WAKO公司); 尿素、蛋白酶抑制剂、甲酸(FA)、甲醛(38%水溶液)和o甲基异脲(美国SigmaAldrich公司); 碘乙酰铵(IAA)和二硫苏糖醇(DTT)(美国Acros公司); BCA法蛋白浓度测定试剂盒(中国碧云天生物科技研究所); 乙腈(ACN)(色谱纯,德国Merck公司); 实验用水为经过MilliQ系统(美国Millipore公司)处理的超纯水; 其它试剂均至少为分析纯。Daiso C18填料(5 μm,120 ,日本Daiso公司); 熔融石英毛细管(75 μm i.d. × 375 μm o.d.; 150 μm i.d. × 375 μm o.d.,中国鑫诺光纤色谱有限公司); 人肝癌高低转移株细胞株由复旦大学刘银坤教授惠赠。
2.2 实验方法
2.2.1 HeLa细胞样品的制备 HeLa细胞样品参考文献[26]的方法制备。首先是代谢标记。先将HeLa细胞分为两份,在37℃、5% CO2的环境下,分别使用加入13C6 L赖氨酸和12C6L赖氨酸的DMEM培养基进行培养,标记为第一代。每5天传代一次,每份样品传5代。培养好的细胞加入适量1×磷酸盐缓冲生理盐水(Phosphate buffered saline,PBS)清洗,用胰蛋白酶消化。细胞从培养皿上脱离后,加入含有血清的培养基终止消化,收集细胞悬液,离心,收集细胞。
蛋白的提取和酶解: 分别将收集所得的两份细胞悬浮在裂解液(含8 mol/L尿素和1%(V/V)蛋白酶抑制剂)中, 10000 r/min匀浆1 min,然后在冰浴中超声破碎100 s, 25000 r/min离心40 min,取上清待用,并用BCA试剂盒分别测定两份蛋白浓度。提取得到的两份蛋白分别溶解于50 mmol/L NaHCO3(pH 7.5), 在90℃下热变性20min,冷却至室温后还原(10 mmol/L DTT,56℃,2 h)并烷基化(25 mmol/L IAA,室温避光,40 min),随后以酶/蛋白质为1∶25 (w/w)的比例加入胞内蛋白酶赖氨酸C,并在37℃水浴中反应16 h。
肽段的等重标记: 先将赖氨酸胍基化: 向肽段中加入40 μL 2 mol/L o甲基异脲(溶解于100 mmol/L NaHCO3),然后用2 mol/L NaOH调节至pH 11,并在37℃下孵育2 h,接着加入10%三氟乙酸(Trifluoroacetic Acid,TFA)调节至pH 8终止反应。采用d(0)、12C甲醛和d(2)、13C甲醛分别还原代谢标记中重标和轻标的肽段: 先向胍基化的两份肽段中分别加入16 μL 0.6 mol/L氰基硼氢化钠,然后在振荡条件下向代谢标记的重标肽段中加入16 μL d(0)、12C甲醛溶液(4%,V/V),向代谢标记的轻标肽段中加入16 mL d(2)、 13C甲醛溶液(4%,V/V)。将它们分别在37℃下孵育1 h。将两部分肽段1∶1(w/w)混合, 待用。
2.2.2 HeLa细胞样品的2D LCMS/MS分析 对HeLa细胞样品的2D LCMS/MS实验条件进行优化。混合的肽段首先进行高pH反相液相色谱分析,采用的分离体系由Agilent 1290 Infinity液相色谱系统(Santa Clara,CA,USA)结合ZORBAX ExtendedC18分离柱(50 mm×2.1 mm,1.8 μm,Agilent,USA)组成。流动相为A: 25 mmol/L HCOONH4,pH 10; B: 25 mmol/L HCOONH4溶于90% (V/V)ACN,pH 10。洗脱梯度为: 0~40 min,20% B; 40~50 min,30% B; 50~60 min,80% B。每3 min收集1个馏分,共收集20个馏分。再将20个馏分以等间距的收集时间混合成10份,例如馏分1与馏分11混合,馏分10与馏分20混合。将最终得到的10个样品真空干燥,重溶在1% 甲酸(FA)中,
80℃保存待用。
第二维色谱分离系统为基于QExactive和Ultimate 3000液相色谱系统结合构建的nanoRPLCESIMS/MS分析系统。NanoRPLC的分离条件为: 流动相A: 97.9% H2O+2% ACN+ 0.1% FA; 流动相B: 97.9% ACN+2% H2O+0.1%FA; 首先用100% A在8 μL/min的流速下将样品上样到DaisoC18预柱(3 cm×150 μm i.d.)上,再在DaisoC18毛细管分离柱(15 cm×75 μm i.d.)上以350 nL/min的流速分离肽段,梯度洗脱程序为: 0~60 min,20% B; 60~75 min, 30% B; 75~90 min, 80% B; 90~95 min,80% B。
QExactive质谱参数参考相关文献的条件,优经化后的参数为: 正离子模式; 喷雾电压为2.2 kV; MS扫描范围为300~1850 amu,分辨率设为70,000,自动增益控制(Automatic gain control,AGC)设为1000000,离子最大累积时间设为120 ms。12个最强的母离子用高能碰撞碎裂模式(Higherenergy collisional dissociation, HCD)进行二级碎裂。MS/MS的分辨率设为35000,AGC设为500000,离子最大累积时间设为120 ms。动态排除功能开启,母离子被选中一次即排除30 s,排除列表的大小为500。
2.2.3 人肝癌高低转移细胞株的样品制备 人肝癌高转移细胞株(MHCC97H)和低转移细胞株(MHCC97L)的样品制备过程与HeLa细胞相同。高转移细胞株在代谢标记时采用重标标记赖氨酸,在化学标记时采用轻标标记肽段的N末端; 低转移细胞株在代谢标记时采用轻标标记赖氨酸,在化学标记时采用重标标记肽段的N末端。两份肽段1∶1(V/V)混合备用。
2.2.4 人肝癌高低转移细胞株样品的2D LCMS/MS分析 HumanHCCH/L样品的高pH分级实验流程与HeLa细胞一致。对10个馏分采用基于TripleTOF 5600+的nanoRPLCESIMS/MS系统进行分析。优化的nanoRPLC的分离条件为流动相A: 97.9% H2O+2% ACN+0.1% FA; 流动相B: 97.9% ACN+2% H2O+0.1% FA; 首先用100% A在4 μL/min的流速下將样品上样到DaisoC18预柱(3 cm ×150 μm i.d.),然后在DaisoC18毛细管分离柱(15 cm×75 μm i.d.)上以300 nL/min的流速以如下梯度分离肽段: 0~45 min,5% B; 45~60 min,22% B; 60~65 min,35% B; 65~70 min,80% B。
参考相关文献的实验条件,经优化的TripleTOF 5600+的质谱参数为: 质谱分析在DDA的正离子模式下进行; 喷雾电压为2.6 kV; MS的扫描范围为350~1250 amu,考虑的价态为+2~+5价,cps>80,离子的累积时间0.25 s; 取最强的60个母离子做MS/MS碎裂,扫描范围为100~1500 amu,离子的累积时间0.04 s; 动态排除功能开启,母离子被选中一次就将其排除22 s。
2.2.5 数据库搜索和搜库结果的后处理 使用Morpheus和Mascot两种数据库搜索引擎与AISA算法进行对照。测试数据集为QExactive HeLa 2D RPLC和humanHCCH/F。并针对humanHCCH/F数据集寻找差异蛋白。采用的数据库为IPI human (版本3.87)。3种搜索算法均会在搜索前将数据库转换为正反库的形式。
HumanHCCH/L样品数据在Triple TOF 5600 plus质谱仪上采集得到,其格式为.wiff。使用AB SCIEX MS Data Converter转换为Mascot通用格式(Mascot Generic Format,MGF)文件。HeLa 2D RPLC样品数据从QExactive质谱仪采集得到,其格式为.raw。使用Proteome Discoverer转换为MGF文件。然后使用前述3种搜索算法进行搜库。
搜库时采用的通用参数如下: 酶切类型设为蛋白内切酶LysC特异性酶切; 允许最多2个漏切位点; 可变修饰设为甲硫氨酸的氧化(+16 Da); 固定修饰设为赖氨酸的胍基化(+42 Da)和半胱氨酸的烷基化(+57 Da); 因为在实验结果存在干扰的情况下,被选取做二级检测的母离子有可能是第一或第二同位素,而不是单同位素峰,所以,对于实验结果中的母离子质量允许1或2 Da的单同位素质量偏离。
非通用参数为: 对QExactive HeLa 2D RPLC数据集,一级和二级的质量容忍度分别设置为20 ppm和0.01 Da; 对于HumanHCCH/L数据集,一级和二级的质量容忍度分别设置为20 ppm和0.025 Da。在使用AISA算法搜索时,需要设置2个可变修饰: 肽段N末端的重标二甲基化(+34 Da)和赖氨酸的13C0轻标。在使用Mascot或Morpheus搜索引擎时,需要设置3个可变修饰: 肽段N末端的轻标二甲基化(+28 Da)、肽段N末端的重标二甲基化(+34 Da)和赖氨酸的13C6重标。
所有搜索结果的PSM的错误发现率(False discovery rate,FDR)控制在1%以下。根据来源于正序列和反序列的PSM计数对每个PSM计算q值,q≤1%,则接受。
3 结果与讨论
3.1 AISA算法的设计与实现
AISA算法中首先根据母离子的质量从蛋白质数据库中检索候选肽段,并根据相应的肽段序列生成理论的b离子和y离子,然后与实际的二级谱图进行匹配。将匹配到的离子总数加上这些匹配到的离子的峰强度之和占所有离子峰强度之和的比值,作为AISA算法对一个肽段的打分值。
AISA算法的实现以Morpheus的源程序为基础,添加了对Mascot通用格式(MGF)文件的读取功能,并按照AISA算法重写了其打分函数。整个系统开发在微软Visual Studio Community 2015集成开发环境下完成。
测试使用的数据集分别是HeLa细胞和人肝癌高低转移细胞株。首先使用细胞培养氨基酸稳定同位素标记(Stable isotope labelling by amino acid in cell culture,SILAC)方法和化学标记相结合对HeLa细胞进行等质量同位素标记,1∶1(V/V)混合后用高pH反相液相色谱分级,并用基于QExactive质谱构建的低pH RPLCMS/MS平台进行分析。使用相同方法对人肝癌高低转移细胞株进行处理,得到的数据分别命名为QExactive HeLa 2D RPLC和humanHCCH/L。
3.2 不同算法对数据集的鉴定结果比较
使用AISA算法对QExactive HeLa 2D RPLC和humanHCCHL数据集进行鉴定时, PSM的FDR在1%以下。并与分别使用Mascot和Morpheus两种搜库方法所得到的鉴定结果进行对比,其差异分别如图 1和图2所示,纵坐标为3次平行实验所得鉴定数量的平均值,误差线为3次平行实验所得鑒定数量的标准差。每个子图中3个分组分别为鉴定到的PSM、唯一肽段数和蛋白质数量。
从图1和图2可见,对于两个数据集,AISA算法鉴定所得的各项指标均高于Mascot或Morpheus。在QExactive HeLa 2D RPLC数据集上,AISA算法鉴定到的PSM、唯一肽段和蛋白质分别比Morpheus高15%、26%和22%。在HumanHCCHL数据集上,AISA算法鉴定到的PSM、唯一肽段和蛋白质分别比Morpheus高24%、39%和27%。
之间,在QExactive HeLa 2D RPLC数据集和HumanHCCHL数据集上,分别仅有182个和74个蛋白质的定量比值在此区间外,落在区间内的蛋白质定量比值分别约占总体的91%和94%。蛋白质定量比值的平均值在QExactive HeLa 2D RPLC数据集和humanHCCHL数据集上分别为1.18和0.90,均接近1,说明AISA算法的定量准确度非常好。在错误发现率<1%的条件下,AISA算法的打分最低值为16.1008,即每个鉴定到的PSM中至少含有16个碎片离子信息。由于所有鉴定到的PSM都有定量信息,使得算法的定量覆盖率达到了100%。在此基础上,因每个二级谱都包含不只一个定量比值,定量分析的准确度也得到了较大提升。
4 结 论
本研究设计的AISA算法可以对基于IPTL策略的实验鉴定出比已有的商品化软件Mascot和开源Morpheus软件更多的蛋白质信息,同时通过识别成对出现的碎片离子强度,可以实现对IPTL策略数据的定量分析,定量覆盖率在QExactive HeLa和HumanHCCHL数据集中分别达到了99%和100%。此功能将极大地拓宽其在相关领域的应用空间,使得对于复杂蛋白质组体系中特定蛋白质的定性与定量分析可同时完成,在蛋白质组学研究、疾病标志物的筛选等方面有着重要的潜在应用价值。
随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/2/6 10:13:35