|
https://www.abbs.info e-mail:[email protected] ISSN |
|
Short Communication |
A
Novel Approach for Peptide Identification by Tandem Mass Spectrometry
SHENG
Quan-Hu#, TANG Hai-Xu1#, XIE Tao2, WANG
Lian-Shui, DING Da-Fu*
( Key Laboratory of
Proteomics, Institute of Biochemistry and Cell Biology, Shanghai Institutes for
Biological Sciences, the Chinese Academy of Sciences, Shanghai 200031, China; 1Department of Computer Science
and Engineering, University of California, San Diego, San Diego, CA92093, USA; 2Institute for Systems Biology,
1441 North 34th Street, Seattle, Washington 98103, USA )
Abstract High throughput scoring
algorithms that are used to find the match of a tandem mass spectrum to a
predicted mass spectrum of a peptide within a database have been applied in
shotgun proteomics. However, these algorithms could produce a significant
number of incorrect peptide identifications. Here a novel approach was
developed to scoring tandem mass spectra against a peptide database, in which
fragment ion probabilities, number of enzymatic termini of candidate peptides,
matching quality and match pattern between experimental and theoretical
spectrum were considered. Benchmarking the novel scorer on a large set of
experimental MS/MS spectra, it is demonstrated that PepSearch performs
significantly better than the widely used software SEQUEST. The PepSearch
software is available at http://compbio.sibsnet.org/projects/pepsearch.
Key
word sproteomics;
database searching; peptide identification; probabilistic model; tandem mass
spectrometry
_____________________________________
Received:
May 28, 2003 Accepted:
June 12, 2003
This
work was supported by the grants from the National High Technology Research and
Development Program of China (863 Program) (No. 2002AA234021), Knowledge
Innovation Program of the Chinese Academy of Sciences (No. KJCX1-08), Shanghai
Science and Technology Commission (No. 00JC14018), and the Major Program of the
National Natural Science Foundation of China (No. 39990600-03)
#Who
contributed equally to this article
*Corresponding
author: Tel, 86-21-54921254; Fax, 86-21-54921011; e-mail, [email protected]
用于串联质谱鉴定多肽的计量方法
盛泉虎# 汤海旭1# 解涛2 王连水 丁达夫*
( 中国科学院上海生命科学研究院生物化学与细胞生物学研究所蛋白质组学重点实验室, 上海 200031;1加州大学圣地亚哥分校计算科学与工程系, 圣地亚哥 92093; 2系统生物学研究所, 华盛顿
98103 )
摘要 目前已有多种对串联质谱与数据库中多肽的理论质谱的一致性进行评估的高通量计量算法用于鸟枪法蛋白质组学(shotgun proteomics)研究。 然而这些方法操作时存在大量错误的多肽鉴定。 这里提出一种新的串联质谱识别多肽序列的计量算法。 该算法综合考虑了串联质谱中不同离子出现的概率、 多肽的酶切位点数、
理论离子与实验离子的匹配程度和匹配模式。 对大容量的串联质谱数据集的测试表明, 根据算法开发的软件PepSearch比目前最常用的软件SEQUEST有更好的鉴定准确性。
PepSearch可从http://compbio.sibsnet.org/projects/pepsearch下载。
关键词 蛋白质组信息学; 数据库搜索; 多肽鉴定;
概率模型; 串联质谱
串联质谱检测(tandem
mass spectrometry, MS/MS)已经成为高通量蛋白质组学的核心技术, 特别对于蛋白质复合物的鉴定[1]、 蛋白质互联网的解析[2]、 信号转导途径的分析[3]、 代谢途径的重构[4], 以及细胞行为的模拟[5]等方面会有重大的应用。
蛋白质组学的目标是识别与鉴定细胞在各种条件下表达的所有蛋白质, 因此串联质谱解析的样本是复杂的蛋白质混合物。 通常,
样本蛋白质先由胰蛋白酶酶解成肽段, 形成多肽混合物。 此混合物送入多维高压液相色谱仪及串联质谱仪, 在一级质谱中进行肽段离子化, 被选离子(母离子)经碰撞诱导解离(collision
induced dissociation, CID) 在二级质谱中产生串联质谱。 于是必须建立一种计量方法来判定产生此质谱的多肽, 最终根据这些多肽判定来实现样本中的所有蛋白质的鉴定。 这就是目前所谓的鸟枪蛋白质组学策略(shotgun proteomics)[6]。
通常的计量方法把串联质谱跟多肽序列数据库构成的每条理论质谱比较、 计分,
以最高分判定质谱的多肽。
Eng等人[7]最早(1994)提出互相关(cross-correlation)计量方法, 即计算实验谱与理论谱之间的相关系数。
该方法至今仍是LC-MS/MS质谱分析中常用商品软件SEQUEST采用的计量方法。 此后涌现了不少多肽鉴定软件, 如Mascot[8]、 MOWSE[9]、
MS-Tag[10]、 SONOR[11]、 ProbID[12]和Protocall[13]等, 使用不同的计量方法以质谱来搜索蛋白质序列数据库。 然而, 这些方法均有显著的鉴定误差率[14]。 更有效的计量方法是对特定的实验谱的出现概率建立统计模型。 Dancik等[15]在通过串联质谱进行多肽从头测序(de novo peptide sequencing)时,
提出一种实验谱中不同离子类型出现的概率模型。 这个模型所需要的参数可从一个经过人工注释的质谱数据集中学习得到。 该方法可以避免很多其他方法中武断的假设[16]。 Bafna等[17]综合考虑离子出现概率、
杂谱以及仪器误差等因素进一步发展了这个模型。 Zhang等[12]提出了用于对实验谱和理论谱之间一致性评估的后验概率计量方法。 然而, 他们对离子类型和离子强度等的考虑还不够完善。
我们对上述计量模型作如下改进: (1)考虑一个多肽可能产生的大多数离子类型; (2)考虑到肽在碰撞诱导解离中碎裂是由肽的物化性质与碰撞能量控制的随机过程, 而不同类型的离子具有确定的出现概率, 设计了新的计量算法。 基于新的计量算法,
开发了多肽鉴定软件PepSearch。
通过对Keller等[14]提供的一个实验谱数据集的测试, PepSearch的鉴定准确性显著地超过了SEQUEST软件。 PepSearch可以从http://compbio.sibsnet.org/projects/pepsearch免费下载。
1 材料和方法(Materials
and Methods)
1.1 材料
1.1.1 实验谱数据集 实验CID谱数据集是由Keller博士[14]提供。 这个数据集由18个对照蛋白质的混合物通过串联质谱仪产生, 共有37 044条质谱。 根据母离子电荷不同, 可分为三个测试集: 测试集1, 包含504条一价母离子谱([M+H]+);
测试集2, 包含18496条二价母离子谱([M+2H]2+);
测试集3, 包含18 044条三价母离子谱([M+3H]3+)。
这些对照蛋白质包括牛β–酪蛋白、 牛血清白蛋白、 鸡卵清蛋白、 兔磷酸化酶b、 马肌红蛋白、 酵母磷酸甘露糖异构酶、 大肠杆菌碱性磷酸酶等。
1.1.2 蛋白质序列数据库 为了考虑计量算法的特性, 需要一个用于质谱搜索的蛋白质序列数据库。
用于测试集1、 2、
3进行数据库搜索所用的蛋白质序列数据库由Keller博士[14]提供。 该数据库共包含88 374个蛋白质序列,
是由人多肽序列数据库加上上述18个对照蛋白质的序列组成。
1.2 方法
从CID谱线文件中读取实验峰、 母离子质量Mp以及母离子电荷Mc后,
根据给定的条件PIT(母离子质量容限)和MNET(最小末端酶切位点数目), 下面四个步骤将用于对该实验谱进行数据库搜索以鉴定相应的多肽序列(图1)。
