Categories
Articles

(o3186)Sheng Quan-Hu: Peptide Identification by Tandem Mass Spectrometry

https://www.abbs.info e-mail:[email protected]

ISSN
0582-9879                          
      
        ACTA BIOCHIMICA et
BIOPHYSICA SINICA 2003, 35(8):
734–740                              
     CN 31-1300/Q

Short Communication

A
Novel Approach for Peptide Identification by Tandem Mass Spectrometry

SHENG
Quan-Hu#, TANG Hai-Xu1#, XIE Tao2, WANG
Lian-Shui, DING Da-Fu*

( Key Laboratory of
Proteomics, Institute of Biochemistry and Cell Biology, Shanghai Institutes for
Biological Sciences, the Chinese Academy of Sciences, Shanghai 200031, China;
1Department of Computer Science
and Engineering, University of California, San Diego, San Diego, CA92093, USA;
2Institute for Systems Biology,
1441 North 34th Street, Seattle, Washington 98103, USA )

Abstract        High throughput scoring
algorithms that are used to find the match of a tandem mass spectrum to a
predicted mass spectrum of a peptide within a database have been applied in
shotgun proteomics. However, these algorithms could produce a significant
number of incorrect peptide identifications. Here a novel approach was
developed to scoring tandem mass spectra against a peptide database, in which
fragment ion probabilities, number of enzymatic termini of candidate peptides,
matching quality and match pattern between experimental and theoretical
spectrum were considered. Benchmarking the novel scorer on a large set of
experimental MS/MS spectra, it is demonstrated that PepSearch performs
significantly better than the widely used software SEQUEST. The PepSearch
software is available at http://compbio.sibsnet.org/projects/pepsearch.

Key
word
       sproteomics;
database searching; peptide identification; probabilistic model; tandem mass
spectrometry

_____________________________________

Received:
May 28, 2003        Accepted:
June 12, 2003

This
work was supported by the grants from the National High Technology Research and
Development Program of China (863 Program) (No. 2002AA234021), Knowledge
Innovation Program of the Chinese Academy of Sciences (No. KJCX1-08), Shanghai
Science and Technology Commission (No. 00JC14018), and the Major Program of the
National Natural Science Foundation of China (No. 39990600-03)

#Who
contributed equally to this article

*Corresponding
author: Tel, 86-21-54921254; Fax, 86-21-54921011; e-mail, [email protected]

用于串联质谱鉴定多肽的计量方法

盛泉虎#    汤海旭1#  解涛2  王连水     丁达夫*

( 中国科学院上海生命科学研究院生物化学与细胞生物学研究所蛋白质组学重点实验室, 上海 200031;1加州大学圣地亚哥分校计算科学与工程系, 圣地亚哥 92093; 2系统生物学研究所, 华盛顿
98103 )

摘要       目前已有多种对串联质谱与数据库中多肽的理论质谱的一致性进行评估的高通量计量算法用于鸟枪法蛋白质组学(shotgun proteomics)研究。 然而这些方法操作时存在大量错误的多肽鉴定。 这里提出一种新的串联质谱识别多肽序列的计量算法。 该算法综合考虑了串联质谱中不同离子出现的概率、 多肽的酶切位点数、
理论离子与实验离子的匹配程度和匹配模式。 对大容量的串联质谱数据集的测试表明, 根据算法开发的软件PepSearch比目前最常用的软件SEQUEST有更好的鉴定准确性。
PepSearch
可从http://compbio.sibsnet.org/projects/pepsearch下载。

关键词   蛋白质组信息学; 数据库搜索; 多肽鉴定;
概率模型; 串联质谱

串联质谱检测(tandem
mass spectrometry, MS/MS)
已经成为高通量蛋白质组学的核心技术, 特别对于蛋白质复合物的鉴定[1] 蛋白质互联网的解析[2] 信号转导途径的分析[3] 代谢途径的重构[4], 以及细胞行为的模拟[5]等方面会有重大的应用。

蛋白质组学的目标是识别与鉴定细胞在各种条件下表达的所有蛋白质, 因此串联质谱解析的样本是复杂的蛋白质混合物。 通常,
样本蛋白质先由胰蛋白酶酶解成肽段, 形成多肽混合物。 此混合物送入多维高压液相色谱仪及串联质谱仪, 在一级质谱中进行肽段离子化, 被选离子(母离子)经碰撞诱导解离(collision
induced dissociation, CID)
在二级质谱中产生串联质谱。 于是必须建立一种计量方法来判定产生此质谱的多肽, 最终根据这些多肽判定来实现样本中的所有蛋白质的鉴定。 这就是目前所谓的鸟枪蛋白质组学策略(shotgun proteomics)[6]
通常的计量方法把串联质谱跟多肽序列数据库构成的每条理论质谱比较、 计分,
以最高分判定质谱的多肽。

Eng等人[7]最早(1994)提出互相关(cross-correlation)计量方法, 即计算实验谱与理论谱之间的相关系数。
该方法至今仍是LC-MS/MS质谱分析中常用商品软件SEQUEST采用的计量方法。 此后涌现了不少多肽鉴定软件, Mascot[8] MOWSE[9]
MS-Tag[10]
SONOR[11] ProbID[12]Protocall[13], 使用不同的计量方法以质谱来搜索蛋白质序列数据库。 然而, 这些方法均有显著的鉴定误差率[14] 更有效的计量方法是对特定的实验谱的出现概率建立统计模型。 Dancik[15]在通过串联质谱进行多肽从头测序(de novo peptide sequencing),
提出一种实验谱中不同离子类型出现的概率模型。 这个模型所需要的参数可从一个经过人工注释的质谱数据集中学习得到。 该方法可以避免很多其他方法中武断的假设[16] Bafna[17]综合考虑离子出现概率、
杂谱以及仪器误差等因素进一步发展了这个模型。 Zhang[12]提出了用于对实验谱和理论谱之间一致性评估的后验概率计量方法。 然而, 他们对离子类型和离子强度等的考虑还不够完善。

我们对上述计量模型作如下改进: (1)考虑一个多肽可能产生的大多数离子类型; (2)考虑到肽在碰撞诱导解离中碎裂是由肽的物化性质与碰撞能量控制的随机过程, 而不同类型的离子具有确定的出现概率, 设计了新的计量算法。 基于新的计量算法,
开发了多肽鉴定软件PepSearch
通过对Keller[14]提供的一个实验谱数据集的测试, PepSearch的鉴定准确性显著地超过了SEQUEST软件。 PepSearch可以从http://compbio.sibsnet.org/projects/pepsearch免费下载。

1    材料和方法(Materials
and Methods)

1.1   材料

1.1.1       实验谱数据集       实验CID谱数据集是由Keller博士[14]提供。 这个数据集由18个对照蛋白质的混合物通过串联质谱仪产生, 共有37 044条质谱。 根据母离子电荷不同, 可分为三个测试集: 测试集1, 包含504条一价母离子谱([M+H]+);
测试集2, 包含18496条二价母离子谱([M+2H]2+);
测试集3, 包含18 044条三价母离子谱([M+3H]3+)
这些对照蛋白质包括牛β酪蛋白、 牛血清白蛋白、 鸡卵清蛋白、 兔磷酸化酶b 马肌红蛋白、 酵母磷酸甘露糖异构酶、 大肠杆菌碱性磷酸酶等。

1.1.2       蛋白质序列数据库       为了考虑计量算法的特性, 需要一个用于质谱搜索的蛋白质序列数据库。
用于测试集1 2
3
进行数据库搜索所用的蛋白质序列数据库由Keller博士[14]提供。 该数据库共包含88 374个蛋白质序列,
是由人多肽序列数据库加上上述18个对照蛋白质的序列组成。

1.2   方法

CID谱线文件中读取实验峰、 母离子质量Mp以及母离子电荷Mc,
根据给定的条件PIT(母离子质量容限)MNET(最小末端酶切位点数目), 下面四个步骤将用于对该实验谱进行数据库搜索以鉴定相应的多肽序列(1)

Fig.1       PepSearch flow chart

(A) The experimental spectrum will be
processed by normalization and reduction. (B) Based on the defined conditions
of PIT and MNET, and the experimental parent ion mass, candidate peptide set
will be built from protein sequence database. (C) The candidate peptides
undergo preliminary scoring to give a ranked list of top 1000 best fit
peptides. (D) These 1000 peptides are then subjected to a valid scorer to
generate a final score and ranking of the peptides.

1.2.1       实验谱的标准化和简化实验       谱中每个实验峰的强度除以所有实验峰的平均强度, 以进行实验谱的标准化。
对那些标准强度小于0.01的实验峰, 作为杂峰去除。

1.2.2       建立候选多肽集合       对蛋白质序列数据库中序列实施虚拟酶切, 形成多肽数据库。 对于每一个多肽, 如果其末端酶切位点数目大于或等于MNET, 其离子质量在(Mp-PIT, Mp+PIT)之内, 则作为候选多肽。

1.2.3       预筛选与粗打分    对于候选多肽集合, 先用粗打分来预筛选,
过滤掉那些与实验谱明显不相配的多肽。

(1)理论谱      多肽经碰撞诱导解离(低能)形成碎裂离子(fragment ion), 按断裂键的位置可出现三类N端离子和三类C端离子(2)
因为碎裂过程是由多肽的物化性质和碰撞能量与装备控制的随机过程, 所以存在离子类型的概率分布。 现在可从已知序列的实验谱样本数据估计出此概率分布[15](1)

Fig.2       Fragmentation of peptide and
resulting ions

(A) Peptide fragmentation. Fragments will
only be detected if they carry at least one charge. If this charge is retained
on the N terminal fragment, the ion is classed as either a, b or c. If the
charge is retained on the C terminal, the ion type is either x, y or z. A
subscript indicates the number of residues in the fragment. (B) The structures
of the six singly charged fragment ions.

Table 1   Information about terminal ion types*

Ion-type

Term

Probability

Bonusa

Punishb

noise

0.0514

y

C

0.6895

13.4144

0.327324

b

N

0.6484

12.6148

0.370651

b-H2O

N

0.3859

7.50584

0.64748

y-H2O

C

0.2831

5.50778

0.755745

a

N

0.2329

4.53113

0.808665

y2

C

0.2089

4.0642

0.833966

b-NH3

N

0.1815

3.53113

0.862851

b2

N

0.1500

2.91829

0.896057

y-NH3

C

0.1495

2.90856

0.896584

* The Probability(k) of ion type k
is taken from reference[15], and the probability of b2 ion is an experience
value. a Bonus for present ion type k=Probability(k)/Probability(noise);
b Penalty for missing ion type k=(1-Probability(k))/[1-Probability(noise)].

一价b型离子的质量是断裂键到N端所有氨基酸残基质量之和加上1(质子质量); 一价y型离子的质量是断裂键到C端所有残基质量之和加上19(H2O+H的质量) 类似, 可以求得其他离子质量的理论值。
然后, 除上电荷数, 就得到离子的质荷比。
于是, 构成候选多肽的理论谱(3)可用T=(t1,t2,…,ti,…tT)表示, 其中ti是质荷比, 从小到大排序。 在构建中, 当肽离子电荷为12, 构建一价by系列离子;
当肽离子电荷为3, 构建一价by和二价b2y2系列离子。

Fig.3       Theoretical spectrum of peptide
‘AMPK’

(A)
Theoretical [M+H]+ and [M+2H]2+ spectrum. b1/72.0
means the mass-to-charge of b1 ion is 72.0. (B) Theoretical [M+3H]3+
spectrum.

(2)预筛选的计量分数          当理论谱T=(t1,…,tj,…,tT)和实验谱E=(e1,…,ei,…,eE)中一对碎裂离子(ei,tj)有相同的质荷比标称值(最近的整数),
称为两离子成对。 如果理论谱与实验谱中成对离子的比例低于某一阈值(这里取经验值30%),
则把该候选多肽过滤掉。 对于保留下来的候选多肽按下列粗粒分数FScore来计量TE的相似程度,
在正式细致计分之前把太不相似的候选肽快速过滤掉。

FScore(T,E) = FScore (NET)×FScore (Paired)×FScore (Unpaired)

FScore(NET)表示候选多肽的末端酶切位点数为NET时对上述粗粒分数的贡献。
因为知道高NET值的理论谱高匹配, 根据Keller[18]的统计结果,
这里当NET=0 12, FScore(NET)分别取0.2
2
8

FScore(Paired)表示理论谱与实验谱成对部分对粗粒分数的贡献。 对成对的理论离子tjT, 离子类型kj的出现奖分
若与tj成对的实验离子的强度为, 则成对离子(ei,tj)对粗粒分数的贡献为: