基于关系相似性的蛋白质交互自动识别

Abstract

Abstract: Current protein-protein interaction (PPI) identification systems use single sentences as evidence,and often suffer from the heavy burden of manual annotation．To address these problems,a new relational similarity-based approach using large-scale text as evidence was proposed．First,description of PPIs is obtained by automatic searching of the whole PubMed database．Then,three types of features including lexical features,phrases,and dependency relations are extracted to build the vector space model of PPI．Finally,similarity between vectors is measured to classify the relationship between two proteins．In this method,training data is taken from existing PPI databases and no extra annotation work is needed．Results of the experiment show that this approach achieves high F-score (74．2%)．

Key words: Protein-protein interaction,Relational similarity,Syntactic analysis,Vector space model

FENG Er-ying,NIU Yun,WEI Ou and CAI Xin-ye. Protein-protein Interaction Identification Based on Relational Similarity[J].Computer Science, 2013, 40(6): 229-232.

References

[2] 。将其中被包含在PubMed的1篇以上摘要里的蛋白质对作为有交互关系的集合。这样的蛋白质对是1417对。实验中根据生物信息领域常用的方法,对HPRD中的蛋白质进行随机组合来产生无交互关系的蛋白质对,并确保随机组合产生的蛋白质对没有出现在HPRD的PPI集合中。这样产生的蛋白质对有67714对。其中1397对在PubMed中至少有一个句子同时包含组成该对的两个蛋白质。综上所述,实验的数据集包含有交互关系的蛋白质对1417对,无交互关系的蛋白质对1397对。 3．2 实验设计 实验中对数据集中的每个蛋白质对都生成了一个基于其签名档的向量,并采用留一交叉验证法(leave-one-out cross-validation)进行测试:把数据集中的一个蛋白质对作为测试数据而将其他2813对作为训练数据,如此循环2814次,从而使得每个蛋白质对都被测试一次。在进行相似性计算时,采用和Turney[14]以及Nakov[15]相同的方法,即最近邻分类(one-nearest neighbour)将与测试数据最相似的那一对训练数据中的蛋白质的标签(即是否存在交互关系)指定给测试数据。实验结果采用精确度(Precision)P=TP/(TP+FP)、召回率(recall)R=TP/(TP+FN)、F-Score(F-Score=2P×R/(P+R)) 3个指标进行评价。 表1显示了有交互关系的蛋白质对的判断结果,表2显示了无交互关系的蛋白质对的判断结果。表1 有交互关系的蛋白质对的相似性计算结果(%) 精确度召回率F-Score 单词特征 (1)72．974．673．8 (1)+短语结构特征 (2)72．875．674．2 (2)+依赖关系特征72．775．474．1表2 无交互关系的蛋白质对的相似性计算结果(%) 精确度召回率F-Score 单词特征 (1)75．974．275．0 (1)+短语结构特征 (2)73．971．072．4 (2)+依赖关系特征73．771．072．3 可以看出,无论对于有交互关系或无交互关系的蛋白质对,基于关系相似性的PPI识别方法都取得了较高的F-Sore。并且,识别的精确度和召回率都稳定在较高的值。说明PPI的文本描述存在着共性,而从大规模文本中提取的单词和句法层次上的特征能有效表示这些共性,从而建立起好的相似性计算模型对关系作出正确的判断。在增加了短语结构特征和依赖关系特征后,对于有交互关系的蛋白质对而言精确度几乎没有影响,而召回率略有提高。对于无交互关系的蛋白质对,精确度和召回率都有所下降。这大概是高维稀疏向量由于维数的增加而对相似性计算产生了一些干扰而造成的。 由于支持向量机模型(SVM)被广泛用于目前基于机器学习算法的PPI识别系统中且取得了很好的效果,因此本文也建立了SVM分类器(SVM-light[20])来对基于大规模文本的蛋白质交互关系向量进行分类。实验采用了5折交叉验证法。将数据平分成5等份,在每一次实验中选择其中的一份作为测试集,其余的4份作为训练集。最后求5次的平均值作为最终实验的结果值。表3所列为SVM对有交互关系的蛋白质对的分类结果。表3 SVM分类结果(%) 精确度召回率F-Score 单词特征 (1)81．954．265．2 (1)+短语结构特征 (2)84．853．465．6 (2)+依赖关系特征86．853．065．8 SVM分类器取得了很高的精确度,进一步说明所用特征的有效性。在单词特征的基础上增加短语结构和依赖关系特征后,精确度都有所提高。采用全部3种特征达到了最高的精确度86．8%。这表明SVM能够较好地处理高维并且可能不相互独立的特征。然而,与相似性算法相比,召回率下降比较明显,因而导致最终的F-Score降低了约9个百分点。总的说来,以大规模文本为依据、以相似性计算为方法的关系相似性模型在精确度和召回率上均取得了较好的效果,因此得到了最高的F-Score(74．2%)。 结束语本文从实际构建PPI网络的需求出发,以全新角度对蛋白质交互关系识别展开研究。直接以目标蛋白质对为研究对象,以大规模文本为依据提取特征建立关系相似性计算模型。实验中使用已有PPI网络中的真实数据,结果表明基于关系相似性的PPI自动识别取得了较高的精确度、召回率和F-Score。与目前的PPI自动识别系统相比,本文中方法能更直接地用于PPI网络构建,能够充分利用已有的PPI网络数据而不需任何额外的人工标注,并且有助于弥补以单句为线索来判断交互关系的不足。在今后的工作中,准备采取积极的降维策略,以减少高维空间对相似性计算产生的干扰,进一步提高识别的精度。 (下转第251页)(上接第232页) Bader G D,et al．BIND-the biomolecular interaction network da-tabase[J]．Nucleic Acids Res．,2003,31(1):242-245[2]Peri S,et al．Development of human protein reference database as an initial platform for approaching systems biology in humans[J]．Genome Res．,2003,13:2363-2371
[3] U．S．National Library of Medicine．PubMed．http://www．ncbi．nlm．nih．gov/pubmed/
[4] Ono T,Hishigaki H,et al．Automatic extraction of information on protein-protein interactions from the biological literature[J]． Bioinfornatics,2001,7(2):155-161
[5] Huang M L,Zhu X Y,Hao Y,et al．Discovering patterns to extract protein-protein interactions form full text[J]．Bioinforma-tics,2004,0(18):3604-3612
[6] Fundel K,et al． RelEx_Relation extraction using dependency parse trees[J]．Bioinformatics,2007,3(3):365-371
[7] Temkin J M,Gllder M R．Extraction of protein interaction information from unstructured text using a context-tree grammar[J]．Bioinformatics,2003,9(16):2046-2053
[8] Bunescu R C,Mooney R J．Subsequence kernels for relation extraction[C]∥Proceedings of the 19^th Aunual Conference on Neual Information Processing Systems．Cambridge．MA,USA:MIT Press,2005:171-178
[9] Niu Y,et al．Evaluation of linguistic features useful in extractionof interactions from PubMed；Application to annotating known,high-throughput and predicted interactions in I²D[J]．Bioinformatics,2010,6(1):111-119
[10] 唐楠,杨志豪,等．基于多核学习的医学文献蛋白质关系抽取[J]．计算机工程,2011,7(10):184-186
[11] Medin D L,Robert L G,Gentner D．Similarity involving attributes and relations:Judgments of similarity and difference are not inverses[J]．Psychological Science,1990,1(1):64-69
[12] Toch E,Reinhartz I,Berger I,et al．Humans, semantic services and similarity:A user study of semantic Web services matching and composition[J]．Journal of Web Semantics:Science,Services and Agents on theWorldWideWeb,2011,9:16-28
[13] Bos J．A survey of Computational Semantics:Representation,Inference and Knowledge in Wide-Coverage Text Understanding[J]．Language and Linguistics Compass,2011,5(6):336-366
[14] 以及Nakov
[15] 相同的方法,即最近邻分类(one-nearest neighbour)将与测试数据最相似的那一对训练数据中的蛋白质的标签(即是否存在交互关系)指定给测试数据。实验结果采用精确度(Precision)P=TP/(TP+FP)、召回率(recall)R=TP/(TP+FN)、F-Score(F-Score=2P×R/(P+R)) 3个指标进行评价。 表1显示了有交互关系的蛋白质对的判断结果,表2显示了无交互关系的蛋白质对的判断结果。表1 有交互关系的蛋白质对的相似性计算结果(%) 精确度召回率F-Score 单词特征 (1)72．974．673．8 (1)+短语结构特征 (2)72．875．674．2 (2)+依赖关系特征72．775．474．1表2 无交互关系的蛋白质对的相似性计算结果(%) 精确度召回率F-Score 单词特征 (1)75．974．275．0 (1)+短语结构特征 (2)73．971．072．4 (2)+依赖关系特征73．771．072．3 可以看出,无论对于有交互关系或无交互关系的蛋白质对,基于关系相似性的PPI识别方法都取得了较高的F-Sore。并且,识别的精确度和召回率都稳定在较高的值。说明PPI的文本描述存在着共性,而从大规模文本中提取的单词和句法层次上的特征能有效表示这些共性,从而建立起好的相似性计算模型对关系作出正确的判断。在增加了短语结构特征和依赖关系特征后,对于有交互关系的蛋白质对而言精确度几乎没有影响,而召回率略有提高。对于无交互关系的蛋白质对,精确度和召回率都有所下降。这大概是高维稀疏向量由于维数的增加而对相似性计算产生了一些干扰而造成的。 由于支持向量机模型(SVM)被广泛用于目前基于机器学习算法的PPI识别系统中且取得了很好的效果,因此本文也建立了SVM分类器(SVM-light[20])来对基于大规模文本的蛋白质交互关系向量进行分类。实验采用了5折交叉验证法。将数据平分成5等份,在每一次实验中选择其中的一份作为测试集,其余的4份作为训练集。最后求5次的平均值作为最终实验的结果值。表3所列为SVM对有交互关系的蛋白质对的分类结果。表3 SVM分类结果(%) 精确度召回率F-Score 单词特征 (1)81．954．265．2 (1)+短语结构特征 (2)84．853．465．6 (2)+依赖关系特征86．853．065．8 SVM分类器取得了很高的精确度,进一步说明所用特征的有效性。在单词特征的基础上增加短语结构和依赖关系特征后,精确度都有所提高。采用全部3种特征达到了最高的精确度86．8%。这表明SVM能够较好地处理高维并且可能不相互独立的特征。然而,与相似性算法相比,召回率下降比较明显,因而导致最终的F-Score降低了约9个百分点。总的说来,以大规模文本为依据、以相似性计算为方法的关系相似性模型在精确度和召回率上均取得了较好的效果,因此得到了最高的F-Score(74．2%)。 结束语本文从实际构建PPI网络的需求出发,以全新角度对蛋白质交互关系识别展开研究。直接以目标蛋白质对为研究对象,以大规模文本为依据提取特征建立关系相似性计算模型。实验中使用已有PPI网络中的真实数据,结果表明基于关系相似性的PPI自动识别取得了较高的精确度、召回率和F-Score。与目前的PPI自动识别系统相比,本文中方法能更直接地用于PPI网络构建,能够充分利用已有的PPI网络数据而不需任何额外的人工标注,并且有助于弥补以单句为线索来判断交互关系的不足。在今后的工作中,准备采取积极的降维策略,以减少高维空间对相似性计算产生的干扰,进一步提高识别的精度。 (下转第251页)(上接第232页) Bader G D,et al．BIND-the biomolecular interaction network da-tabase[J]．Nucleic Acids Res．,2003,31(1):242-245[2]Peri S,et al．Development of human protein reference database as an initial platform for approaching systems biology in humans[J]．Genome Res．,2003,13:2363-2371[3]U．S．National Library of Medicine．PubMed．http://www．ncbi．nlm．nih．gov/pubmed/[4]Ono T,Hishigaki H,et al．Automatic extraction of information on protein-protein interactions from the biological literature[J]． Bioinfornatics,2001,7(2):155-161[5]Huang M L,Zhu X Y,Hao Y,et al．Discovering patterns to extract protein-protein interactions form full text[J]．Bioinforma-tics,2004,0(18):3604-3612[6]Fundel K,et al． RelEx_Relation extraction using dependency parse trees[J]．Bioinformatics,2007,3(3):365-371[7]Temkin J M,Gllder M R．Extraction of protein interaction information from unstructured text using a context-tree grammar[J]．Bioinformatics,2003,9(16):2046-2053[8]Bunescu R C,Mooney R J．Subsequence kernels for relation extraction[C]∥Proceedings of the 19^th Aunual Conference on Neual Information Processing Systems．Cambridge．MA,USA:MIT Press,2005:171-178[9]Niu Y,et al．Evaluation of linguistic features useful in extractionof interactions from PubMed；Application to annotating known,high-throughput and predicted interactions in I²D[J]．Bioinformatics,2010,6(1):111-119[10]唐楠,杨志豪,等．基于多核学习的医学文献蛋白质关系抽取[J]．计算机工程,2011,7(10):184-186[11]Medin D L,Robert L G,Gentner D．Similarity involving attributes and relations:Judgments of similarity and difference are not inverses[J]．Psychological Science,1990,1(1):64-69[12]Toch E,Reinhartz I,Berger I,et al．Humans, semantic services and similarity:A user study of semantic Web services matching and composition[J]．Journal of Web Semantics:Science,Services and Agents on theWorldWideWeb,2011,9:16-28[13]Bos J．A survey of Computational Semantics:Representation,Inference and Knowledge in Wide-Coverage Text Understanding[J]．Language and Linguistics Compass,2011,5(6):336-366[14]Turney P D．Similarity of semantic relations[J]．Computational Linguistics,2006,2(3):379-416[15]Nakov P,Hearst M A．Solving relational similarity problems using the web as a corpus[C]∥Proceedings of ACL-08:HLT．Columbus,Ohio,USA:Association for Computational Linguistics,2008:452-460
[16] 。实验中通过脚本语言编写的应用程序对目标蛋白质对集合中的所有蛋白质对实现了自动搜索,获得了相应的摘要文本。这样,目标蛋白质对有由若干摘要组成的文本集合与之对应。 2)搜索包含目标蛋白质对的句子 接下来是对摘要文本集合进行处理,找出其中包含目标蛋白质对的句子。这个过程如下: ①对摘要文本集合进行句子识别。这里使用的是伊利诺州大学urbana-champaign分校认知计算研究组开发的句子识别工具
[17] 。 ②在第①步得到的句子集合中搜索所有包含目标蛋白质对的句子,这些句子描述了两个目标蛋白质之间的关系。本步结束时,目标蛋白质对有由若干句子组成的集合与之对应,形成它的签名档。 建立蛋白质对的签名档后,即可利用其中的上下文信息对目标蛋白质对之间的关系进行判断。 2．4 建立蛋白质对的向量空间模型 每个目标蛋白质对的签名档包含了较完整的关系的描述。与之前工作以单句为依据不同,本步将从整个签名档中提取重要线索建立目标对的向量空间模型。向量的每一维对应于从签名档中提取的一个特征。关系相似性研究的实践表明词法结构和句法结构是刻画关系的重要组成部分。本文分别从这两个层次上对蛋白质的签名档进行了分析,并提取其中的重要线索作为识别PPI的依据。 ·单词特征。抽取至少出现在25个签名档中的单词作为最终的特征词,共6592个特征。其特征值取0(该词未出现在签名档中)或1(该词出现在签名档中)。 ·短语结构特征。这里需要对签名档中的句子进行浅层句法分析。所使用的是Apache OpenNLP的句法分析工具
[18] 。该工具依照句法相关关系进行句子分块划分,分成名词短语、动词短语等块结构,如图3所示。 图3 Apache OpenNLP短语结构分析输出结果示例  在句法分析结果的基础上,找出包含目标蛋白质名字的短语,然后抽取该短语前后各相邻的两个短语的中心词作为特征。如果在该短语位置的前后出现的是标点符号则不抽取特征。例如在上例中,对于目标蛋白质对的两个成分egfr和smurf2抽取的特征是:Regulation、of、by、smurf2、Stability、by,如图4所示。选取至少出现在25个签名档中的这样的中心词作为最终的特征词,共770个特征,其特征值取0或1。 图4 短语结构特征提取示例  ·依赖关系特征。对签名档中句子的成分进行依赖关系分析,这里使用的分析工具是Stanford Parser
[19] 。该工具分析句子的语法结构,指出哪些词之间存在依赖关系,以及依赖关系的类型(主语、谓语等),如图5所示。 图5 Stanford Parser 依赖关系分析输出结果示例  图中,prep_of(Regulation-1,Stability-5) 代表Regulation和Stability之间存在由of连接的介词关系。分两种情况抽取依赖关系特征。 图6 依赖关系特征提取示例 1．抽取与目标蛋白质具有直接的nsubj或dobj或prep-*(*代表任一介词)关系的词作为特征。 2．抽取与目标蛋白质具有间接的nsubj或dobj或prep-*关系的词作为特征。首先找出与目标蛋白质具有nn关系的名词,不妨设该名词为A,然后找出与A有nn关系的名词B,如果没有词与B具有直接nsubj或dobj或prep-*关系,则继续寻找与B有nn关系的词,继续这样寻找下去,直到找到一个单词,该单词与单词C之间存在直接的nsubj或dobj或prep-*关系,此时抽取该单词作为特征。两种情况下抽取特征过程如图6所示。选取至少出现在25个签名档中这样的词作为最终的特征词,共926个特征,其特征值取0或1。 2．5 相似性计算 本步通过比较蛋白质对向量之间的相似性来对目标蛋白质对是否存在交互关系作出判断。这里根据两个向量的余弦值来衡量它们的相似性,如下所示。余弦值越大,两个向量的夹角越小,相似度就越高。相反,余弦值越小,两个向量的相似度就越低。 ₁=〈r_1,1,…,r_1,n〉,₂=〈r_2,1,…,r_2,n〉 cosine(θ)=∑ni=1r_1,i·r_2,i∑ni=1(r_1,i)²·∑ni=1(r_2,i)² =₁·₂₁·₁·₂·₂=₁·₂‖₁‖·‖₂‖ 3 实验设计及结果分析 3．1 实验数据 在现有工作中,PPI识别的目标是出现在同一个句子中的任意一对蛋白质。与此不同,本文从实际构建PPI网络的需求出发,直接以目标蛋白质对为研究对象。实验中所用数据全部来自于真实的PPI网络,全部训练数据可直接从已有PPI数据库得到而不需进行任何额外的人工标注。其中,有交互关系的蛋白质对来源于专家人工收集的目前最大的人类PPI数据库HPRD[2]。将其中被包含在PubMed的1篇以上摘要里的蛋白质对作为有交互关系的集合。这样的蛋白质对是1417对。实验中根据生物信息领域常用的方法,对HPRD中的蛋白质进行随机组合来产生无交互关系的蛋白质对,并确保随机组合产生的蛋白质对没有出现在HPRD的PPI集合中。这样产生的蛋白质对有67714对。其中1397对在PubMed中至少有一个句子同时包含组成该对的两个蛋白质。综上所述,实验的数据集包含有交互关系的蛋白质对1417对,无交互关系的蛋白质对1397对。 3．2 实验设计 实验中对数据集中的每个蛋白质对都生成了一个基于其签名档的向量,并采用留一交叉验证法(leave-one-out cross-validation)进行测试:把数据集中的一个蛋白质对作为测试数据而将其他2813对作为训练数据,如此循环2814次,从而使得每个蛋白质对都被测试一次。在进行相似性计算时,采用和Turney[14]以及Nakov[15]相同的方法,即最近邻分类(one-nearest neighbour)将与测试数据最相似的那一对训练数据中的蛋白质的标签(即是否存在交互关系)指定给测试数据。实验结果采用精确度(Precision)P=TP/(TP+FP)、召回率(recall)R=TP/(TP+FN)、F-Score(F-Score=2P×R/(P+R)) 3个指标进行评价。 表1显示了有交互关系的蛋白质对的判断结果,表2显示了无交互关系的蛋白质对的判断结果。表1 有交互关系的蛋白质对的相似性计算结果(%) 精确度召回率F-Score 单词特征 (1)72．974．673．8 (1)+短语结构特征 (2)72．875．674．2 (2)+依赖关系特征72．775．474．1表2 无交互关系的蛋白质对的相似性计算结果(%) 精确度召回率F-Score 单词特征 (1)75．974．275．0 (1)+短语结构特征 (2)73．971．072．4 (2)+依赖关系特征73．771．072．3 可以看出,无论对于有交互关系或无交互关系的蛋白质对,基于关系相似性的PPI识别方法都取得了较高的F-Sore。并且,识别的精确度和召回率都稳定在较高的值。说明PPI的文本描述存在着共性,而从大规模文本中提取的单词和句法层次上的特征能有效表示这些共性,从而建立起好的相似性计算模型对关系作出正确的判断。在增加了短语结构特征和依赖关系特征后,对于有交互关系的蛋白质对而言精确度几乎没有影响,而召回率略有提高。对于无交互关系的蛋白质对,精确度和召回率都有所下降。这大概是高维稀疏向量由于维数的增加而对相似性计算产生了一些干扰而造成的。 由于支持向量机模型(SVM)被广泛用于目前基于机器学习算法的PPI识别系统中且取得了很好的效果,因此本文也建立了SVM分类器(SVM-light

Metrics

Viewed

Full text

Abstract

Cited

Shared

Discussed

Comments

Recommended 0

No Suggested Reading articles found!

Protein-protein Interaction Identification Based on Relational Similarity

PDF (PC)

Abstract

Cite this article

share this article

References

Related Articles 0

Metrics

Comments

Recommended 0