生物信息学

Select

1. 基于深度学习的口服生物利用度分类研究

史新宇,禹龙,田生伟,叶飞跃,钱进,高双印

计算机科学 2016, 43 (4): 260-263. DOI: 10.11896/j.issn.1002-137X.2016.04.053

摘要（473）

PDF（pc）（310KB）（1066）

针对采用传统方法测量口服生物利用度(OB)代价昂贵、花费周期长,而现有的一些机器学习方法对其预测精度较低的问题,提出了一种基于栈式自编码(SAE)神经网络的口服生物利用度分类方法,利用经筛选过的分子特征结合栈式自编码模型对生物利用度进行分类。实验表明,与浅层机器学习模型支持向量机(SVM)以及人工神经网络(ANN)相比,深度网络对化合物分子的特征有更本质的学习,采用经筛选过的2D和3D分子特征组合对人体口服生物利用度的分类效果较好,其平均预测精度为83%,灵敏度(SE)为94%,特异性(SP)为49%。

参考文献 | 相关文章 | 多维度评价

Select

2. SBV:基于SVG的生物信息可视化软件

蔡瑞初,林殷娴,艾鹏

计算机科学 2017, 44 (10): 33-37. DOI: 10.11896/j.issn.1002-137X.2017.10.006

摘要（549）

PDF（pc）（1550KB）（1422）

生物信息可视化是从生物大数据中挖掘有效信息的重要手段。针对生物信息的海量性、可视化效果的精确性、各种可视化需求的多样性等挑战,设计并实现了一款基于SVG矢量图的生物信息可视化软件SBV (SVG for Bioinformatics Visualization)。SBV充分利用了SVG的可伸缩性、DOM和CSS表现形式的可定制性,实现了10余种常用的生物信息用图,可支持现有的大部分生物信息可视化,是一款易于操作的综合型生物信息画图软件。目前该软件已经在Github上开源,为后续开发更多功能奠定了较好的基础。

参考文献 | 相关文章 | 多维度评价

Select

3. BioPW+:基于Linked Data的生物途径数据可视化系统

刘源, 王鑫, 甘瀛, 杨朝洲, 李维熙

计算机科学 2019, 46 (2): 18-23. DOI: 10.11896/j.issn.1002-137X.2019.02.003

摘要（535）

PDF（pc）（2035KB）（842）

自Linked Data项目被提出以来,大量的开放关联数据被发布到语义Web上,这其中就包含了许多的生物途径数据集。为了使生物学家能够有效地利用这些开放的数据集,对基于Linked Data的生物途径数据可视化系统进行研究,提出了生物途径可视化模型和展示布局方案,并且采用标识符动态映射实现了多源生物途径数据的浏览,最终开发了基于Linked Data的生物途径数据查询可视化系统——BioPW+。该系统应用语义Web技术,依靠SPARQL查询来定位生物途径的基本信息,然后基于Open PHACTS平台获取生物途径元素的详细信息,最终Web界面采用力导向图布局、Sankey图布局对生物途径数据进行展示并提供多种交互操作。与已有的仅仅基于某一特定数据库的生物途径工具相比,BioPW+系统基于Linked Data,可以同时一次性展示多个数据集中的生物途径数据及与其相关的其他生物化学数据,极大节省了时间并增强了数据的完整性。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于改进的PSO算法的关键蛋白质识别方法研究

洪海燕,刘维

计算机科学 2017, 44 (10): 38-44. DOI: 10.11896/j.issn.1002-137X.2017.10.007

摘要（320）

PDF（pc）（1370KB）（599）

关键蛋白质是生物体内维持所有生命活动最重要的物质基础。随着高通量技术的发展,如何从蛋白质相互作用网络中识别出关键蛋白质成为目前蛋白质组学的研究热点。针对大部分现有方法仅仅基于网络拓扑结构信息进行识别以及蛋白质相互作用数据假阳性高的问题,提出了改进的粒子群算法来识别关键蛋白质。通过综合考虑网络拓扑结构特性和多源生物属性信息构建了高质量的加权网络,还考虑使用蛋白质节点间联系的紧密程度来衡量蛋白质的关键性,并扩展局部网络拓扑至二阶邻居,大大提高了预测的准确率。提出了衡量top-p关键蛋白质的整体性指标,降低了计算复杂度。在标准数据集上的实验结果表明,与其他经典算法相比,所提算法更具优势,能够识别出更多的蛋白质,具有较高的准确率。

参考文献 | 相关文章 | 多维度评价

Select

5. 基于双加权投票的蛋白质功能预测

唐家琪, 吴璟莉, 廖元秀, 王金艳

计算机科学 2019, 46 (4): 222-227. DOI: 10.11896/j.issn.1002-137X.2019.04.035

摘要（432）

PDF（pc）（1301KB）（777）

蛋白质是完成重要生物活动所必需的分子。准确掌握蛋白质功能,将对生命科学研究及应用起到极大的促进作用。高通量技术的发展产生了海量的蛋白质序列,利用计算技术预测大规模蛋白质功能已成为当今生物信息学的核心任务之一。目前,作为蛋白质功能预测的研究热点,基于蛋白质相互作用网络的预测方法在降低数据噪声影响、充分利用网络拓扑特性及整合多源数据等方面仍不够完善。文中结合带阻力随机游走得到的全局拓扑相似度,及功能术语的语义相似度,设计了一种双加权投票蛋白质功能预测算法BiWV;并在此基础上整合了生物通路信息,提出了带生物通路的双加权投票算法——BiWV-P。在酿酒酵母和人类数据集上,对所提算法与TMC,UBiRW和ProHG 3种算法的预测效果进行对比分析。实验结果显示,算法BiWV和BiWV-P能够有效预测蛋白质功能,并在许多数据集上获得较其他算法更高的微正确率与微F1。

参考文献 | 相关文章 | 多维度评价

Select

6. 一种基于同配性的重叠蛋白质复合体检测算法

王杰, 梁吉业, 赵兴旺, 郑文萍

计算机科学 2019, 46 (2): 294-300. DOI: 10.11896/j.issn.1002-137X.2019.02.045

摘要（360）

PDF（pc）（1440KB）（663）

蛋白质复合体在生物过程中具有重要的作用,从蛋白质互作用网络中进行蛋白质复合体检测是后基因时代的一项具有挑战性的任务。种子扩展方法是一种从蛋白质互作用网络中进行重叠蛋白质复合体检测的有效技术。然而,现有方法面临两方面的问题:1)在选择种子结点时通常仅仅考虑了网络中结点的直接邻居之间的连接紧密度,难以充分体现结点在局部邻域子图内的重要性;2)在簇的扩展过程中假设候选结点之间是相互独立的,忽略了候选结点的添加顺序可能对聚类结果带来的影响。为了解决以上问题,文中基于生物网络同配性提出了一种重叠蛋白质复合体检测算法。该算法利用结点的二阶邻域信息来度量结点的重要性,进而选择种子结点,在簇扩展过程中利用同配性实现多个候选结点的批量添加。为了对重叠聚类结果进行评价,提出了一种重叠复合体评价指标F-overlap。与其他复合体检测算法在蛋白质互作用数据集上的对比实验结果表明,所提算法能够有效地进行重叠蛋白质复合体检测。

参考文献 | 相关文章 | 多维度评价