栏目文章

Select

1. 一种处理部分标记数据的粗糙集属性约简算法

张维,苗夺谦,高灿,李峰

计算机科学 2017, 44 (1): 25-31. DOI: 10.11896/j.issn.1002-137X.2017.01.005

摘要（475）

PDF（pc）（584KB）（613）

属性约简是粗糙集理论中重要的研究内容之一,是数据挖掘中知识获取的关键步骤。Pawlak粗糙集约简的对象一般是有标记的决策表或者是无标记的信息表。而在很多现实问题中有标记数据很有限,更多的是无标记数据,即半监督数据。为此,结合半监督协同学习理论,提出了处理半监督数据的属性约简算法。该算法首先在有标记数据上构造两个差异性较大的约简来构造基分类器；然后在无标记数据上交互协同学习,扩大有标记数据集,获得质量更好的约简,构造性能更好的分类器,该过程迭代进行,从而实现利用无标记数据提高有标记数据的约简质量,最终获得质量较好的属性约简。UCI数据集上的实验分析表明,该算法是有效且可行的。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于高斯-柯西混合模型的单幅散焦图像深度恢复方法

薛松,王文剑

计算机科学 2017, 44 (1): 32-36. DOI: 10.11896/j.issn.1002-137X.2017.01.006

摘要（590）

PDF（pc）（1892KB）（911）

单幅图像场景深度的获取一直是计算机视觉领域的一个难题。使用高斯分布函数或柯西分布函数近似点扩散函数模型(PSF),再根据图像边缘处散焦模糊量的大小与场景深度之间的关系估算出深度信息,是一种常用的方法。真实世界中图像模糊的缘由千变万化,高斯分布函数以及柯西分布函数并不一定是最佳的近似模型,并且传统的方法对于图像存在阴影、边缘不明显以及深度变化比较细微的区域的深度恢复结果不够准确。为了提取更为精确的深度信息,提出一种利用高斯-柯西混合模型近似PSF的方法；然后对散焦图像进行再模糊处理,得到两幅散焦程度不同的图像；再通过计算两幅散焦图像边缘处梯度的比值估算出图像边缘处的散焦模糊量,从而得到稀疏深度图；最后使用深度扩展法得到场景的全景深度图。通过大量真实图像的测试,说明新方法能够从单幅散焦图像中恢复出完整、可靠的深度信息,并且其结果优于目前常用的两种方法。

参考文献 | 相关文章 | 多维度评价

Select

3. 在线序列主动学习方法

翟俊海,臧立光,张素芳

计算机科学 2017, 44 (1): 37-41. DOI: 10.11896/j.issn.1002-137X.2017.01.007

摘要（594）

PDF（pc）（482KB）（857）

现实世界中存在着大量无类标的数据,如各种医疗图像数据、网页数据等。在大数据时代,这种情况更加突出。标注这些无类标的数据需要付出巨大的代价。主动学习是解决这一问题的有效手段,也是近几年机器学习和数据挖掘领域中的一个研究热点。提出了一种基于在线序列极限学习机的主动学习算法,该算法利用在线序列极限学习机增量学习的特点,可显著提高学习系统的效率。另外,该算法用样例熵作为启发式度量无类标样例的重要性,用K-近邻分类器作为Oracle标注选出的无类标样例的类别。实验结果显示,提出的算法具有学习速度快、标注准确的特点。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于Word2Vec的情感词典自动构建与优化

杨小平,张中夏,王良,张永俊,马奇凤,吴佳楠,张悦

计算机科学 2017, 44 (1): 42-47. DOI: 10.11896/j.issn.1002-137X.2017.01.008

摘要（750）

PDF（pc）（612KB）（1001）

情感词典的构建是文本挖掘领域中重要的基础性工作。近几年,情感词典的极性标注从二元褒贬标注向多元情绪标注发展,词典的领域特性也日趋明显。但是情感类别的手工标注不但费时费力,而且情感强度难以得到准确量化,同时对领域性的过分关注也大大限制了情感词典的适用性[1]。通过神经网络语言模型对大规模中文语料进行统计训练,并在此基础上提出了基于转换约束集的多维情感词典自动构建方法；然后研究了基于词分布密度的感情色彩消歧方法,对兼具褒贬意味词语的感情极性进行区分和识别,并分别计算两种感情色彩下的情感类别与强度；最后提出基于多个语义资源的全局优化方案,得到包含10种情绪标注的多维汉语情感词典SentiRuc。实验证实该词典¹⁾在类别标注检验、强度标注检验、情感消歧效果及情感分类任务中均具有良好的效果,其中的情感强度检验证实该词典具有极强的情感语义描述力。

参考文献 | 相关文章 | 多维度评价

Select

5. 基于分层筛选和动态更新的并行选择集成算法

吴梅红,郭佳盛,鞠颖,林子雨,邹权

计算机科学 2017, 44 (1): 48-52. DOI: 10.11896/j.issn.1002-137X.2017.01.009

摘要（653）

PDF（pc）（1127KB）（758）

提出一种选择性集成学习算法,该算法利用多线程并行优化基分类器的参数,通过多层筛选和动态更新筛选信息获取最优的候选基分类器集合,解决了以往在集成学习中选择分类器效率低下的问题。集成分类器采用分解合并的策略进行加权投票,通过使用二分法将大数据集的投票任务递归分解成多个子任务,并行运行子任务后合并投票结果以缩短集成分类器的投票运行时间。实验结果表明, 相对于传统方法, 所提出的算法在平均精度、F1-Measure以及AUC指标上都有着显著提升。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于中介Agent的强化学习优化协商模型

张京敏,董红斌

计算机科学 2017, 44 (1): 53-59. DOI: 10.11896/j.issn.1002-137X.2017.01.010

摘要（276）

PDF（pc）（597KB）（704）

提出了一种基于强化学习的双边优化协商模型。引入了一个中介Agent。在强化学习策略中使用不同的参数产生提议,进而选出最好的参数进行协商。为了进一步提高协商的性能,还提出了基于中介Agent自适应的学习能力。仿真实验结果证明了所提协商方法的有效性,且该方法提高了协商的性能。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于卷积神经网络的自适应权重multi-gram语句建模系统

张春云,秦鹏达,尹义龙

计算机科学 2017, 44 (1): 60-64. DOI: 10.11896/j.issn.1002-137X.2017.01.011

摘要（327）

PDF（pc）（1299KB）（827）

如今信息量呈爆炸式增长,自然语言处理得到了越来越广泛的重视。传统的自然语言处理系统过多地依赖昂贵的人工标注特征和语言分析工具的语法信息,导致预处理中语法信息的错误传递到系统训练和预测过程中。因此,深度学习的应用受到了学者们的关注。因为它能实现端对端预测并尽可能少地依赖外部信息。自然语言处理领域流行的深度学习框架为了更好地获取句子信息,采用multi-gram策略。但不同任务和不同数据集的信息分布状况不尽相同,而且这种策略并没有考虑到不同n-gram的重要性分布。针对该问题,提出了一种基于深度学习的自适应学习multi-gram权重的策略,从而根据各n-gram特征的贡献为其分配相应的权重；并且还提出了一种新的multi-gram特征向量结合方法,大大降低了系统复杂度。将该模型应用到电影评论正负倾向判断和关系分类两种分类任务中,实验结果证明采用的自适应multi-gram权重策略能够大大改善模型的分类效果。

参考文献 | 相关文章 | 多维度评价

Select

8. 一种改进的多视图聚类集成算法

邓强,杨燕,王浩

计算机科学 2017, 44 (1): 65-70. DOI: 10.11896/j.issn.1002-137X.2017.01.012

摘要（352）

PDF（pc）（457KB）（1157）

近年来,针对大数据的数据挖掘技术和机器学习算法研究变得日趋重要。在聚类领域,随着多视图数据的大量出现,多视图聚类已经成为了一类重要的聚类方法。然而,大多数现有的多视图聚类算法受算法参数设置、数据样本等影响,具有聚类结果不稳定、参数需要反复调节等缺点。基于多视图K-means算法和聚类集成技术,提出了一种改进的多视图聚类集成算法,其提高了聚类的准确性、鲁棒性和稳定性。其次,由于单机环境下的多视图聚类算法难以对海量的数据进行处理,结合分布式处理技术,实现了一种分布式的多视图并行聚类算法。实验证明,并行算法在处理大数据时的时间效率有很大提升,适合于大数据环境下的多视图聚类分析。

参考文献 | 相关文章 | 多维度评价

Select

9. 一种基于用户距离改进的线性影响力传播模型

蔡国永,裴广战

计算机科学 2017, 44 (1): 71-74. DOI: 10.11896/j.issn.1002-137X.2017.01.013

摘要（465）

PDF（pc）（296KB）（599）

根据在线社交网络中用户的历史行为进行信息传播的预测是当前研究的热点之一,然而传统的传播模型仅解释了信息在社交网络中的传播规律,不具备信息传播预测能力。Jaewan Yang和Jwe Leskovec根据未激活的用户会受到激活用户的影响,提出了线性影响力模型LIM(Linear Influence Model),但是LIM模型在信息传播的过程中只考虑了时间因素,忽略了信息在传播过程中的空间因素,即用户间的相互关系。首先引入社交网络中用户间距离的度量,并结合距离的度量对LIM模型进行了改进,提出了基于距离正则化的LIM模型,即d-LIM模型。真实数据集上的对比实验表明,d-LIM模型能获得更准确的预测结果。

参考文献 | 相关文章 | 多维度评价

Select

10. 基于枚举策略的三倍体个体单体型重建算法

张倩,吴璟莉

计算机科学 2017, 44 (1): 75-79. DOI: 10.11896/j.issn.1002-137X.2017.01.014

摘要（246）

PDF（pc）（486KB）（551）

求解三倍体个体单体型对于探索三倍体物种的遗传特性和表型差异等方面的研究具有重要的推动作用。针对带基因型信息的最少错误更正(MEC/GI)模型,提出了一种基于枚举策略的三倍体个体单体型重建算法EHTR。该算法依次重建3条单体型上的每一个单核苷酸多态性位点取值,对于给定位点,首先根据其基因型取值枚举该位点的3种单体型取值情况,然后选择片段支持度最高的取值作为该位点的重建值,算法的总时间复杂度为O(mn+mlogm+cnl)。采用CELSIM和MetaSim两种测序片段模拟生成器生成实验测试数据,在片段覆盖率、错误率、单片段长度、单体型长度和单体型海明距离等参数的不同设置下,对算法EHTR,GTIHR,W-GA和Q-PSO的重建率和运行时间进行对比分析。实验结果显示,算法EHTR在不同的参数设置下均能以更短的运行时间获得更高的重建率。

参考文献 | 相关文章 | 多维度评价

Select

11. 基于特征挖掘的基因组缺失变异集成检测方法

张晓东,凌诚,高敬阳

计算机科学 2017, 44 (1): 80-83. DOI: 10.11896/j.issn.1002-137X.2017.01.015

摘要（355）

PDF（pc）（1813KB）（869）

随着高通量测序技术的应用与发展,基于测序的缺失变异检测方法大量涌现。然而,单一检测方法仍存在适用的局限性以及检测精度与敏感度不足的问题。为此,提出一种基于多检测理论融合的特征挖掘与机器学习算法集成的基因组缺失变异综合检测方法。该方法将多种工具应用于个体缺失变异检测,得到变异检测初始集；再根据多种检测理论对初始集中的缺失变异进行序列特征挖掘与特征提取；最后,将检测工具与机器学习算法相融合以获得集成的检测方法,剔除初始集中的假阳性变异,获得最终的结果集。基于千人基因组计划数据的实验表明,相较于单个工具的检测结果,该方法在检测精度和敏感度上均占优势；相较于多个工具检测结果的直接组合,该方法在损失少许检测敏感度的前提下显著地提高了检测精度。

参考文献 | 相关文章 | 多维度评价

Select

12. 三支决策空间下的区间参数优化模型及应用

李明霞,刘保相,张春英

计算机科学 2017, 44 (1): 84-89. DOI: 10.11896/j.issn.1002-137X.2017.01.016

摘要（466）

PDF（pc）（461KB）（544）

区间概念格理论是在区间参数基础上提出的一种新的对象挖掘方法,它能够更精确地处理不确定信息。区间参数[α,β]决定了区间概念和格结构,进而对提取的决策准则产生影响。为了解决区间参数优化问题,首先将区间概念格与三支决策粗糙集理论相结合,提出了三支决策空间理论；然后在此基础上将区间概念外延划分为3个域:正域、边界域和负域,并给出了基于区间概念格的三支决策规则与决策损失函数,通过调整区间参数寻找更加可靠的决策准则,从而优化区间参数；最后通过实例对模型进行验证。

参考文献 | 相关文章 | 多维度评价

Select

13. 基于最小/最大描述的多粒度覆盖粗糙直觉模糊集模型

薛占熬,司小朦,王楠,朱泰隆

计算机科学 2017, 44 (1): 90-94. DOI: 10.11896/j.issn.1002-137X.2017.01.017

摘要（523）

PDF（pc）（363KB）（615）

覆盖粗糙集和直觉模糊集都是处理不确定性问题的基础理论,它们有着很强的互补性,且覆盖粗糙集和直觉模糊集的融合研究是一个新的热点。对多粒度覆盖粗糙集和直觉模糊集的融合进行深入研究。首先将最小描述、最大描述从单一粒度推广到多个粒度,提出了多粒度的最小描述和最大描述,讨论了多粒度的融合；其次,分别给出了基于最小描述和最大描述的模糊覆盖粗糙隶属度、非隶属度的概念,构建了两种新的模型即基于最小描述的多粒度覆盖粗糙直觉模糊集和基于最大描述的多粒度覆盖粗糙直觉模糊集,并讨论了它们的性质,同时举例说明；最后,分析和研究了两种模型的关系。该研究为多粒度覆盖粗糙集和直觉模糊集的融合提供了一种方法。

参考文献 | 相关文章 | 多维度评价

Select

14. 基于知识图谱的未登录词语义研究

朱峰,顾敏,郑好,顾彦慧,周俊生,曲维光

计算机科学 2017, 44 (1): 95-99. DOI: 10.11896/j.issn.1002-137X.2017.01.018

摘要（458）

PDF（pc）（508KB）（573）

传统的应用于未登录词语义研究的语料库包含许多限制,例如更新慢、语言相关等。为了解决此问题,提出了基于知识图谱的中文未登录词语义研究方法。知识图谱是一种包含实体、概念及语义关系的语义网络。它具有丰富的实体,并且实体及其关系的添加极为方便,使得弥补传统语料库更新慢的缺憾成为可能。在充分熟悉知识图谱的结构、数据获取方法及相关数据处理方法后,进行基于知识图谱的未登录词语义研究的探索工作,最后以百度百科(目前最大的中文知识图谱)为语料资源,在同一语义分析模型下分别进行基于知识图谱与传统语料的实验,对实验结果进行分析并提出改进方法。

参考文献 | 相关文章 | 多维度评价

Select

15. 基于遗传优化谱聚类的图形分割方法

覃晓,梁伟,元昌安,唐涛

计算机科学 2017, 44 (1): 100-102. DOI: 10.11896/j.issn.1002-137X.2017.01.019

摘要（459）

PDF（pc）（1007KB）（676）

传统的谱聚类方法使用k-means达到最后的聚类目的。k-means对初始条件敏感,易陷入局部最优,从而导致传统的谱聚类方法应用到图像分割时效果不太理想。将遗传算法用于优化谱方法的聚类阶段,提出一种以遗传算法优化普聚类的图像分割方法(Image Segmentation Algorithm of Spectral Clustering Optimization Based on Genetic,ISCOG)。在合成图像与真实图像上的实验表明ISCOG算法极大地提高了谱聚类算法的稳定性和聚类质量,证明了ISCOG算法的优越性。

参考文献 | 相关文章 | 多维度评价