1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
    2016第六届中国数据挖掘会议 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    1. 一种处理部分标记数据的粗糙集属性约简算法
    张维,苗夺谦,高灿,李峰
    计算机科学    2017, 44 (1): 25-31.   https://doi.org/10.11896/j.issn.1002-137X.2017.01.005
    摘要 (167)   PDF (584KB) (190)  
    属性约简是粗糙集理论中重要的研究内容之一,是数据挖掘中知识获取的关键步骤。Pawlak粗糙集约简的对象一般是有标记的决策表或者是无标记的信息表。而在很多现实问题中有标记数据很有限,更多的是无标记数据,即半监督数据。为此,结合半监督协同学习理论,提出了处理半监督数据的属性约简算法。该算法首先在有标记数据上构造两个差异性较大的约简来构造基分类器;然后在无标记数据上交互协同学习,扩大有标记数据集,获得质量更好的约简,构造性能更好的分类器,该过程迭代进行,从而实现利用无标记数据提高有标记数据的约简质量,最终获得质量较好的属性约简。UCI数据集上的实验分析表明,该算法是有效且可行的。
    参考文献 | 相关文章 | 多维度评价
    2. 基于高斯-柯西混合模型的单幅散焦图像深度恢复方法
    薛松,王文剑
    计算机科学    2017, 44 (1): 32-36.   https://doi.org/10.11896/j.issn.1002-137X.2017.01.006
    摘要 (138)   PDF (1892KB) (318)  
    单幅图像场景深度的获取一直是计算机视觉领域的一个难题。使用高斯分布函数或柯西分布函数近似点扩散函数模型(PSF),再根据图像边缘处散焦模糊量的大小与场景深度之间的关系估算出深度信息,是一种常用的方法。真实世界中图像模糊的缘由千变万化,高斯分布函数以及柯西分布函数并不一定是最佳的近似模型,并且传统的方法对于图像存在阴影、边缘不明显以及深度变化比较细微的区域的深度恢复结果不够准确。为了提取更为精确的深度信息,提出一种利用高斯-柯西混合模型近似PSF的方法;然后对散焦图像进行再模糊处理,得到两幅散焦程度不同的图像;再通过计算两幅散焦图像边缘处梯度的比值估算出图像边缘处的散焦模糊量,从而得到稀疏深度图;最后使用深度扩展法得到场景的全景深度图。通过大量真实图像的测试,说明新方法能够从单幅散焦图像中恢复出完整、可靠的深度信息,并且其结果优于目前常用的两种方法。
    参考文献 | 相关文章 | 多维度评价
    被引次数: Baidu(5)
    3. 在线序列主动学习方法
    翟俊海,臧立光,张素芳
    计算机科学    2017, 44 (1): 37-41.   https://doi.org/10.11896/j.issn.1002-137X.2017.01.007
    摘要 (153)   PDF (482KB) (213)  
    现实世界中存在着大量无类标的数据,如各种医疗图像数据、网页数据等。在大数据时代,这种情况更加突出。标注这些无类标的数据需要付出巨大的代价。主动学习是解决这一问题的有效手段,也是近几年机器学习和数据挖掘领域中的一个研究热点。提出了一种基于在线序列极限学习机的主动学习算法,该算法利用在线序列极限学习机增量学习的特点,可显著提高学习系统的效率。另外,该算法用样例熵作为启发式度量无类标样例的重要性,用K-近邻分类器作为Oracle标注选出的无类标样例的类别。实验结果显示,提出的算法具有学习速度快、标注准确的特点。
    参考文献 | 相关文章 | 多维度评价
    4. 基于Word2Vec的情感词典自动构建与优化
    杨小平,张中夏,王良,张永俊,马奇凤,吴佳楠,张悦
    计算机科学    2017, 44 (1): 42-47.   https://doi.org/10.11896/j.issn.1002-137X.2017.01.008
    摘要 (309)   PDF (612KB) (291)  
    情感词典的构建是文本挖掘领域中重要的基础性工作。近几年,情感词典的极性标注从二元褒贬标注向多元情绪标注发展,词典的领域特性也日趋明显。但是情感类别的手工标注不但费时费力,而且情感强度难以得到准确量化,同时对领域性的过分关注也大大限制了情感词典的适用性[1]。通过神经网络语言模型对大规模中文语料进行统计训练,并在此基础上提出了基于转换约束集的多维情感词典自动构建方法;然后研究了基于词分布密度的感情色彩消歧方法,对兼具褒贬意味词语的感情极性进行区分和识别,并分别计算两种感情色彩下的情感类别与强度;最后提出基于多个语义资源的全局优化方案,得到包含10种情绪标注的多维汉语情感词典SentiRuc。实验证实该词典1)在类别标注检验、强度标注检验、情感消歧效果及情感分类任务中均具有良好的效果,其中的情感强度检验证实该词典具有极强的情感语义描述力。
    参考文献 | 相关文章 | 多维度评价
    被引次数: Baidu(12)
    5. 基于分层筛选和动态更新的并行选择集成算法
    吴梅红,郭佳盛,鞠颖,林子雨,邹权
    计算机科学    2017, 44 (1): 48-52.   https://doi.org/10.11896/j.issn.1002-137X.2017.01.009
    摘要 (159)   PDF (1127KB) (211)  
    提出一种选择性集成学习算法,该算法利用多线程并行优化基分类器的参数,通过多层筛选和动态更新筛选信息获取最优的候选基分类器集合,解决了以往在集成学习中选择分类器效率低下的问题。集成分类器采用分解合并的策略进行加权投票,通过使用二分法将大数据集的投票任务递归分解成多个子任务,并行运行子任务后合并投票结果以缩短集成分类器的投票运行时间。实验结果表明, 相对于传统方法, 所提出的算法在平均精度、F1-Measure以及AUC指标上都有着显著提升。
    参考文献 | 相关文章 | 多维度评价
    6. 基于中介Agent的强化学习优化协商模型
    张京敏,董红斌
    计算机科学    2017, 44 (1): 53-59.   https://doi.org/10.11896/j.issn.1002-137X.2017.01.010
    摘要 (131)   PDF (597KB) (232)  
    提出了一种基于强化学习的双边优化协商模型。引入了一个中介Agent。在强化学习策略中使用不同的参数产生提议,进而选出最好的参数进行协商。为了进一步提高协商的性能,还提出了基于中介Agent自适应的学习能力。仿真实验结果证明了所提协商方法的有效性,且该方法提高了协商的性能。
    参考文献 | 相关文章 | 多维度评价
    7. 基于卷积神经网络的自适应权重multi-gram语句建模系统
    张春云,秦鹏达,尹义龙
    计算机科学    2017, 44 (1): 60-64.   https://doi.org/10.11896/j.issn.1002-137X.2017.01.011
    摘要 (122)   PDF (1299KB) (230)  
    如今信息量呈爆炸式增长,自然语言处理得到了越来越广泛的重视。传统的自然语言处理系统过多地依赖昂贵的人工标注特征和语言分析工具的语法信息,导致预处理中语法信息的错误传递到系统训练和预测过程中。因此,深度学习的应用受到了学者们的关注。因为它能实现端对端预测并尽可能少地 依赖 外部信息。自然语言处理领域流行的深度学习框架为了更好地获取句子信息,采用multi-gram策略。但不同任务和不同数据集的信息分布状况不尽相同,而且这种策略并没有考虑到不同n-gram的重要性分布。针对该问题,提出了一种基于深度学习的自适应学习multi-gram权重的策略,从而根据各n-gram特征的贡献为其分配相应的权重;并且还提出了一种新的multi-gram特征向量结合方法,大大降低了系统复杂度。将该模型应用到电影评论正负倾向判断和关系分类两种分类任务中,实验结果证明采用的自适应multi-gram权重策略能够大大改善模型的分类效果。
    参考文献 | 相关文章 | 多维度评价
    被引次数: Baidu(2)
    8. 一种改进的多视图聚类集成算法
    邓强,杨燕,王浩
    计算机科学    2017, 44 (1): 65-70.   https://doi.org/10.11896/j.issn.1002-137X.2017.01.012
    摘要 (138)   PDF (457KB) (432)  
    近年来,针对大数据的数据挖掘技术和机器学习算法研究变得日趋重要。在聚类领域,随着多视图数据的大量出现,多视图聚类已经成为了一类重要的聚类方法。然而,大多数现有的多视图聚类算法受算法参数设置、数据样本等影响,具有聚类结果不稳定、参数需要反复调节等缺点。基于多视图K-means算法和聚类集成技术,提出了一种改进的多视图聚类集成算法,其提高了聚类的准确性、鲁棒性和稳定性。其次,由于单机环境下的多视图聚类算法难以对海量的数据进行处理,结合分布式处理技术,实现了一种分布式的多视图并行聚类算法。实验证明,并行算法在处理大数据时的时间效率有很大提升,适合于大数据环境下的多视图聚类分析。
    参考文献 | 相关文章 | 多维度评价
    被引次数: Baidu(3)
    9. 一种基于用户距离改进的线性影响力传播模型
    蔡国永,裴广战
    计算机科学    2017, 44 (1): 71-74.   https://doi.org/10.11896/j.issn.1002-137X.2017.01.013
    摘要 (106)   PDF (296KB) (192)  
    根据在线社交网络中用户的历史行为进行信息传播的预测是当前研究的热点之一,然而传统的传播模型仅解释了信息在社交网络中的传播规律,不具备信息传播预测能力。Jaewan Yang和Jwe Leskovec根据未激活的用户会受到激活用户的影响,提出了线性影响力模型LIM(Linear Influence Model),但是LIM模型在信息传播的过程中只考虑了时间因素,忽略了信息在传播过程中的空间因素,即用户间的相互关系。首先引入社交网络中用户间距离的度量,并结合距离的度量对LIM模型进行了改进,提出了基于距离正则化的LIM模型,即d-LIM模型。真实数据集上的对比实验表明,d-LIM模型能获得更准确的预测结果。
    参考文献 | 相关文章 | 多维度评价
    被引次数: Baidu(1)
    10. 基于枚举策略的三倍体个体单体型重建算法
    张倩,吴璟莉
    计算机科学    2017, 44 (1): 75-79.   https://doi.org/10.11896/j.issn.1002-137X.2017.01.014
    摘要 (85)   PDF (486KB) (181)  
    求解三倍体个体单体型对于探索三倍体物种的遗传特性和表型差异等方面的研究具有重要的推动作用。针对带基因型信息的最少错误更正(MEC/GI)模型,提出了一种基于枚举策略的三倍体个体单体型重建算法EHTR。该算法依次重建3条单体型上的每一个单核苷酸多态性位点取值,对于给定位点,首先根据其基因型取值枚举该位点的3种单体型取值情况,然后选择片段支持度最高的取值作为该位点的重建值,算法的总时间复杂度为O(mn+mlogm+cnl)。采用CELSIM和MetaSim两种测序片段模拟生成器生成实验测试数据,在片段覆盖率、错误率、单片段长度、单体型长度和单体型海明距离等参数的不同设置下,对算法EHTR,GTIHR,W-GA和Q-PSO的重建率和运行时间进行对比分析。实验结果显示,算法EHTR在不同的参数设置下均能以更短的运行时间获得更高的重建率。
    参考文献 | 相关文章 | 多维度评价
    被引次数: Baidu(4)
    首页 | 前页| 后页 | 尾页 第1页 共2页 共15条记录