栏目文章

Select

1. 受限玻尔兹曼机的稀疏化特征学习

康丽萍,许光銮,孙显

计算机科学 2016, 43 (12): 91-96. DOI: 10.11896/j.issn.1002-137X.2016.12.016

摘要（282）

PDF（pc）（1778KB）（616）

受限玻尔兹曼机(RBM)作为深度学习算法的一种基础模型被广泛应用,但传统RBM算法没有充分考虑数据的稀疏化特征学习,使得算法性能受数据集的稀疏性影响较大。提出一种RBM稀疏化特征学习方法(sRBM),通过归一化的输入数据均值确定数据集的稀疏系数,将稀疏系数大于阈值的稠密数据集自动转化为稀疏数据集,在不损失信息量的情况下实现输入数据的稀疏化。在手写字符数据集和自然图像数据集上的实验结果表明,sRBM通过输入数据稀疏化有效提升了RBM的稀疏化特征学习性能。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于支持向量上采样的不平衡数据分类方法

曹路

计算机科学 2016, 43 (12): 97-100. DOI: 10.11896/j.issn.1002-137X.2016.12.017

摘要（328）

PDF（pc）（1938KB）（1087）

传统的支持向量机在处理不平衡数据时效果不佳。为了提高少类样本的识别精度,提出了一种基于支持向量的上采样方法。首先根据K近邻的思想清除原始数据集中的噪声；然后用支持向量机对训练集进行学习以获得支持向量,进一步对少类样本的每一个支持向量添加服从一定规律的噪声,增加少数类样本的数目以获得相对平衡的数据集；最后将获得的新数据集用支持向量机学习。实验结果显示,该方法在人工数据集和UCI标准数据集上均是有效的。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于滑动窗口的主题模型

常东亚,严建峰,杨璐,刘晓升

计算机科学 2016, 43 (12): 101-107. DOI: 10.11896/j.issn.1002-137X.2016.12.018

摘要（293）

PDF（pc）（1137KB）（1096）

LDA(Latent Dirichlet Allocation)是一个分层的概率主题模型,目前被广泛地应用于文本挖掘。这种模型既不考虑文档与文档之间的顺序关系,也不考虑同一篇文档中词与词之间的顺序关系,简化了问题的复杂性,同时也为模型的改进提供了契机。针对此问题提出了基于滑动窗口的主题模型,该模型的基本思想是文档中的一个单词的主题与其附近若干单词的主题关系越紧密,受附近单词主题的影响越大。根据窗口和滑动位移的大小,把文档切割为粒度更小的片段。同时,针对大数据集和数据流问题,提出了在线滑动窗口主题模型。在4个数据集上的实验表明,基于滑动窗口的主题模型训练出来的模型在数据集上有更好的泛化性能和精度。

参考文献 | 相关文章 | 多维度评价

Select

4. 利用Tri-training算法解决推荐系统冷启动问题

张栩晨

计算机科学 2016, 43 (12): 108-114. DOI: 10.11896/j.issn.1002-137X.2016.12.019

摘要（303）

PDF（pc）（587KB）（603）

随着社交网络的发展,推荐系统日趋重要,而冷启动问题是推荐系统中的关键问题。设计了一种基于上下文的半监督学习框架TSEL,对矩阵分解模型SVD进行扩充以支持更多形式的上下文信息,利用Tri-training框架训练各个模型。与其他解决推荐系统冷启动问题的半监督方法(如Co- training)相比,该方法有着更好的效果。Tri-training框架能够更加方便地引入更多推荐模型,具有更好的可扩展性。将Tri-training框架加以扩展,提出了基于用户活跃度生成无标记教学集合的算法和更加丰富的对矩阵分解模型扩充的形式。在真实数据集MovieLens上进行验证,获得了更好的实验效果。

参考文献 | 相关文章 | 多维度评价

Select

5. 基于深度学习的问题分类方法研究

李超,柴玉梅,南晓斐,高明磊

计算机科学 2016, 43 (12): 115-119. DOI: 10.11896/j.issn.1002-137X.2016.12.020

摘要（708）

PDF（pc）（1157KB）（1024）

问题分类是问答系统中的重要组成部分。但现阶段的问题分类需要人工制定提取特征的策略和不断优化特征规则。深度学习方法在问题分类上具有可行性,通过自我学习特征的方式表示和理解问题,避免人工特征的制定,从而减少人工代价。针对问题分类,改进了长短期记忆人工神经网络(LSTM)和卷积神经网络(CNN)模型,并结合两者的优势组合成为一种新的学习框架(LSTM-MFCNN),加强对词序语义和深度特征的学习。实验结果表明,该方法在不需要制定繁琐的特征规则的条件下,仍然有较好的表现,准确率达到了93.08%。

参考文献 | 相关文章 | 多维度评价

Select

6. 一种基于动态词汇表的在线LDA算法

张健伟,严建峰,刘晓升,杨璐

计算机科学 2016, 43 (12): 120-124. DOI: 10.11896/j.issn.1002-137X.2016.12.021

摘要（290）

PDF（pc）（1009KB）（854）

目前的在线潜在狄利克雷分布模型(LDA)算法大多是基于固定的词汇表,在实际应用中经常会出现词汇表和处理的语料不匹配的情况,影响了模型的实用性。针对这个现象,在置信传播算法(BP)的框架下,使主题单词分布服从狄利克雷过程,重新推导公式,使得词汇表在模型运行之前为空,并且在处理时不断向词汇表中增加发现的新词。实验证明,这种新的基于动态词汇表的算法不仅使得词汇表与语料的贴合度更高,而且使其在混淆度以及互信息指数这两个指标上能够比基于固定词汇表的LDA模型表现得更加优越。

参考文献 | 相关文章 | 多维度评价

Select

7. 随机权分布对极限学习机性能影响的实验研究

翟俊海,臧立光,张素芳

计算机科学 2016, 43 (12): 125-129. DOI: 10.11896/j.issn.1002-137X.2016.12.022

摘要（362）

PDF（pc）（410KB）（570）

极限学习机是一种训练单隐含层前馈神经网络的算法,它随机初始化输入层的权值和隐含层结点的偏置,用分析的方法确定输出层的权值。极限学习机具有学习速度快、泛化能力强的特点。很多研究都用服从[－1,1]区间均匀分布的随机数初始化输入层权值和隐含层结点的偏置,但没有对这种随机初始化合理性的研究。用实验的方法对这一问题进行了研究,分别研究了随机权服从均匀分布、高斯分布和指数分布对极限学习机性能的影响。研究发现随机权的分布对极限学习机的性能的确有影响,对于不同的问题或不同的数据集,服从[－1,1]区间均匀分布的随机权不一定是最优的选择。研究结论对从事极限学习机研究的人员具有一定的借鉴作用。

参考文献 | 相关文章 | 多维度评价

Select

8. 基于贝叶斯方法和变化表的恐怖行为预测算法

薛安荣,毛文渊,王孟頔,陈泉浈

计算机科学 2016, 43 (12): 130-134. DOI: 10.11896/j.issn.1002-137X.2016.12.023

摘要（368）

PDF（pc）（420KB）（601）

传统的恐怖行为预测算法没有考虑到组织会改变其行为策略,而CAPE算法根据组织背景的改变预测行为变化,但其只能根据变化表中存在的背景变化预测行为。为了能根据任意背景变化预测恐怖行为,针对恐怖数据高维小样本的特点,提出了一种利用贝叶斯方法在改进的变化表上预测组织行为的算法。利用贝叶斯方法可快速有效地解决高维小样本分类问题的特性,在改进的变化表上实现对组织行为的预测,从而提高了预测精度和计算效率。此外,考虑到背景的变化会在时间序列上对组织行为产生持续的影响,因此在不同时间滞差下,利用加权的贝叶斯方法预测组织行为。MAROB数据集上多个组织数据的实验结果也表明,所提算法在准确率及时间复杂度上优于CAPE算法。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于类内散度的粗糙one-class支持向量机

张彬,朱嘉钢

计算机科学 2016, 43 (12): 135-138. DOI: 10.11896/j.issn.1002-137X.2016.12.024

摘要（287）

PDF（pc）（360KB）（530）

粗糙one-class支持向量机(ROC-SVM)在粗糙集理论基础上通过构建粗糙上超平面和下超平面来处理过拟合问题,但是在寻找最优分类超平面的过程中,忽略了训练样本类内结构这一非常重要的先验知识。因此,提出了一种基于类内散度的粗糙one-class支持向量机(WSROC-SVM),该方法通过最小化训练样本类内散度来优化训练样本类内结构,一方面使训练样本在高维特征空间中与坐标原点的间隔尽可能大,另一方面使得训练样本在粗糙上超平面尽可能紧密。在合成数据集和UCI数据集上的实验结果表明,较原始算法,该方法有着更高的识别率和更好的泛化性能,在解决实际分类问题上更具优越性。

参考文献 | 相关文章 | 多维度评价

Select

10. 一种基于样本加权的多尺度核支持向量机方法

沈健,蒋芸,张亚男,胡学伟

计算机科学 2016, 43 (12): 139-145. DOI: 10.11896/j.issn.1002-137X.2016.12.025

摘要（285）

PDF（pc）（585KB）（774）

多核学习方法是机器学习领域中的一个新的热点。核方法通过将数据映射到高维空间来增加线性分类器的计算能力,是目前解决非线性模式分析与分类问题的一种有效途径。但是在一些复杂的情况下,单个核函数构成的核学习方法并不能完全满足如数据异构或者不规则、样本规模大、样本分布不平坦等实际应用中的需求问题,因此将多个核函数进行组合以期获得更好的结果,是一种必然的发展趋势。因此提出一种基于样本加权的多尺度核支持向量机方法,通过不同尺度核函数对样本的拟合能力进行加权,从而得到基于样本加权的多尺度核支持向量机决策函数。通过在多个数据集上的实验分析可以得出所提方法对于各个数据集都获得了很高的分类准确率。

参考文献 | 相关文章 | 多维度评价