栏目文章

Select

1. 加入标签迁移的跨领域项目推荐算法

葛梦凡, 刘真, 王娜娜, 田靖玉

计算机科学 2019, 46 (10): 1-6. DOI: 10.11896/jsjkx.180901792

摘要（1114）

PDF（pc）（2096KB）（1702）

大多数推荐算法常采用基于迁移学习的跨领域推荐技术,借助辅助领域的丰富数据信息来解决传统单域推荐中普遍存在的数据稀疏等问题。但若迁移的知识比较单一,没有结合用户行为,则往往会在目标领域导致负迁移、推荐结果不佳等问题。因此,考虑结合其他知识来辅助完成目标领域的学习任务。利用用户异构行为改善推荐结果,正是近年来的新兴研究热点之一。在用户数据中,标签与用户的真实偏好相关,通常能够反映用户或项目的部分隐式特征。通过结合迁移学习及用户标签数据,文中提出了基于标签迁移的跨领域项目推荐算法ITTCF(Item-based Tag Transfer Collaborative Filtering)。该算法摒弃了在跨领域迁移推荐中仅对评分模式进行挖掘迁移的单一辅助方式,将用户行为反馈与数字评分相结合,融合了评分模式和标签这两种异构用户行为。在多个数据集中的实验结果均表明,ITTCF具有更好的RMSE和MAE值,较传统算法分别提升了1.61%~6.67%和1.97%~8.83%。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于堆栈降噪自编码网络的个人信用风险评估方法

杨德杰, 章宁, 袁戟, 白璐

计算机科学 2019, 46 (10): 7-13. DOI: 10.11896/jsjkx.181102216

摘要（587）

PDF（pc）（1972KB）（1339）

个人信用历来是银行衡量个人履约风险最重要的因素。近年来,随着我国借贷需求与日俱增,仅依据信用卡信息的传统个人信用评估方式,已不能完全满足银行业的发展需求。因此,为了构建更加丰富的用户信用画像,文中基于银行大数据提取信用风险评估特征。为了解决金融大数据带来的维度灾难和噪声问题,充分考虑了数据特征之间的相关性,对堆栈降噪自编码神经网络模型进行了改进,引入了截断的Karhunen-Loève展开作为噪声传入项,并在某商业银行的大数据平台上进行了一系列数据实验。实验结果显示:相比仅使用信用卡信息,利用银行大数据能使衡量正负样本分离度的指标——K-S值提升约11%;改进的堆栈降噪自编码神经网络方法具有更好的风险评估效果,准确率相比原模型提高了3%左右,验证了在银行大数据环境下进行信用风险评估的有效性。

参考文献 | 相关文章 | 多维度评价

Select

3. 面向评论文本数据的旭日图可视化

易小群, 李天瑞, 陈超

计算机科学 2019, 46 (10): 14-18. DOI: 10.11896/jsjkx.190100087

摘要（743）

PDF（pc）（1919KB）（1141）

旭日图是一种现代饼图,它超越传统的饼图和环图,不仅能表达数据的占比问题,更能表达清晰的层级和归属关系,以父子层次结构来显示数据的构成情况。使用传统的旭日图对文本数据进行可视化时,不能全面地展示实体关系和情感偏向,而且旭日图层数越多,信息的可读性就越低。针对以上问题,对传统的旭日图进行了改进。首先,设计同级相邻圆弧的交叠,展示文本中实体的关系。然后,将旭日图与柱形图相结合,展示评论文本的感情偏向,柱形图体现为圆弧的涂色宽度,表示对于某方面评论的满意度。最后,对数据进行优化重排,包括:1)基于整体的考虑,将凸出部分放在邻接位置以节省空间;2)对局部的数据优化进行重排,使得最外层的节点尽可能高低错落,以提高稀疏性,便于观察。实验结果表明:改进的旭日图能够更全面、清晰地对评论文本进行可视化,为用户提供更灵活、个性化的可视化展示。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于关键词和关键句抽取的用户评论情感分析

喻影, 陈珂, 寿黎但, 陈刚, 吴晓凡

计算机科学 2019, 46 (10): 19-26. DOI: 10.11896/jsjkx.191000531C

摘要（645）

PDF（pc）（1829KB）（2421）

情感分析的一项主要研究任务是根据文档内容对其情感极性(即正类和负类)进行判断。在判断文档的情感极性时,不同的词语和句子具有不同的情感贡献度,因此如何从整个文档中准确地提取与情感分类更相关的词语和句子,从而提升分类性能,成为了一个重要问题。在有监督实验中,基于依存句法关系分析句子的逻辑结构,提取出了与表达情感更相关的词语进行加权,提高了分类性能。在半监督实验中,使用基于中文评论的关键句抽取和分类器融合算法,对整篇文档中包含更多情感词和总结意味的关键句进行了抽取,充分考虑了句子的情感词属性、位置属性、标点符号属性和关键词属性,并且使用分类器融合算法,让置信度最高的子分类器决定分类效果。在大众点评网和头条新闻的数据集上将所提算法与已有的经典算法进行对比,发现所提方法的性能更高,从而证明了基于依存句法分析的关键词抽取和基于特征的中文关键句抽取算法的有效性。

参考文献 | 相关文章 | 多维度评价

Select

5. 一种基于领域信任及不信任的奇异值分解推荐算法

张琦, 柳玲, 文俊浩

计算机科学 2019, 46 (10): 27-31. DOI: 10.11896/jsjkx.190300388

摘要（475）

PDF（pc）（1434KB）（855）

传统协同过滤算法存在数据稀疏与冷启动问题,社会化推荐算法虽然能在一定程度上缓解这些问题,但大多数的算法都只从单一的角度来衡量信任关系的影响。为了更准确地度量社交关系对推荐预测的影响,提出了一种基于领域信任及不信任的社会化奇异值分解(Field Trust and Distrust based Singular Value Decomposition,FTDSVD)推荐算法。该算法在SVD推荐算法的基础上加入了用户的信任关系与不信任关系,利用不信任关系对社交关系进行修正,并且充分考虑用户的信任领域相关性和全局影响力。在Epinions 数据集上将FTDSVD算法与相关算法进行了对比,结果证实了该算法在提高推荐质量和缓解冷启动问题上效果显著。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于嵌入学习的用户动态偏好预测

温雯, 林泽钿, 蔡瑞初, 郝志峰, 王丽娟

计算机科学 2019, 46 (10): 32-38. DOI: 10.11896/jsjkx.180901801

摘要（371）

PDF（pc）（1282KB）（1487）

传统的刻画用户偏好的方法主要着眼于用户的长期兴趣,然而在现实应用中,用户兴趣随着时间迁移而不断变化,如何挖掘用户在时序上的动态偏好仍然面临挑战。为此,文中提出了一种基于嵌入学习的动态行为预测方法。首先,利用改进的词嵌入模型从用户的点击行为序列中学习获得每一个点击项的低维向量表示;然后,基于所学习的向量表示,结合用户近期点击行为推断用户的动态偏好,进而预测其下一步的点击行为。在两个真实数据集上将提出的方法与近年出现的其他基准方法进行比较,结果表明,所提方法在预测准确率上具有明显的优势。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于拓扑结构的密度峰值重叠社区发现算法

封云飞, 陈红梅

计算机科学 2019, 46 (10): 39-48. DOI: 10.11896/jsjkx.180901644

摘要（533）

PDF（pc）（3661KB）（1014）

现代网络科学的不断发展,为人们的生活提供了极大的便利。对复杂网络的研究是推动现代网络科学发展的重要动力,而社区是研究复杂网络的重要结构。已有的社区发现方法大多是高度复杂的,这不利于有效挖掘复杂网络。为了研究更高效的社区发现算法,文中将近年来被提出的密度峰值聚类算法应用于社区发现中,对密度峰值算法进行改进,提出了一种高效的社区发现算法。将密度峰值算法应用于社区发现存在一些问题,由于复杂网络数据结构具有特殊性,其数据大多以拓扑图或邻接矩阵的形式存储,因此将密度峰值聚类算法应用到社区发现中的核心问题是如何有效地计算网络中各节点间的距离、节点局部密度和选择中心节点。针对该问题,文中通过网络拓扑图中各节点及其邻居节点的度来计算每一个节点的局部密度,通过节点间的相似度来度量节点间的距离,并对距离进行离散化处理,以便选取社区中心节点;定义了核心跳变值来更精确地选取社区中心,防止大社区吞并小社区;基于LFR人工网络和真实网络数据集,将所提算法与已有算法进行比较,并采用扩展的模块度、调整兰德系数以及归一化互信息对实验结果进行评估。真实网络中的实验结果表明了所提算法具有不错的效果,且在一些真实场景中具有明显优势;在人工网络中,所提算法同样具有优势,同时其相比其他算法更加稳定。

参考文献 | 相关文章 | 多维度评价

Select

8. 基于哈希算法的异构多模态数据检索研究

陈凤, 蒙祖强

计算机科学 2019, 46 (10): 49-54. DOI: 10.11896/jsjkx.190100139

摘要（704）

PDF（pc）（2090KB）（1151）

随着大数据时代的发展,网络上的文本、图像、视频、音频等异构多模态数据呈指数级增长。在海量数据中进行异构多模态数据的检索,成为了热门的研究方向。但是,异构多模态数据检索面临两大挑战:1)数据存在“语义鸿沟”,即如何表达异构多模态数据之间的相似性;2)在海量数据中,如何进行准确高效的检索。针对哈希检索算法忽略了异构多模态数据之间语义一致性的问题,文中提出了一种基于CCA(典型相关性分析)语义一致性的哈希检索算法(CCA-SCH)。该算法为了保持模态内的语义一致性,分别生成文本和图像数据的语义模型;为了保持模态间的语义一致性,通过CCA算法融合文本和图像语义,生成最大相关矩阵;同时引入ℓ_2,ρ范式来减少原始数据集的噪声和冗余信息,使哈希函数具有更好的鲁棒性。实验结果表明,CCA-SCH算法在实验数据集上的均值平均准确率(Map)相较于基准算法提升了10%以上,体现了该算法更好的检索性能。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于深度矩阵分解网络的矩阵填充方法

邝神芬, 黄业文, 宋杰, 李洽

计算机科学 2019, 46 (10): 55-62. DOI: 10.11896/jsjkx.190300390

摘要（510）

PDF（pc）（1503KB）（1596）

矩阵分解是矩阵填充中的流行方法,但现有的方法大多是基于浅层的线性模型,当数据矩阵变大且观测数据很少时,容易导致过拟合,性能也随之显著下降。针对这些问题,提出了一种基于深度矩阵分解网络(DMFN)的矩阵填充方法,该方法不仅能弥补传统矩阵分解的缺点,而且能处理复杂的非线性数据。首先,将输入矩阵的观测值对应的行和列向量作为输入,对其进行投影,得到其行(列)的潜在特征向量;然后,分别对行(列)的潜在特征向量构建多层感知器网络;最后,通过构建双线性池化层,将行和列的输出向量进行融合。在推荐系统数据集MovieLens及Netflix上进行测试,实验结果表明,在相同参数设置下,与主流的填充算法相比,所提方法填充预测的均方误差(RMSE)及绝对值误差(MAE)都有明显提高。

参考文献 | 相关文章 | 多维度评价

Select

10. 基于可视块的多记录型复杂网页信息提取算法

王卫红, 梁朝凯, 闵勇

计算机科学 2019, 46 (10): 63-70. DOI: 10.11896/jsjkx.190200346

摘要（600）

PDF（pc）（2582KB）（1213）

网页具有丰富的内容和复杂多变的结构,现有的网页信息提取技术解决了单记录型简单页面的信息提取问题,但是对于多记录型复杂页面的信息提取效果往往不佳。文中提出了一种全新的基于可视块的复杂网页信息自动化提取算法(Visual Block Based Information Extraction,VBIE),通过启发式规则构建可视块与可视块树,然后通过区域聚焦、噪声过滤及可视块筛选,实现了对复杂网页中数据记录的提取。该方法摒弃了以往算法对网页结构的特定假设,无需对HTML文档进行任何人工标记,保留了网页的原始结构,且能够在单页面上实现无监督的信息提取。实验结果表明,VBIE的网页信息提取精确度最高可达100%,在主流搜索引擎的结果页面和社区论坛的帖子页面上的F1均值分别为98.5%和96.1%。相比目前方法中在复杂网页上提取效果较好的CMDR方法,VBIE的F1值提高了近16.3%,证明了该方法能够有效解决复杂网页的信息提取问题。

参考文献 | 相关文章 | 多维度评价

Select

11. 基于时间戳和垂直格式的关联规则挖掘算法

王斌, 马俊杰, 房新秀, 魏天佑

计算机科学 2019, 46 (10): 71-76. DOI: 10.11896/jsjkx.190100223

摘要（427）

PDF（pc）（1356KB）（734）

基于时间戳的关联规则挖掘算法(SLMCM)主要用于解决新增项的问题,但效率较低,难以适应大数据挖掘。针对这个问题,文中提出了改进算法E-SLMCM和DE-SLMCM。E-SLMCM算法采用垂直结构,仅需遍历数据库两次,在将数据库转化为垂直格式时,可直接记录各项的时间戳,且不需要将每条事务的各项按时间戳进行排序;另外,提出了新的求项集时间戳的方法,在求更高项集的时间戳时不用多次遍历数据库。E-SLMCM算法适合应用于稀疏数据库,为了提高在密集数据库上的运行效率,在E-SLMCM算法的基础上采用差集思想提出了DE-SLMCM算法。所列举的4个基于公共数据集的仿真实验中,在不同最小支持度条件下,E-SLMCM和DE-SLMCM分别在稀疏和密集数据集上运行的时间效率是SLMCM的10~1 000倍。

参考文献 | 相关文章 | 多维度评价

Select

12. 融合多因素的兴趣点协同推荐方法研究

陈炯, 张虎, 曹付元

计算机科学 2019, 46 (10): 77-83. DOI: 10.11896/jsjkx.180901757

摘要（519）

PDF（pc）（1875KB）（872）

兴趣点(Point-of-Interest,POI)推荐是为用户推荐可能感兴趣的地理位置的一项任务,是基于位置社交网络(Location-Based Social Networks,LBSN)服务中的重要研究内容。针对目前POI推荐准确率较低、推荐结果缺乏个性化、情感倾向因素融入差等问题,在综合分析兴趣点的地理位置、分类偏好、流行度、社交与情感倾向等相关影响因素的基础上,提出了融合多因素的兴趣点协同推荐模型(GCSR)。首先,根据POI地理位置数据计算地理相关分数;其次,根据用户的类别偏好,结合POI流行度定义分类偏好分数;然后,根据社交关系计算用户之间的社交关系强度,通过挖掘评论文本计算用户的情感倾向分数,并将二者与协同过滤推荐技术有效结合,从而得到社交情感分数;最后,将地理相关分数、分类偏好分数与社交情感分数有效融合,向用户推荐Top-N兴趣点。在Foursquare真实签到数据集上进行的多组对比实验显示,与基线模型中最好的JRA相比,GCSR模型能够获得更好的推荐效果,准确率和召回率平均提高了1.7%和0.6%。

参考文献 | 相关文章 | 多维度评价

Select

13. 基于深度双向LSTM的股票推荐系统

曾安, 聂文俊

计算机科学 2019, 46 (10): 84-89. DOI: 10.11896/jsjkx.180901771

摘要（961）

PDF（pc）（1824KB）（2148）

面对越来越复杂的数据环境,以经典统计学模型为主的股票预测模型在一定程度上已无法满足人们对预测准确性的要求。深度学习因具有较强的学习能力和抗干扰能力,已逐渐被应用于股票推荐中。但传统的股票推荐模型要么从未考虑时间因素,要么仅考虑时间上的单向关系。因此,文中提出了一种基于深度双向LSTM的神经网络预测模型。该模型充分利用了时间序列上向前、向后两个时间方向的上下文关系,解决了长时间序列上的梯度消失和梯度爆炸问题,能够学习到对时间有长期依赖性的信息。同时,该模型引入了Dropout策略,在一定程度上解决了深层网络模型带来的训练难、收敛速度慢和过拟合等问题。在S&P500数据集上的实验表明,基于深度双向LSTM的神经网络预测模型比现有预测模型在误差上降低了2%~5%,使决定系数(r²)提高了10%。

参考文献 | 相关文章 | 多维度评价

Select

14. 多智能体强化学习综述

杜威, 丁世飞

计算机科学 2019, 46 (8): 1-8. DOI: 10.11896/j.issn.1002-137X.2019.08.001

摘要（3091）

PDF（pc）（1381KB）（7002）

多智能体系统是一种分布式计算技术,可用于解决各种领域的问题,包括机器人系统、分布式决策、交通控制和商业管理等。多智能体强化学习是多智能体系统研究领域中的一个重要分支,它将强化学习技术、博弈论等应用到多智能体系统,使得多个智能体能在更高维且动态的真实场景中通过交互和决策完成更错综复杂的任务。文中综述了多智能体强化学习的最新研究进展与发展动态,首先介绍了多智能体强化学习的基础理论背景,回顾了文献中提出的多智能体强化学习的学习目标和经典算法,其被分别应用于完全合作、完全竞争和更一般(不合作也不竞争)的任务。其次,综述了多智能体强化学习的最新进展,近年来随着深度学习技术的成熟,在越来越多的复杂现实场景任务中,研究人员利用深度学习技术来自动学习海量输入数据的抽象特征,并以此来优化强化学习问题中智能体的决策。近期,研究人员结合深度学习等技术,从可扩展性、智能体意图、奖励机制、环境框架等不同方面对算法进行了改进和创新。最后,对多智能体强化学习的应用前景和发展趋势进行了总结与展望。目前多智能体强化学习在机器人系统、人机博弈、自动驾驶等领域取得了不错的进展,未来将被更广泛地应用于资源管理、交通系统、医疗、金融等各个领域。

参考文献 | 相关文章 | 多维度评价

Select

15. 元事件抽取研究综述

高李政, 周刚, 罗军勇, 兰明敬

计算机科学 2019, 46 (8): 9-15. DOI: 10.11896/j.issn.1002-137X.2019.08.002

摘要（1980）

PDF（pc）（1308KB）（3751）

事件抽取是信息抽取领域的一个重要研究方向,在情报收集、知识提取、文档摘要、知识问答等领域有着广泛应用。对当前事件抽取领域研究得较多的元事件抽取进行了综述。首先,简要介绍了元事件和元事件抽取的基本概念,以及元事件抽取的主要实现方法。然后,重点阐述了元事件抽取的主要任务,详细介绍了元事件检测过程,并对其他相关任务进行了概述。最后,总结了元事件抽取面临的问题,在此基础上展望了元事件抽取的发展趋势。

参考文献 | 相关文章 | 多维度评价

Select

16. 面向城市热点区域的不平衡数据聚类挖掘研究

蔡莉, 李英姿, 江芳, 梁宇

计算机科学 2019, 46 (8): 16-22. DOI: 10.11896/j.issn.1002-137X.2019.08.003

摘要（701）

PDF（pc）（3223KB）（1501）

在大数据时代,数据来源众多,因此多源数据的融合成为数据挖掘领域的一个研究热点。现有的多源数据融合研究主要聚焦于相同领域内平衡数据集的融合模型和算法,对来自不同领域的非平衡数据集的聚类挖掘关注较少。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法是挖掘热点区域的主要算法,但其无法处理不平衡的融合数据,少数类数据形成的聚类结果很难被发现。针对不平衡数据的融合,文中提出了一种基于时空特征的位置数据融合模型;同时,从数据层面和算法层面提出新颖的方法来解决不平衡数据的挖掘问题。鉴于目前的聚类算法的评价指标并不适用于不平衡数据的聚类结果评估,提出了一种新的综合评价指标来反映聚类质量。将来自交通领域的GPS轨迹数据(多数类数据)和社交领域的微博签到数据(少数类数据)进行融合,然后采用所提方法来挖掘热点区域。实验结果表明:基于多源数据融合的热点区域挖掘结果优于单源挖掘结果,所发现的热点区域位置、分布和数量与实际情况一致。文中所提出的融合模型、改进算法和评估指标法是有效且可行的,还可用于其他来源的位置数据的融合与分析。

参考文献 | 相关文章 | 多维度评价

Select

17. 基于轨迹划分与密度聚类的移动用户重要地点识别方法

杨震, 王红军

计算机科学 2019, 46 (8): 23-27. DOI: 10.11896/j.issn.1002-137X.2019.08.004

摘要（577）

PDF（pc）（1834KB）（1078）

移动用户轨迹数据作为新兴的空间轨迹数据,可用于分析个体或群体的行为特征、兴趣爱好,在智慧城市、交通规划和反恐维稳等领域应用广泛。为了从庞大的数据集中识别出移动用户的重要地点,提出了一种基于转角偏移度与距离偏移量的轨迹划分算法。该算法首先通过轨迹划分提取出用户的重要地点候选集,然后采用一种改进的密度聚类算法进一步对用户的候选重要地点实现聚类,从而识别出用户的最终重要地点。在Geolife轨迹数据集与Foursquare用户签到数据集上的实验表明,采用轨迹划分与密度聚类相结合的重要地点识别方法具有比现有的重要地点识别方法更高的准确率,证明了所提方法的可行性与优越性。

参考文献 | 相关文章 | 多维度评价

Select

18. 融合动态协同过滤和深度学习的推荐算法

邓存彬, 虞慧群, 范贵生

计算机科学 2019, 46 (8): 28-34. DOI: 10.11896/j.issn.1002-137X.2019.08.005

摘要（625）

PDF（pc）（1806KB）（1188）

在信息爆炸的时代,推荐系统在减轻信息过载方面发挥了巨大的作用。目前,推荐系统普遍使用传统的协同过滤算法学习用户商品行为矩阵中的隐向量,但是其存在数据稀疏性和冷启动问题,同时未考虑用户的兴趣偏好以及商品的受欢迎程度会随时间发生改变,这极大地限制了推荐的准确性。已有学者利用深度学习模型学习辅助信息的特征来扩充协同过滤算法的特征,取得了一定的成果,但并未充分有效地解决全部问题。以电影推荐为研究对象,提出了融合动态协同过滤和深度学习的推荐算法。首先,利用动态协同过滤算法融入时间特征;然后,利用深度学习模型来学习用户和电影特征信息,以形成高维潜在空间的用户特征和电影特征的隐向量;最后,将其融入到动态协同过滤算法中。以MovieLens为实验数据集对电影的评分进行预测,实验结果表明所提算法提高了电影评分预测的准确性。

参考文献 | 相关文章 | 多维度评价

Select

19. 异构分布式存储系统再生码数据修复的节点选择方案

钟凤艳, 王艳, 李念爽

计算机科学 2019, 46 (8): 35-41. DOI: 10.11896/j.issn.1002-137X.2019.08.006

摘要（489）

PDF（pc）（1632KB）（798）

近年来,海量数据的增长给现有的存储系统带来了严峻的挑战,包括存储成本和数据可靠性要求等。纠删码由于在相同的存储开销下可以提供更高的数据可靠性,得到了学术界和工业界的广泛关注。但由于纠删码的编码特性,让使用纠删码的存储系统在数据修复过程中增加了许多其他方面的额外开销,如计算、调度、传输、磁盘读写等。近年来对纠删码数据修复的研究都基于这样一个假定:分布式存储系统中各个节点是无差别的。然而,实际情况是,在大规模的数据中心中,设备替换、硬件故障等原因不仅会导致数据丢失,还会导致数据中心的各个存储节点的存储成本不同,从而使每个存储节点上所存储的数据量并不总是相等,这种现象被称为存储容量异构。存储容量异构场景下的修复过程面临供应节点的选择问题,需要设计一个节点选择策略来降低修复开销,提高存储系统的可靠性和可用性。鉴于实际数据修复过程中参与修复的节点对数据的传输成本不同,提出节点选择策略——树形拓扑修复算法,以降低整个修复过程中的修复成本。仿真结果表明,相对IFR码的固定节点选择策略,文中提出的树形选择策略在平均情况下可以进一步降低数据修复成本。

参考文献 | 相关文章 | 多维度评价

Select

20. 基于地理标签的推文话题时空演变的可视分析方法

孙国道, 周志秀, 李思, 刘义鹏, 梁荣华

计算机科学 2019, 46 (8): 42-49. DOI: 10.11896/j.issn.1002-137X.2019.08.007

摘要（603）

PDF（pc）（3747KB）（1126）

社交媒体中,用户所发布的推文内容记录了与用户相关的各种信息。文字信息中涵盖了推文中包含的各种话题,以及时间和空间信息,从这些信息中分析出话题的时空演变情况具有十分重要的研究意义。针对推文数据,设计了一套可视分析流程来挖掘推文信息,通过用户交互的方式多角度地展示了推文话题的时空演变过程。首先,基于部分历史推文数据,通过DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类算法,结合泰森多边形对全球地理空间进行区域划分;然后,针对用户查询搜索的兴趣话题,索引找到所有相关的推文内容,并将信息与聚类中心绑定;最后,通过设计的多个结合时序聚类算法和自适应算法的可视化视图来展示话题的时空演变过程。通过推特官网提供的API抓取存储的推文数据,并进行实验和分析,结果表明:改进的可视化视图自适应布局算法有效地解决了图形遮挡问题,完整展现了推文的时空演变模式;地理区域的划分以及可视化组件能够有效帮助研究人员分析推文的时空演变以及全球关注的热点话题分布。

参考文献 | 相关文章 | 多维度评价

Select

21. 基于主题分析的用户评论聚类方法

张会兵, 钟昊, 胡晓丽

计算机科学 2019, 46 (8): 50-55. DOI: 10.11896/j.issn.1002-137X.2019.08.008

摘要（612）

PDF（pc）（1997KB）（1209）

在社会化商务中对用户评论进行合理的聚类分析有利于商家提供精准服务或推荐信息,文中提出了一种基于主题分析的用户评论聚类方法。根据主题词在用户评论中的互信息强度以及主题词之间的相似度计算主题词权重,并依此构建用户评论主题向量。在此基础上,提出了一种基于用户评论相似度自动选择canopy聚类算法初始阈值的自适应canopy+kmeans聚类算法,对主题向量进行聚类分析。在亚马逊的评论数据上进行测试,结果表明:该方法充分描述了用户评论中不同主题词对用户观点的突出程度不同,并改善了K-means聚类算法易陷入局部最优的缺点,与传统的LDA+K-means算法相比,取得了更好的效果。

参考文献 | 相关文章 | 多维度评价

Select

22. 一种可指定分布的海量数据生成方法

李博嘉, 张仰森, 陈若愚

计算机科学 2019, 46 (8): 56-63. DOI: 10.11896/j.issn.1002-137X.2019.08.009

摘要（585）

PDF（pc）（2253KB）（931）

受到隐私保护等因素的影响,企业和政府数据公开缓慢;同时,由于网络带宽的限制,科研机构下载使用海量公开数据存在困难。现有的数据生成工具很少能在生成数据的分布形态、相关关系、准确性以及系统的可伸缩性等方面同时满足科研工作的要求。针对海量数据生成问题,提出了一种分布式数据生成模型,根据用户配置中指定的数据分布形态及相关关系,利用蓄水池抽样或随机采样算法对Web信息知识库进行采样、相关关系计算以及拼接等操作,生成数据属性符合用户配置的数据。通过在Apache Spark分布式计算引擎上进行数据生成实验,结果表明,生成数据符合指定的数据分布及相关关系要求,数据生成速度与数据规模、集群规模呈线性关系,从而证明该方法生成的数据具有较高的准确性和分布多样性,相应的系统具有较好的可伸缩性。

参考文献 | 相关文章 | 多维度评价

Select

23. 基于改进FP growth的告警关联算法

鲁显光, 杜学绘, 王文娟

计算机科学 2019, 46 (8): 64-70. DOI: 10.11896/j.issn.1002-137X.2019.08.010

摘要（749）

PDF（pc）（2158KB）（1056）

入侵检测系统产生的原始告警存在层次较低、相互孤立、没有关联性等不足,使得安全管理人员难以从中发现未知的、高层次的安全威胁,从而无法了解目标网络的整体安全态势。为了利用低级别告警构建攻击场景,通过分析现有的告警关联知识,针对基于数据挖掘的告警关联算法处理稀疏数据时性能较差的不足,提出了一种新的基于数据挖掘的告警关联算法。首先对现有的告警关联算法进行了分析比较;然后阐述了经典的Apriori算法和FP growth算法的机制及优缺点,并基于二维表对FP growth算法进行了改进;最后使用改进算法挖掘告警之间的关联规则,继而进行告警关联。为了验证所提方法的可行性和性能,使用Darpa数据集进行了相关的仿真测试,实验结果表明该方案可以较好地实现告警关联。

参考文献 | 相关文章 | 多维度评价

Select

24. 日志诱导下的形态学片段流程聚类方法

孙书亚, 方欢, 方贤文

计算机科学 2019, 46 (8): 71-77. DOI: 10.11896/j.issn.1002-137X.2019.08.011

摘要（288）

PDF（pc）（1797KB）（710）

在业务流程管理系统中,执行同一目的的任务流可能存在若干事件集的多种不同排列方式,对应在日志上则表现为很多日志存在着诸多变化,同时具有很多业务的共性特征。因此,如何提取日志行为的共性,将多个相似日志的流程进行聚类,实现提取流程簇业务系统的共性,对相似流程的业务融合具有积极意义。文中提出了一种基于日志的流程聚类方法,首先对日志中的低频事件进行过滤,利用日志形态学片段提取公共的高频片段,进而通过形式自动机将提取的公共高频片段转换为相似日志的聚类中心;然后,提出基于形态学片段的业务组合方法产生流程模型共性的频繁执行路径,将相似的等价类形态学片段进行业务组合,得到组合后的Petri网模型,即为流程簇的聚类中心;最后,通过一个实际的案例验证了所提方法的可行性和有效性。

参考文献 | 相关文章 | 多维度评价

Select

25. 项目多属性模糊联合的多样性视频推荐算法

张艳红, 张春光, 周湘贞, 王怡鸥

计算机科学 2019, 46 (8): 78-83. DOI: 10.11896/j.issn.1002-137X.2019.08.012

摘要（447）

PDF（pc）（2235KB）（849）

针对视频协同过滤推荐算法多样性较低的问题,提出了一种基于多属性联合的多样性视频协同过滤推荐算法。根据用户与推荐系统的互动历史记录,判断用户是否满意系统的推荐项目,如果某个用户过去观看同一个主题的视频节目,并且不关心视频的作者,那么认为该用户对视频作者表现出较高的多样性,对视频节目主题表现出的多样性较低。采用信息熵与用户配置信息长度两个指标来评估项目各个属性的多样性,根据两个指标的组合将用户对每个项目属性的多样性分为4个象限,并且对用户多样性进行模糊化处理,以获得用户多样性对于4个象限的隶属度。在第一个阶段预测未评分项目的评分;在第二个阶段将所有项目重新排序,以提高推荐列表的多样性。最终,基于公开的Movielens 1M数据集进行了对比实验,实验结果证明本算法可实现接近top-N算法的准确率性能,同时具有一定的多样性增强效果。在推荐准确率与多样性平衡的应用场景下,设置合适的参数能够在损失较少推荐准确率的前提下,显著提高个体多样性、总体多样性与新颖性。

参考文献 | 相关文章 | 多维度评价

Select

26. 大数据分析技术在网络领域中的研究综述

冯贵兰, 李正楠, 周文刚

计算机科学 2019, 46 (6): 1-20. DOI: 10.11896/j.issn.1002-137X.2019.06.001

摘要（991）

PDF（pc）（3288KB）（3216）

随着移动互联网、物联网、5G通信网等新兴技术的迅猛发展,数以亿计的网络接入点、联网设备以及网络应用产生的海量数据,给网络故障排查、网络安全保障等带来了极大的挑战,同时也为人们深度挖掘和充分利用网络大数据的巨大价值带来了机遇。大数据分析可以处理海量数据,并从中抽取有价值的潜在知识,帮助决策者发现隐藏的关系和模式,近年来引起了学术界和工业界的广泛关注。文中围绕大数据分析技术应用于网络领域的最新研究成果,首先阐述了网络大数据的概念、分类和数据分析方法;然后从无线网络、SDN网络、光纤网络和网络安全4个层面着重介绍了大数据分析技术在故障检测、流量监控、网络优化、流量预测、APT攻击检测、网络异常检测等网络领域中的解决方案,重点分析和归纳了这些解决方案中大数据分析技术的思路;接着回顾了大数据分析技术在工业界中应用的情况;在此基础上,给出了基于大数据分析的网络设计周期;最后总结了大数据分析技术在网络领域中面临的机遇和挑战,并指出下一步需要关注的研究方向。

参考文献 | 相关文章 | 多维度评价

Select

27. DNA数据存储技术研究进展

张淑芳, 彭康, 宋香明, 张子昱, 王汉杰

计算机科学 2019, 46 (6): 21-28. DOI: 10.11896/j.issn.1002-137X.2019.06.002

摘要（828）

PDF（pc）（2474KB）（2720）

随着计算机技术和网络技术的飞速发展,由此产生的海量数据给传统数据存储方式带来了巨大挑战,因此研究人员开始致力于寻找新一代存储方案。脱氧核糖核酸(Deoxyribonucleic Acid,DNA)作为天然的遗传信息存储介质,具有存储容量大、能耗低和寿命长等优点,有效克服了传统硬盘和计算机存储等方式的不足,故DNA数据存储技术成为信息技术和生物技术交叉领域的研究热点。文中综述了DNA数据存储技术的研究进展,首先对DNA及其存储的理论框架进行了介绍;然后详细阐述了DNA数据存储中的编码技术:二进制数据的压缩编码算法、纠错算法以及二进制数据到DNA 4种碱基的转换方法;最后对现阶段已有的DNA存储方案进行了分析,并对DNA数据存储研究存在的挑战进行了讨论。

参考文献 | 相关文章 | 多维度评价

Select

28. 基于句法分析与词向量的领域新词发现方法

赵志滨, 石玉鑫, 李斌阳

计算机科学 2019, 46 (6): 29-34. DOI: 10.11896/j.issn.1002-137X.2019.06.003

摘要（692）

PDF（pc）（1315KB）（1381）

很多已经存在的词汇和词组可能会被运用于它们之前从未被运用过的领域文本中,这样的词汇或词组被称为领域新词。领域新词的发现可以为该领域的研究人员提供最新的领域发展动态,帮助其分析该领域的最新舆情,因此具有非常重要的意义。针对领域新词发现这一问题,文中提出了一种基于依存句法分析与词向量的领域新词发现方法。首先,提出了句法词典的概念,并基于依存句法分析,结合TF-IDF值的计算,提出了构建领域句法词典的方法;然后,使用领域句法词典,结合词向量技术,完成了领域新词发现方法的设计;最后,使用来自于护肤品论坛的真实文本数据集对所提方法进行了正确性验证。实验结果表明,构建的句法词典的质量较高,所提方法在进行领域新词发现时具有良好的性能。

参考文献 | 相关文章 | 多维度评价

Select

29. 基于压缩感知的时间序列缺失数据预测算法

宋晓祥, 郭艳, 李宁, 王萌

计算机科学 2019, 46 (6): 35-40. DOI: 10.11896/j.issn.1002-137X.2019.06.004

摘要（608）

PDF（pc）（3194KB）（1673）

数据缺失在时间序列采集过程中频繁发生,已经严重阻碍了精确的数据分析。然而,现有的缺失数据预测算法多是从采集到的数据中发现某种规律,从而预测缺失的数据,并不适用于缺失数据较多的情况。基于此,提出了一种基于压缩感知的缺失数据预测算法。首先,该算法利用时间序列的时域平滑特性设计稀疏表示基,从而将缺失数据预测问题转化成稀疏向量恢复问题。其次,根据未缺失数据的位置特点设计了与稀疏表示基相关性低的观测矩阵,从而保证了算法的重构性能。仿真结果表明,即使数据缺失率高达90%,所提方法依然可以非常有效地预测出缺失数据。

参考文献 | 相关文章 | 多维度评价

Select

30. 融合node2vec和深度神经网络的隐式反馈推荐模型

何瑾琳, 刘学军, 徐新艳, 毛宇佳

计算机科学 2019, 46 (6): 41-48. DOI: 10.11896/j.issn.1002-137X.2019.06.005

摘要（711）

PDF（pc）（2230KB）（1339）

利用隐式反馈信息实现个性化推荐是实用且具有挑战性的研究课题。对如何有效结合辅助信息来解决数据稀疏问题从而实现高效推荐的问题进行了研究,提出了一种融合node2vec和深度神经网络的隐式反馈推荐模型。该模型采用一种嵌入元数据的深度神经网络框架(Deep Neural Network Framework with Embedded Meta-data,Meta-DNN),首先将用户和项目的one-hot向量进行低维映射,再嵌入元数据信息,并结合node2vec的二阶随机游走方法学习网络中的邻居节点,使得相邻节点具有相似的节点表示,同时通过增强相邻用户和项目的平滑度来缓解数据稀疏性;最后使用深度神经网络进一步学习用户对项目的偏好,进而为用户产生推荐。其中,还引入了流行度参数对未知项目进行非平均抽样,优化隐式反馈负采样策略。在Gowalla和MovieLens-1M两个数据集上的实验表明,所提方法可以明显提高系统的预测性能和推荐质量。

参考文献 | 相关文章 | 多维度评价