栏目文章

Select

1. 基于ISE算法的分布式ETL任务调度策略研究

王卓昊, 杨冬菊, 徐晨阳

计算机科学 2019, 46 (12): 1-7. DOI: 10.11896/jsjkx.190100023

摘要（671）

PDF（pc）（1988KB）（1394）

随着数据仓库的规模不断扩大,数据集成下的ETL(Extraction-Transformation-Loading)任务也随之增多,单机调度显然已经不能满足当下繁多复杂的ETL任务调度。针对ETL任务调度如何提高效率、缩短关键任务等待时间、提升资源利用率等问题,构建了一套分布式ETL任务调度框架,该框架由调度器和若干执行器组成,通过任务预处理、任务调度分配、任务执行3个阶段来完成ETL任务调度。在任务预处理阶段,对ETL任务建立权重模型,并根据权重确定调度优先级。在任务调度分配阶段,调度器根据各个执行器节点的性能及负载情况来约束执行器节点的选择,并设计贪心平衡(Greedy Balance,GB)算法来进行ETL任务执行请求的分发,使执行器节点的负载相对均衡。在任务执行阶段,通过高响应比优先(Highest Response Ratio Next,HRRN)算法确定执行器节点队列下任务的执行优先级。实验结果表明,分布式ETL任务调度框架及相应的一体化调度执行( Integrated Scheduling Execution,ISE)算法能够有效提高集群资源的利用率,缩短任务调度的执行时间。

参考文献 | 相关文章 | 多维度评价

Select

2. AdaBoostRS:高维不平衡数据学习的集成整合

杨平安, 林亚平, 祝团飞

计算机科学 2019, 46 (12): 8-12. DOI: 10.11896/jsjkx.180901813

摘要（548）

PDF（pc）（1341KB）（1274）

机器学习中类不平衡分布问题包含了不同类之间数据样本的偏差分布,导致学习过程更偏向于多数类。而高维数据的稀疏性使得分类的偏差更加明显,因此对于高维不平衡数据,维度灾难与类不平衡分布这两个挑战性问题相互叠加在一起,使得解决高维不平衡问题变得更为困难。针对这一问题,文中提出结合随机子空间和SMOTE过采样技术的AdaBoost集成方法(AdaBoost ensemble of Random subspace and SMOTE,AdaBoostRS)来处理高维不平衡数据的分类。具体地,AdaBoostRS通过随机子空间选取部分特征来训练每个分类器,以增加分类样本的多样性和降低高维数据的维度,然后通过SMOTE方法对降维数据的少数类进行线性插值,以解决类不平衡问题。基于8个高维不平衡的标准时间序列数据集进行实验,结果表明,以F-measure、G-mean与AUC 3个性能指标来进行评判,AdaBoostRS优于传统的集成学习方法。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于列存储的大数据采样查询处理

齐文, 鲍玉斌, 宋杰

计算机科学 2019, 46 (12): 13-19. DOI: 10.11896/jsjkx.190500155

摘要（505）

PDF（pc）（2881KB）（1143）

大数据时代的到来给传统的数据查询带来了性能挑战,即使查询算法有着O(n)的线性复杂度,但当n极大时其时间开销也难以满足用户需求。在很多实际应用中,人们并不需要精确的查询结果,但要求在给定时间内完成查询,因此可适当牺牲查询精度以满足性能约束。采样查询通过约简查询范围来提高查询性能,现有的采样方法多针对特定的算法和特定的应用场景,缺乏大数据环境下一般性的采样查询方法以及保证性能和精度的研究。文中研究大数据环境下列存储的采样查询处理,从数据划分和数据采样两方面改进大数据的查询效率。提出了基于加速比和势分布的采样方法,其支持各类采样算法,实现了分布式环境下采样查询的随机性保证、性能保证和近似性评价,并兼容了精确查询。该方法可以快速应用到已有大量数据的列存储中,具备良好的扩展性和可维护性。以Top-K为查询用例的实验结果证明,在不同数据量、不同数据分布和不同采样算法下,实际采样率与给定采样率的误差低于2%,查询准确度 (Accuracy) 稳定,方差在0.10和0.12之间,因此提出的基于段势的数据划分的采样效率高于平均划分和线性划分。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于节点连接模式相关性的链接预测方法

单娜, 李龙杰, 刘昱阳, 陈晓云

计算机科学 2019, 46 (12): 20-25. DOI: 10.11896/jsjkx.190700057

摘要（461）

PDF（pc）（3147KB）（935）

作为复杂网络分析中的一个研究热点,链接预测在许多领域中都有重要的应用价值,得到了广泛的关注。使用网络中的已知结构信息来计算未连接的节点对之间的相似性,进而评估其存在链接的可能性是目前最常用的方法。不同网络具有不同的结构特征,节点之间的特征对链接的形成具有重要影响。为了提高链接预测的性能,文中定义了节点的连接模式,并基于节点连接模式的相关性(Correlation of Nodes’ Connecting Patterns,CNCP)设计了一个新的链接预测模型。该模型将CNCP与基本相似性指标相结合,通过综合节点的相似性与节点连接模式的相关性进行链接预测。文中将CNCP与CN(Common Neighbors),RA(Resource Allocation),AA(Adamic-Adar)及PA(Preferential Attachment)4个相似性指标相结合,提出了CNCP-CN,CNCP-RA,CNCP-AA和CNCP-PA 4个新的链接预测指标。在6个真实数据集上的实验结果表明,所提方法在AUC和Precision 2个评价标准上的性能优于对比方法。

参考文献 | 相关文章 | 多维度评价

Select

5. 基于密度约束的对比模式挖掘

柴欣, 高一寒, 武优西, 刘靖宇

计算机科学 2019, 46 (12): 26-30. DOI: 10.11896/jsjkx.181202289

摘要（521）

PDF（pc）（1925KB）（707）

序列模式挖掘是从序列数据中发现用户感兴趣的模式。对比模式挖掘是其中的一类挖掘方法,其特点是在两类或多类别的序列库中找到特征信息,在实际的生活和生产中应用十分广泛。随着数据规模的不断增加,算法的挖掘效率显得尤为重要,但是当前对比模式挖掘仍存在挖掘速度太慢的问题。为了快速挖掘满足密度约束和间隙约束的对比模式,文中提出了一种近似求解算法ADMD(Approximately Distinguishing Patterns Mining Based on Density Constraint),该算法在模式的挖掘过程中允许存在小部分的模式丢失,从而换取挖掘速度的大幅提升。该算法采用网树的特殊结构来计算模式的支持数;采用模式拼接的方式来生成候选模式;采用预判式剪枝策略对模式进行剪枝,以避免大量冗余模式的生成。但由于在剪枝过程中可能会剪掉一部分非冗余模式,造成挖掘结果并非完备,因此该算法是一种近似求解算法。在ADMD算法的基础上,通过在剪枝策略中设定参数k的方式来得到ADMD-k算法,该算法可以通过设定k的取值来调整剪枝程度,从而在挖掘效率和准确率方面取得平衡。最后在真实的蛋白质数据集上将所提算法与其他算法从挖掘的对比模式数量和挖掘速度方面进行对比实验。实验结果表明,在k=1.5的情况下,所提算法仅用不到原来13%的时间,就可以挖掘到99%以上的模式,具有近似度高、速度快的特点。

参考文献 | 相关文章 | 多维度评价

Select

6. HMRF半监督近似核k-means算法

贾洪杰, 王良君, 宋和平

计算机科学 2019, 46 (12): 31-37. DOI: 10.11896/jsjkx.190600159

摘要（478）

PDF（pc）（1258KB）（707）

信息技术的发展催生了海量数据。聚类有助于发现数据的内在联系,从中挖掘有价值的信息。在对数据进行分析时,容易获得一些关于数据的背景知识,使用这些有限的先验信息指导聚类,可以显著改善聚类的结果。基于隐马尔可夫随机场(Hidden Markov Random Fields,HMRF)的半监督聚类使用成对约束作为监督信息,虽然在很多应用场景中有较好的聚类效果,但是其时间和空间复杂度很高,无法满足大规模数据处理的需要。针对该问题,文中首先分析了HMRF半监督聚类与核k-means的数学联系,使用矩阵的迹将两者的目标函数统一起来;然后,为了降低HMRF半监督聚类的复杂度,提出HMRF半监督近似核k-means算法(HMRF semi-supervised Approximate Kernel K-Means,HMRF-AKKM),通过采样构造近似核矩阵,使用近似核k-means优化聚类的目标函数;最后,在基准数据集上将HMRF-AKKM算法与相关的聚类算法进行对比,分析不同算法在实验中的聚类表现。实验结果表明,在相同的聚类任务上,HMRF-AKKM算法与原始的HMRF半监督聚类具有类似的聚类质量,但是HMRF-AKKM算法的聚类时间更短,说明HMRF-AKKM算法继承了HMRF半监督聚类与近似核k-means的优点。该算法一方面可以充分利用成对约束信息改善聚类质量,另一方面通过采样和矩阵近似提高了聚类效率,而且聚类质量和聚类效率可以通过调节采样比例和成对约束数量来平衡。因此,所提出的HMRF-AKKM算法具有良好的可扩展性,适合处理大规模非线性数据的聚类问题。

参考文献 | 相关文章 | 多维度评价

Select

7. 一种基于Q-sample的局部相似连接并行算法

王晓霞, 孙德才

计算机科学 2019, 46 (12): 38-44. DOI: 10.11896/jsjkx.190100240

摘要（385）

PDF（pc）（1890KB）（727）

局部相似连接能快速找出数据集间的局部相似记录对,是基因序列比对、剽窃检测和数据清洗等研究领域的基本操作。文中主要研究基于MapReduce框架的并行相似连接技术,提出了一种基于Q-sample的局部相似连接算法,解决了局部相似连接的定位问题。该算法采用了过滤验证二阶段模式:在过滤阶段,所提算法使用Q-sample分割方案拆分字符串集,在不丢失任何匹配的基础上生成了高质量的子串,抛弃了大量的无关字符串对;在验证阶段,所提算法优化了LS-Join算法的双向扩展验证方法,通过去除冗余匹配、合并连续匹配和合并非连续匹配等技术提高了算法的验证效率。通过实验对比了不同数据集和编辑距离参数下算法的性能表现,结果显示所提算法在大数据集上的局部相似连接速度快于当前的优秀算法LS-Join。理论分析和实验结果证明,所提算法的相关技术提高了局部相似的连接性能。

参考文献 | 相关文章 | 多维度评价

Select

8. 带偏置的信号传播的随机游走的社团检测算法

尹欣红, 赵世燕, 陈晓云

计算机科学 2019, 46 (12): 45-55. DOI: 10.11896/jsjkx.190700051

摘要（479）

PDF（pc）（4377KB）（941）

复杂网络是从大量现实存在的复杂系统中抽象得到的,网络的整体功能体现在网络中节点间的相互作用上,社团结构是其关键性结构特征。社团对应于系统的功能模块,提取网络的功能模块有助于深层探究复杂网络的内部规律,从复杂网络中检测社团结构具有重要的理论研究意义和实用价值。因此,很多研究者对社团检测进行了研究,进而提出了很多社团检测算法,如基于模块度优化的社团检测算法、基于标签传播的社团检测算法、基于随机游走的社团检测算法等。在对这些算法进行充分研究的基础上,通过模拟随机游走的过程,结合信号传播过程中随着传播距离的增大,信号量会缓慢衰减的思想,提出了一种带偏置的信号传播机制的随机游走的社团检测算法。该算法从网络中选取一个节点作为信号源,随机选择与其相邻的节点作为下一跳节点,将衰减后的信号量传递到该节点,依次迭代并传递信号。考虑到信号的衰减,为每条边设置偏置,对信号传播过程进行限定。通过模拟信号的传播,将网络的每个顶点作为信号源来重复这一过程,得到传播矩阵。然后,为每个顶点添加自环,并结合邻接矩阵以及顶点间的相似性,形成具有新属性的相似性矩阵。根据新属性矩阵和传播矩阵为每个顶点构造属性。最后,使用k-means算法进行聚类,得到高质量的社团结构。为了验证该方法的性能,在10个实际网络数据集以及不同规模的人工合成网络上进行实验。实验结果充分证明,所提算法能够从网络中提取出高质量的社团结构,从而有效地为社团检测领域提供依据。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于多关系社交网络的协同过滤推荐算法

宾晟, 孙更新

计算机科学 2019, 46 (12): 56-62. DOI: 10.11896/jsjkx.181102189

摘要（414）

PDF（pc）（1743KB）（1744）

推荐系统是大数据中最常见的应用之一,传统的协同过滤推荐算法直接基于用户-项目评分矩阵,对于海量的用户和商品数据,算法的执行效率将会显著降低。针对这一问题,提出了一种基于多关系社交网络的协同过滤推荐算法。该算法利用信息传播方法对基于多子网复合复杂网络模型构建的多关系社交网络进行社团结构划分,从而将相似度接近的用户划分到一个社团中,进而在社团内部选择用户的k-近邻集合来构建用户-项目评分矩阵,然后利用协同过滤算法进行推荐,从而实现了在不降低推荐准确率的前提下提升推荐算法的执行效率。在真实数据集Epi-nions上,将所提算法与传统的协同过滤推荐算法进行对比。实验结果表明,所提算法具有较高的推荐效率和准确率,特别是对于海量数据,推荐算法的执行时间缩短到原有的1／10。

参考文献 | 相关文章 | 多维度评价

Select

10. 基于社区发现的兴趣点推荐

龚卫华, 沈松

计算机科学 2019, 46 (12): 63-68. DOI: 10.11896/jsjkx.190400440

摘要（429）

PDF（pc）（2002KB）（1133）

近年来,LBSN(Location-based Social Networks)作为一种典型的异质信息网络越来越受到大众的关注。针对LBSN中用户签到信息十分稀疏的情况,文中提出了一种基于社区发现的兴趣点推荐算法CBR(Community-Based Recommendation)。该算法首先在社交媒体层上计算目标用户与聚类后的兴趣主题簇的相似度;其次通过兴趣主题簇与地理位置簇之间的关联矩阵R计算用户在地理位置簇上的隶属度;然后进一步融合用户的社交关系,从而得到用户对各个兴趣点的偏好分数;最后按照兴趣点的分数进行排序,以实现Top-k推荐。实验结果表明,该算法可以明显提高兴趣点的推荐质量。

参考文献 | 相关文章 | 多维度评价

Select

11. 基于非负矩阵分解的短文本特征扩展与分类

黄梦婷, 张灵, 姜文超

计算机科学 2019, 46 (12): 69-73. DOI: 10.11896/jsjkx.190400107

摘要（493）

PDF（pc）（1474KB）（684）

针对短文本特征稀疏的问题,提出了一种基于非负矩阵分解的特征扩展方法(NMFFE)。该方法只考虑数据自身,不借助外部资源进行短文本的特征扩展。首先,把文本及单词的内部关系考虑到文本和单词的关系矩阵分解中,通过双正则化非负矩阵三分解(DNMTF)方法获取词聚类指示矩阵;然后,对词聚类指示矩阵进行降维处理以获取特征空间;最后,根据单词之间的相关程度,从特征空间中选取特征并将其加入短文本中,从而解决短文本特征稀疏的问题,提高文本分类的准确率。实验数据表明,与BOW算法和Char-CNN算法中表现较优者相比,基于NMFFE算法的短文本分类的准确率分别在Web snippets,Twitter sports和AGnews 数据集上提高了25.77%,10.89%和1.79%,这充分说明在分类准确率和算法鲁棒性方面,NMFFE算法优于BOW算法和Char-CNN算法。

参考文献 | 相关文章 | 多维度评价

Select

12. 基于欧拉核的数据流聚类算法

朱颖雯, 杨君

计算机科学 2019, 46 (12): 74-82. DOI: 10.11896/jsjkx.190600158

摘要（345）

PDF（pc）（2822KB）（963）

随着云计算、物联网的快速发展,数据采集变得更加快捷和自动化。许多新型的应用领域中,诸如实时监控系统、车辆交通监控系统、电力消耗记录以及网络流量监控等,每时每刻都在产生大量的流数据,对数据流挖掘的研究成为了热点问题。聚类分析作为数据流挖掘领域的一个重要问题,在近期被高度重视并得到广泛研究。不同于传统的静态数据聚类问题,数据流聚类受到有限内存、一遍扫描、实时响应和概念漂移等许多约束。为此,文中基于欧拉核提出了一种针对数据流的聚类算法。首先通过欧拉核显式地将数据映射到相同维度的复数特征空间,然后在特征空间中基于GNG模型进行聚类。欧拉核依赖于非线性鲁棒的cosine度量,故对野值低敏感;显式的映射避免了一般的核聚类算法需要使用核技巧而无法处理数据流的问题。实验数据表明,基于欧拉核的数据流聚类算法不仅表现出了较好的聚类性能,还识别了数据的结构信息。

参考文献 | 相关文章 | 多维度评价

Select

13. 一种基于样本分层的双向过采样方法

周晓敏, 曹付元, 余丽琴

计算机科学 2019, 46 (12): 83-88. DOI: 10.11896/jsjkx.190400053

摘要（465）

PDF（pc）（1618KB）（717）

重采样技术由于简单、直观,逐渐成为解决非平衡数据分类问题的一个重要方向。但是在数据集很小的情况下,重采样技术中的欠采样可能会丢失数据集的重要信息,因此过采样是非平衡数据分类问题的研究重点。现有的过采样方法虽然有效地解决了类间不平衡问题,但是有可能造成少数类的密集区域更加密集,甚至引起样本重叠。此外,由于少数类样本可能存在噪音,现有的过采样方法可能会在噪音周围生成新样本,从而造成少数类样本的分布更加混乱。针对这些问题,文中提出了一种基于样本分层的双向过采样方法,该方法首先基于最高密度点和类内平均距离将少数类样本划分成密集层和稀疏层,然后对密集层边界区样本和稀疏层的样本进行双向过采样。为了验证所提算法的有效性,在9个UCI数据集上将提出的算法和其他过采样算法进行了比较。实验结果和Friedman等检验结果显示,提出的算法在处理非平衡数据分类问题时具有一定优势。

参考文献 | 相关文章 | 多维度评价

Select

14. 基于张量分解的域适应算法

徐书艳, 韩立新, 徐国夏

计算机科学 2019, 46 (12): 89-94. DOI: 10.11896/jsjkx.190300095

摘要（504）

PDF（pc）（1610KB）（1147）

由于训练数据易过期,在多数情况下训练数据和测试数据具有不同的特征分布,因此在利用源域信息时,须先尽量减小不同领域的特征分布的差异。使用张量表示特征可以维持高维空间数据的本征结构信息。朴素张量子空间学习法虽然是面向张量特征的域适应方法,但其复杂度较高,且没有达到较好的知识迁移效果。为此,文中提出了基于张量分解的域适应算法,即张量列子空间学习法和张量环子空间学习法,二者的主要思想相似。首先,使用张量表示源域和目标域的特征;其次利用张量分解方法,将特征分解为一系列三阶张量来表示子空间;然后,依次将源域特征和目标域特征映射到子空间中;最后,将特征张量重塑为矩阵形式,基于映射后的源域特征训练模型,基于映射后的目标域特征完成新领域的任务。实验结果表明,在无监督图像分类中,张量列子空间学习法和张量环子空间学习法在准确率和运行时间方面都有所提升。相比于朴素张量子空间学习法,张量列子空间学习法和张量环子空间学习法的准确率分别提高了1.68%和2.08%,且运行时间也有明显减少,算法复杂度较小。实验数据充分说明,基于张量分解的域适应算法充分减小了源域特征和目标域特征之间的差异,实现了不同领域间的知识复用。

参考文献 | 相关文章 | 多维度评价

Select

15. 动态数据流分析的在线超限学习算法综述

郭威, 于建江, 汤克明, 徐涛

计算机科学 2019, 46 (4): 1-7. DOI: 10.11896/j.issn.1002-137X.2019.04.001

摘要（678）

PDF（pc）（1311KB）（1359）

动态数据流分析是一个具有广泛应用价值的研究课题,在线学习方法是其中的一种关键技术。在众多在线学习方法中,在线贯序超限学习机(Online Sequential Extreme Learning Machine,OSELM)是一种新颖且实用的在线学习算法,目前已在动态数据流分析中得到了成功应用。首先,介绍了OSELM的理论基础和算法执行过程;然后,以动态数据流分析为应用背景,对各种改进OSELM算法进行了分类综述,包括基于滑动窗口的OSELM、基于遗忘因子的OSELM、基于样本加权的OSELM以及其他方法,重点论述了各类算法的设计思路和实现策略,并对其优缺点进行了比较和分析;最后,探讨了值得进一步研究的问题。

参考文献 | 相关文章 | 多维度评价

Select

16. 基于概率推断的质量控制智能体

徐耀丽, 李战怀

计算机科学 2019, 46 (4): 8-13. DOI: 10.11896/j.issn.1002-137X.2019.04.002

摘要（450）

PDF（pc）（1347KB）（834）

实体解析(Entity Resolution,ER)是数据集成和清洗领域的基础问题,而不一致性消歧(Inconsistency Reconciliation,IR)通过对现存的不同ER算法产生的不一致记录对进行消歧,进一步提升解析效果。但是现有的IR方法有一个局限,即消歧结果没有质量保障。对此,首次提出了一个基于概率推断的质量控制智能体,记为QCAgent。该智能体不需要训练数据集,能够在满足给定查准率的约束条件下输出查全率最大的消歧结果。它的核心思想是:首先,使用异常点检测模型来估算不一致记录对匹配的概率,并依据这些概率估算查准率和查全率,再将计算出的查准率和查全率作为环境端的反馈;其次,使用二分搜索算法,选择满足查准率要求且查全率最大的翻转方案,作为QCAgent的下一次行动;然后,用更新后的一致结果训练异常点模型,并估算查准率和查全率。按此循环,当新估计的查准率满足约束条件时,该迭代过程停止。在真实的数据集上,实验结果表明:QCAgent能够有效解决消歧结果的质量控制问题。

参考文献 | 相关文章 | 多维度评价

Select

17. 交通事故时空模式可视分析方法

饶永明, 张延孔, 谢文军, 刘璐, 刘新月, 罗月童

计算机科学 2019, 46 (4): 14-21. DOI: 10.11896/j.issn.1002-137X.2019.04.003

摘要（814）

PDF（pc）（4084KB）（2125）

随着城市化进程的推进,城市人口和车辆迅速增长,城市交通事故日益频发,成为社会关注的热点。以合肥市近十年的交通事故记录数据为研究对象,运用可视分析方法分析交通事故记录数据中事故发生的时间和地点信息,探究交通事故的时空模式,构建交通事故可视分析系统,以辅助相关部门改善交通事故频发问题。文中首次提出了道路事故危险度的概念,并以之为判定依据,结合多尺度时间统计折线图和周期性时间统计环形图等可视化方法,构建了一种新的事故多发路段的识别方法。与传统事故多发路段识别方法相比,本方法无需对道路进行分段处理,从而避免了分段优劣对识别结果的影响。在此基础上,将交通事故数据与城市路网数据相结合,运用可视分析技术构建交通事故可视分析系统。本系统可以帮助相关部门了解总体城市交通事故和单条道路的时间模式及事故多发路段,并探究连续时间限定或周期时间限定下的事故多发路段。除时间条件外,本系统还能识别不同天气等其他限定条件下的事故多发路段,从而使得交警部门能根据不同情况下的道路事故危险度来进行决策管理,并合理部署救援警力,降低事故危害。所提系统对缓解和遏制交通事故增长势头、减少和预防道路交通事故具有重要的现实意义,并且也有利于道路交通的科学有效管理。

参考文献 | 相关文章 | 多维度评价

Select

18. 基于层次聚类的不平衡数据加权过采样方法

夏英, 李刘杰, 张旭, 裴海英

计算机科学 2019, 46 (4): 22-27. DOI: 10.11896/j.issn.1002-137X.2019.04.004

摘要（677）

PDF（pc）（1435KB）（1606）

不平衡数据对传统分类算法的性能有一定影响,使得少数类的识别率降低。过采样是处理不平衡数据集的常用方法之一,其主要思想是通过增加少数类样本,使得少数类与多数类的数量能够在一定程度上达到平衡,但现有的过采样方法存在合成重叠样本以及过拟合的问题。文中提出一种基于层次聚类的不平衡数据加权过采样方法WOHC(Weighted Oversampling method based on Hierarchical Clustering)。该方法首先使用层次聚类算法对少数类进行聚类,将少数类样本划分为多个类簇,然后计算出类簇的密度因子来确定各类簇的采样倍率,最后根据每个类簇中样本与多数类边界的距离确定采样权重。利用该方法采样并结合C4.5算法在多个数据集上进行分类实验,结果表明使用该方法能够使分类算法在F-measure和G-mean指标上分别提升7.6%和5.8%,体现了该方法的有效性。

参考文献 | 相关文章 | 多维度评价

Select

19. 面向大规模图数据的分布式子图匹配算法

许文, 宋文爱, 富丽贞, 吕伟

计算机科学 2019, 46 (4): 28-35. DOI: 10.11896/j.issn.1002-137X.2019.04.005

摘要（926）

PDF（pc）（1934KB）（2100）

图数据规模的爆发式增长使在单机上的子图匹配变得较为困难。尽管现有的分布式算法可以在一定程度上解决大规模图数据的子图匹配问题,但分布式环境中的网络通信代价仍然影响着算法的性能。为此,文中提出了DSsearch分布式子图匹配算法,包含查询图拆分、数据图预处理、候选顶点过滤、中间结果合并 4个步骤。其中,在数据图预处理步骤中使用图划分和完善邻居顶点策略来降低匹配过程中分布式计算节点之间的通信代价;在过滤候选顶点阶段设计DSgraph存储结构存储候选顶点,通过推迟笛卡尔积来减少冗余的中间结果。最后设计了对比实验并在具有7个计算节点的Spark分布式集群上使用真实数据集进行验证。实验结果表明,DSsearch算法能够在秒级时间内完成对百万规模顶点的数据图的子图匹配,尤其是在处理复杂查询图和稠密数据图方面更高效。数据图预处理策略的实验结果说明了通过顶点复制来降低分布式环境中网络通信代价这一策略的可行性。相比TwinTwigJoin、PSgL等算法,随着查询图顶点数量的增加,DSsearch算法的运行时间增长得更缓慢,当查询图顶点数量达到14时,其运行时间是TwinTwigJoin和PSgL算法的一半。实验数据充分说明,分布式环境中的网络通信代价和中间结果数量是影响分布式子图匹配算法的主要因素。实现数据图的预处理和推迟笛卡尔积解决了分布式子图匹配的性能瓶颈问题,有效地完成了大规模图数据的子图匹配。

参考文献 | 相关文章 | 多维度评价

Select

20. 面向隐式反馈的标签感知推荐方法

李红梅, 刁兴春, 曹建军, 冯钦, 张磊

计算机科学 2019, 46 (4): 36-43. DOI: 10.11896/j.issn.1002-137X.2019.04.006

摘要（676）

PDF（pc）（2845KB）（982）

为进一步提高面向隐式反馈的标签感知推荐性能,针对隐式反馈数据的稀疏性问题以及标签数据的冗余、语义模糊等问题,提出了一种基于用户细粒度偏好和增量加权矩阵分解的个性化推荐方法。为缓解隐式反馈数据稀疏不平衡的影响,提出使用协同近邻用户关系从大规模未观测数据中挖掘目标用户可能感兴趣的潜在项目,即近邻用户感兴趣但目标用户未选择的项目,进而提出了用户对项目的细粒度偏好假设:观测项目>潜在项目>其他未观测项目,改进传统成对偏好假设的粗糙性。为获取更为可靠的近邻用户,利用基于深度学习的方法来抽取用户-标签的低维、抽象的深层语义特征,缓解了原始标签数据的冗余、语义模糊等对用户表征的影响。最后,基于用户的细粒度偏好提出一种增量加权矩阵分解模型,并进行快速优化求解与推荐。实验结果表明:提出的算法在多个排序推荐准确性的评价指标(Pre@5,NDCG@5,MRR)上分别提升了约9%,8%,9%,验证了所提算法的有效性。

参考文献 | 相关文章 | 多维度评价

Select

21. 基于分布式无共享架构的海量数据并行查询平台

秦东明, 喻剑, 张波, 赵勤

计算机科学 2019, 46 (4): 44-49. DOI: 10.11896/j.issn.1002-137X.2019.04.007

摘要（513）

PDF（pc）（1742KB）（1093）

针对海量数据查询所面对的数据加载和并行查询控制等难题,提出了一种基于分布式无共享架构的海量数据并行查询平台。该平台利用分布式无共享架构为海量数据查询提供结构化与非结构化数据的统一处理,实现平台内数据的聚合计算。平台的核心技术如下:首先提供了多类型数据的跨平台存储与统一数据加载;然后给出了基于负载均衡的多节点数据查询任务流分配技术,生成全局查询执行策略;最后采用Hash和Range两种方式实现查询任务流的并发控制。根据测试验证,本技术在查询时间上相比于无并行方式节约了近40%。实验结果表明,该技术在海量数据查询的正确性、可靠性、并发性上具有较好的性能。

参考文献 | 相关文章 | 多维度评价

Select

22. 基于上下文相似度矩阵的Single-Pass短文本聚类

黄建一, 李建江, 王铮, 方明哲

计算机科学 2019, 46 (4): 50-56. DOI: 10.11896/j.issn.1002-137X.2019.04.008

摘要（575）

PDF（pc）（1701KB）（766）

在线社交网络已经成为人们信息交流的重要渠道和载体,形成了与现实世界交互影响的虚拟社会。众多的网络事件通过社交网络进行快速传播,可以在短时间内成为舆论热点,而负面事件会对国家安全和社会稳定造成冲击,从而引发一系列的社会问题。因此,挖掘社交网络中蕴含的热点信息,无论是从舆论监督方面还是舆情预警方面都具有重要的意义。文本聚类是挖掘热点信息的一种重要方法,然而,使用传统长文本聚类算法处理海量短文本时准确率将变低,复杂度急剧增长,从而导致耗时过长;现有的短文本聚类算法的准确率偏低、耗时过长。文中基于文本关键词,提出了结合上下文和相似度矩阵的关联模型,从而判断当前文本与上一文本的关联性。此外,根据该关联模型对文本关键词权重进行调整,以进一步降低噪声。最后,在Hadoop平台上实现了分布式的短文本聚类算法。与K-MEANS,SP-NN,SP-WC算法的比较实验验证了所提算法在话题挖掘速度、准确率和召回率等方面都具有更好的效果。

参考文献 | 相关文章 | 多维度评价

Select

23. 面向多尺度数据挖掘的数据尺度划分方法

张昉, 赵书良, 武永亮

计算机科学 2019, 46 (4): 57-65. DOI: 10.11896/j.issn.1002-137X.2019.04.009

摘要（586）

PDF（pc）（1515KB）（1052）

多尺度挖掘在图形图像、地理信息、信号分析、数据挖掘等领域已有应用,多尺度数据挖掘在关联规则、聚类、分类挖掘领域也有相关研究与应用,但对如何对数据集进行普适性的多尺度划分以及如何构建多尺度数据集仍未展开研究,已有相关研究缺乏深度。文中从多尺度数据挖掘任务入手,定义了尺度概念,并给出了多尺度化数据集模型,以及基准尺度评分模型;依据概率密度估计的离散化方法提出了多尺度划分算法,扩展了可划分尺度的数据类型,划分结果更贴近数据的多尺度特性,且具有较低的时间复杂度;提出了多尺度化数据集方法、构建多尺度数据集算法和基准尺度选择算法,将多尺度熵与信息熵作为评价方法,在扩充多尺度化数据集方法的基础上,有效减弱了多尺度数据挖掘中因尺度推衍而产生的尺度效应,算法的时间复杂性也较为可控。利用H省真实人口数据集、UCI公用数据集和T10I4D100K数据集对所提算法和模型进行验证与实验分析,结果表明多尺度划分算法和多尺度化数据集方法是可行的,提出的多尺度化数据集方法和基准尺度评分模型是有效的,多尺度划分方法、构建多尺度数据集方法和基准尺度选择方法的应用平均提高了尺度推衍过程中1.6%的覆盖率、2.1%的F1-measure和3.7%的正确率,且具有较低的平均支持度误差。

参考文献 | 相关文章 | 多维度评价

Select

24. 一种用于影像遗传学关联分析的高阶统计量结构化稀疏算法

茹锋, 徐锦, 常琪, 阚丹会

计算机科学 2019, 46 (4): 66-72. DOI: 10.11896/j.issn.1002-137X.2019.04.010

摘要（404）

PDF（pc）（1497KB）（1005）

神经影像技术和分子遗传学的发展产生了大量的影像遗传学数据,极大地促进了复杂精神疾病的研究。但因为该数据的特征维度过高且相关性的度量都是假设数据服从高斯分布,所以传统的算法往往无法很好地解释两类数据之间的依赖关系。为了解决传统算法的问题,文中提出了一种对大量SNP和fMRI数据进行关联分析的方法,该方法通过构建稀疏的特征网络结构来指导fused lasso进行特征选择,与此同时,该方法利用高阶统计量提取出具有统计显著性的变量,从而识别出与精神疾病有关的生物标记物。实验结果表明,在模拟数据中所提算法得到的典型向量值的分布与实际数据中值的分布几乎一致且得到的相关系数与数据集中实际的相关系数最接近,所提算法的平均相关系数最高达到81%,比L1-SCCA提高了约20%,比FL-SCCA提高了约3%;在真实数据中,相比另外两种算法,所提算法可以找出更多的对精神分裂症有潜在影响的基因与脑区。实验结果证明:该算法可以在合理时间内有效识别出风险基因和异常脑区。

参考文献 | 相关文章 | 多维度评价

Select

25. 基于模糊神经网络的异常网络数据挖掘算法

许磊, 王建新

计算机科学 2019, 46 (4): 73-76. DOI: 10.11896/j.issn.1002-137X.2019.04.011

摘要（560）

PDF（pc）（1466KB）（845）

异常网络数据受到聚类中心的模糊加权扰动的影响,导致数据挖掘的聚类性不好。文中提出一种基于模糊神经网络的异常网络数据挖掘算法,该算法根据异常网络数据的混合分类属性进行相似度分析,提取异常网络数据的数值属性特征和分类属性特征,采用联合关联规则分析方法进行异常网络数据的模糊融合处理,采用基于模糊质心相异性的度量方法构建异常网络数据的分类模糊集,并在模糊数据集中进行异常网络数据混合加权和自适应分块匹配,进而提取异常网络数据的弱关联化特征量,最后将提取的特征量输入到模糊神经网络分类器中进行数据分类识别,完成异常网络数据的优化挖掘。仿真结果表明,采用所提方法进行异常网络数据挖掘的数据聚类性较好,挖掘过程的收敛性和抗干扰性较强。

参考文献 | 相关文章 | 多维度评价

Select

26. 基于多信息融合表示学习的关联用户挖掘算法

韩忠明, 郑晨烨, 段大高, 董健

计算机科学 2019, 46 (4): 77-82. DOI: 10.11896/j.issn.1002-137X.2019.04.012

摘要（494）

PDF（pc）（1687KB）（1030）

随着互联网技术的迅速发展和普及,越来越多的用户开始通过社会网络进行各种信息的分享与交流。网络中同一用户可能申请多个不同账号进行信息发布,这些账号构成了网络中的关联用户。准确、有效地挖掘社会网络中的关联用户能够抑制网络中的虚假信息和不法行为,从而保证网络环境的安全性和公平性。现有的关联用户挖掘方法仅考虑了用户属性或用户关系信息,未对网络中含有的多类信息进行有效融合以及综合考虑。此外,大多数方法借鉴其他领域的方法进行研究,如去匿名化问题,这些方法不能准确解决关联用户挖掘问题。为此,文中针对网络关联用户挖掘问题,提出了基于多信息融合表示学习的关联用户挖掘算法(Associated Users Mining Algorithm based on Multi-information fusion Representation Learning,AUMA-MRL)。该算法使用网络表示学习的思想对网络中多种不同维度的信息(如用户属性、网络拓扑结构等)进行学习,并将学习得到的表示进行有效融合,从而得到多信息融合的节点嵌入。这些嵌入可以准确表征网络中的多类信息,基于习得的节点嵌入构造相似性向量,从而对网络中的关联用户进行挖掘。文中基于3个真实网络数据对所提算法进行验证,实验网络数据包括蛋白质网络PPI以及社交网络Flickr和Facebook,使用关联用户挖掘结果的精度和召回率作为性能评价指标对所提算法进行有效性验证。结果表明,与现有经典算法相比,所提算法的召回率平均提高了17.5%,能够对网络中的关联用户进行有效挖掘。

参考文献 | 相关文章 | 多维度评价

Select

27. 供应链金融大数据分布特征的分析与洞见

刘颖

计算机科学 2019, 46 (2): 1-10. DOI: 10.11896/j.issn.1002-137X.2019.02.001

摘要（705）

PDF（pc）（1490KB）（1518）

半结构、非结构化、海量的供应链金融数据使得大数据环境下金融数据分析的模式和方法相对复杂。面向大数据样本研究,如何将大样本相比于小样本的独有特征体现在分类模型中值得深入探索。文中从供应链金融数据分布特征入手,分析影响信用风险分类模型的主要因素;对多年来的相关研究成果进行归类分析,概括信用数据分布特征,包括信用数据非均衡与不对称性、信用数据噪声和离群点的存在以及信用数据的非线性多维特征,并探讨了进一步的解决策略。供应链金融大数据分布特征的分析旨在助力挖掘隐含在海量金融数据背后的知识信息,为信用风险模型的构建奠定了坚实的基础。

参考文献 | 相关文章 | 多维度评价

Select

28. 质量嵌入的大数据产品生产系统超图模型及其生产线决策研究

王旸, 蔡淑琴, 邹新文, 陈梓桐

计算机科学 2019, 46 (2): 11-17. DOI: 10.11896/j.issn.1002-137X.2019.02.002

摘要（661）

PDF（pc）（1444KB）（849）

大数据产品(Big Data Product,BDP)在原材料、用户需求、加工工艺等方面具有不同于实体产品的特征,而现有BDP生产系统的研究仍停留在概念模型阶段。为了解决该问题,提出BDP生产线的概念,基于生产线特征研究了生产线决策要素,强调了质量作为关键决策要素在BDP生产中的作用机理;采用超图理论建立了嵌入质量、质量传递函数和质量聚集函数的BDP生产系统模型,设计了BDP生产线决策流程;提出了供给侧稳定和需求侧稳定的BDP生产线决策模式。实例验证结果表明,所提出的模型和决策方法能够满足用户对BDP质量的要求。

参考文献 | 相关文章 | 多维度评价

Select

29. BioPW+:基于Linked Data的生物途径数据可视化系统

刘源, 王鑫, 甘瀛, 杨朝洲, 李维熙

计算机科学 2019, 46 (2): 18-23. DOI: 10.11896/j.issn.1002-137X.2019.02.003

摘要（530）

PDF（pc）（2035KB）（836）

自Linked Data项目被提出以来,大量的开放关联数据被发布到语义Web上,这其中就包含了许多的生物途径数据集。为了使生物学家能够有效地利用这些开放的数据集,对基于Linked Data的生物途径数据可视化系统进行研究,提出了生物途径可视化模型和展示布局方案,并且采用标识符动态映射实现了多源生物途径数据的浏览,最终开发了基于Linked Data的生物途径数据查询可视化系统——BioPW+。该系统应用语义Web技术,依靠SPARQL查询来定位生物途径的基本信息,然后基于Open PHACTS平台获取生物途径元素的详细信息,最终Web界面采用力导向图布局、Sankey图布局对生物途径数据进行展示并提供多种交互操作。与已有的仅仅基于某一特定数据库的生物途径工具相比,BioPW+系统基于Linked Data,可以同时一次性展示多个数据集中的生物途径数据及与其相关的其他生物化学数据,极大节省了时间并增强了数据的完整性。

参考文献 | 相关文章 | 多维度评价

Select

30. 一种基于混合布局策略的高校教师业绩数据可视化方法

丁维龙, 薛莉莉, 陈婉君, 吴福理

计算机科学 2019, 46 (2): 24-29. DOI: 10.11896/j.issn.1002-137X.2019.02.004

摘要（441）

PDF（pc）（2884KB）（1005）

高校教师的业绩数据对于教师的考核评优、薪资提升、岗位聘任和职称晋升等人事决策具有十分重要的作用。针对其兼具复杂层次特征和多维属性的特点,提出了一种基于圆形嵌套图和平行坐标的VPM(Venn Parallel Coordinates Mixing)混合可视化方法。该方法首先采用基于D3布局算法的圆形嵌套图表示层次结构,而后划分叶子节点的圆周为不同的属性轴,通过布局设计、属性映射、属性点连接及缩放、高亮等用户交互来实现层次结构中多维属性的可视化。将该方法用于教师业绩数据,实现了对学院、研究所、教师各层级结构的可视化,可清晰展示数据项的细节信息。实验结果表明,提出的VPM方法能有效地展示教师的业绩数据,评价结果亦符合实际情况,能帮助系统用户——院校管理者对教师进行更好的管理及业绩考核。

参考文献 | 相关文章 | 多维度评价