栏目文章

Select

1. 基于有重叠社区划分的社会网络影响最大化方法研究

胡庆成, 张勇, 邢春晓

计算机科学 2018, 45 (6): 32-35. DOI: 10.11896/j.issn.1002-137X.2018.06.005

摘要（438）

PDF（pc）（2992KB）（920）

社会网络中影响最大化问题是指在特定传播模型下,对于给定的值,寻找具有最大影响范围的节点集,这是一个组合优化问题,Kempe等人已经证明该问题是NP-hard问题,其研究在理论和现实应用中都具有重大意义。文中提出一种新的影响最大化算法——有重叠社区划分的影响最大化算法(K-clique Heuristic算法),该算法的思路是在现实社会网络中跨越多个社交圈子的节点的传播领域越广,其交叉性更强、传播范围更广、影响力更大。所提算法与已有典型算法有相近的运行结果,且有更好的现实应用性和可解释性,为这项具有挑战性的研究提供了新的思路和方法。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于差分隐私的多源数据关联规则挖掘方法

崔一辉, 宋伟, 彭智勇, 杨先娣

计算机科学 2018, 45 (6): 36-40. DOI: 10.11896/j.issn.1002-137X.2018.06.006

摘要（454）

PDF（pc）（1691KB）（963）

随着大数据时代的到来,挖掘大数据的潜在价值越来越受到学术界和工业界的关注。但与此同时,由于互联网安全事件频发,用户越来越多地关注个人隐私数据的泄露问题,用户数据的安全问题成为阻碍大数据分析的首要问题之一。关于用户数据的安全性问题,现有研究更多地关注访问控制、密文检索和结果验证,虽然可以保证用户数据本身的安全性,但是无法挖掘出所保护数据的潜在价值。如何既能保护用户的数据安全又能挖掘数据的潜在价值,是亟需解决的关键问题之一。文中提出了一种基于差分隐私保护的关联规则挖掘方法,数据拥有者使用拉普拉斯机制和指数机制在数据发布的过程中对用户数据进行保护,数据分析者在差分隐私的FP-tree上进行关联规则挖掘。其中的安全性假设是:攻击者即使掌握了除攻击目标以外的所有元组数据信息的背景知识,仍旧无法获得攻击目标的信息,因此具有极高的安全性。所提方法是兼顾安全性、性能和准确性,以牺牲部分精确率为代价,大幅增加了用户数据的安全性和处理性能。实验结果表明,所提方法的精确性损失在可接受的范围内,性能优于已有算法的性能。

参考文献 | 相关文章 | 多维度评价

Select

3. 一种融合节点属性信息的社会网络链接预测方法

张昱, 高克宁, 于戈

计算机科学 2018, 45 (6): 41-45. DOI: 10.11896/j.issn.1002-137X.2018.06.007

摘要（547）

PDF（pc）（1764KB）（760）

随着大规模社会网络的发展,链接预测成为了一个重要的研究课题。研究了在社会网络中融合节点属性信息进行链接预测,在传统的社会-属性网络图模型的基础上,将节点属性的类别这一重要参量加入到网络构建中。基于此,提出了一系列为网络中不同类型的连边分配边权重的方法,最后通过随机游走的方法进行网络链接的预测。实验表明,所提链接预测方法相比同类方法有明显的效果提升。

参考文献 | 相关文章 | 多维度评价

Select

4. 地点网络中的社区发现

郑香平, 於志勇, 温广槟

计算机科学 2018, 45 (6): 46-50. DOI: 10.11896/j.issn.1002-137X.2018.06.008

摘要（368）

PDF（pc）（1363KB）（867）

地点网络可从一些独特的视角来刻画城市的空间结构。通过研究城市地点网络的特点及其与传统社交网络的区别,提出了基于地点网络的社区发现算法。该算法综合考虑地点临近性、地点间的连接和用户出行行为的相似性,先进行初始社区的划分,再反复迭代计算各地点隶属于本社区的程度,对隶属度较低的地点进行调整直到收敛,从而发现有意义的城市社区。通过分析社区内部地点的属性和关联,验证了算法的有效性。

参考文献 | 相关文章 | 多维度评价

Select

5. 一种面向密文基因数据的子序列外包查询方法

王占兵, 宋伟, 彭智勇, 杨先娣, 崔一辉, 申远

计算机科学 2018, 45 (6): 51-56. DOI: 10.11896/j.issn.1002-137X.2018.06.009

摘要（538）

PDF（pc）（1713KB）（652）

精准医疗是一种强烈依赖病人基因组分析结果的医疗模式,而子串检索是执行基因组分析的重要方法。近年来,基因数据的数据量急剧增长,其存储代价和处理复杂度已远超医疗方可承受的范围。于是,利用云服务提供商廉价的存储设备和强大的计算能力,将基因数据托管至云服务提供商成为切实可行的解决方案。考虑到云服务提供商并不完全可信,在数据上传至云端之前执行数据加密是保证数据安全性和隐私性的有效方法。然而,如何基于加密数据执行序列检索成为亟待解决的问题。针对这一问题,对基因数据处理和密文检索领域进行调研,提出采用q-gram技术对序列数据的定长窗口创建前缀签名的方案,并在执行查询时在每个窗口中完成前缀查询的解决方案。在子序列查询过程中,云端并不能获取用户数据明文。最后通过实验验证了所提方案具有较好的性能和存储开销,例如当窗口大小为100且q取6时,对100000长序列串执行构建索引耗时15.06 s。与GPSE相比,所提方法的性能更优。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于非对称多值特征杰卡德系数的高维语义向量差异性度量方法

冯艳红, 于红, 孙庚, 彭松

计算机科学 2018, 45 (6): 57-66. DOI: 10.11896/j.issn.1002-137X.2018.06.010

摘要（339）

PDF（pc）（2336KB）（763）

语义向量差异性度量是采用深度学习方法解决自然语言处理领域问题的重要基础。在高维语义向量差异性度量中存在“度量集中”问题,导致通过传统的度量方法得到的度量结果无法体现语义向量间的差异性。针对该问题,提出一种基于非对称多值特征杰卡德系数的差异性度量方法。由高维语义向量维度值的统计分布得出,部分维度的维度值密集地分布在特定值域内,导致其无法贡献差异度,因此不同维度对差异性的贡献量不同,具有非对称性。该方法定义了关于维度值的重要性函数,选取重要性函数值满足阈值的维度参与差异度计算,去掉无法贡献差异度的维度,从而实现了降维,缓解了“度量集中”问题。分别在渔业数据集和公开数据集上,对不同维度的语义向量的不同度量方法进行了比较,结果表明在语义性没有明显变差的情况下,所提方法的多样性指标较目前最优的度量方法有大幅提高。

参考文献 | 相关文章 | 多维度评价

Select

7. 一种面向异构大数据计算框架的监控及调度服务

胡雅鹏, 丁维龙, 王桂玲

计算机科学 2018, 45 (6): 67-71. DOI: 10.11896/j.issn.1002-137X.2018.06.011

摘要（305）

PDF（pc）（3417KB）（835）

各种类型的大数据计算框架存在各自专用的管理方法。传统的监控和调度服务在异构环境下的操作由于无法获取集群整体的运行状态而受到限制,且无法综合多粒度的运行时资源状态来调度不同的计算作业。这不仅浪费了集群的可用资源,而且增加了计算作业的等待时间。针对上述两个问题,提出了一种面向异构大数据计算框架的一体化监控及动态调度管理服务。该服务可以自动适应并监控多种类型的大数据计算框架及计算作业,并对多类型作业提供一体化调度。针对Hadoop和Storm两种计算框架,实现了原型系统并进行了实验。实验结果表明,所提服务在异构环境下的大数据计算框架中能降低人工操作的复杂度,并且能提高作业的调度效率。

参考文献 | 相关文章 | 多维度评价

Select

8. 基于多属性最优化的海洋监测数据副本布局策略

黄冬梅, 杜艳玲, 贺琪, 随宏运, 李瑶

计算机科学 2018, 45 (6): 72-75. DOI: 10.11896/j.issn.1002-137X.2018.06.012

摘要（315）

PDF（pc）（1396KB）（647）

数据的完整性和可靠性是保证其能被高效访问的关键,尤其是在云存储环境中,数据副本策略是影响系统性能和保障数据可用性的核心。从数据副本布局的角度,提出了基于多属性最优化的数据副本布局策略(Data Replica Layout Strategy based on Multiple Attribute Optimization,MAO-DRLS)。该策略根据数据的访问热度和存储节点的关键属性特点,为每个数据设置动态的副本数,并选择合适的节点对副本进行布局。实验表明,MAO-DRLS策略能够有效地提升数据副本的利用率,缩短系统的响应时间。

参考文献 | 相关文章 | 多维度评价