栏目文章

Select

1. 紧凑数据结构专题序言

郑嘉琦, 谢鲲, 杨仝, 黄河, 李福亮, 李猛, 戴海鹏

计算机科学 2024, 51 (4): 1-3. DOI: 10.11896/jsjkx.qy20240401

摘要（122）

PDF（pc）（1175KB）（236）

相关文章 | 多维度评价

Select

2. IntervalSketch:面向数据流的间隔项近似统计方法

陈昕杨, 陈翰泽, 周嘉晟, 黄家卿, 余佳硕, 朱龙隆, 张栋

计算机科学 2024, 51 (4): 4-10. DOI: 10.11896/jsjkx.231000226

摘要（177）

PDF（pc）（2197KB）（256）

流式数据库在数据库中的占比逐渐增加,在流式数据库的数据流中提取所需信息是一项重要任务。文中研究了数据流的间隔项,并将其应用到了网络场景中。其中间隔项指在数据流中以固定时间间隔到达的元素对,这是第一项在数据流中定义和统计间隔项的工作。为了高效统计间隔项的top-K,提出了IntervalSketch。IntervalSketch首先基于模拟退火对数据流分块以加快统计速度,其次利用Sketch进行间隔项的存储,最后通过特征分组存储策略降低Sketch存储间隔项的空间开销,提升了统计间隔项的精度。IntervalSketch在两个真实数据集上进行了大量对比实验,实验结果表明,在同样内存的情况下,IntervalSketch明显优于基线方案,其中处理时间为基线方案的1/3～1/2,平均绝对误差、平均相对误差约为基线方案的1/3。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于MapReduce的大规模网络社区发现算法

王瀚橙, 戴海鹏, 陈志鹏, 陈树森, 陈贵海

计算机科学 2024, 51 (4): 11-18. DOI: 10.11896/jsjkx.231100049

摘要（158）

PDF（pc）（2053KB）（305）

社区发现是社会网络挖掘领域的基本问题。随着海量数据的迅速产生,传统社区发现算法愈发难以处理大规模社会网络。因此,针对大规模网络设计高效的社区发现算法意义重大。文中提出了一种基于MapReduce和k中心聚类的新型分布式算法。首先,该算法提出“朋友圈系数”技术,该技术可更加准确地度量结点间的距离。其次,该算法提出“两阶段k中心聚类”技术,该技术在选取中心点过程中融入结点中心度启发式信息,可显著优化输出结果的模块度。最后,该算法提出“以模块度为优化目标的社区融合”技术,该技术能够在无先验知识的前提下自动确定网络中的社区数目。实验结果表明,所提算法的社区发现结果模块度明显优于最先进的社区发现算法。例如,相比LPA算法,其将模块度平均提升9.19倍。

参考文献 | 相关文章 | 多维度评价

Select

4. 数据质量测量框架研究及领域测量框架构建

宋金玉, 陈连勇, 陈刚

计算机科学 2024, 51 (4): 19-27. DOI: 10.11896/jsjkx.230400138

摘要（104）

PDF（pc）（1901KB）（175）

为激活数据质量潜能,构建兼顾信息环境与技术实现的数据质量测量框架,以提升数据挖掘和指挥决策的效用,文中从宏观层面和微观层面对现有的通用型、行业型数据质量测量框架进行梳理、研究,对数据质量维度进行“聚类”,得到数据质量维度类簇,提取了数据质量维度的两类特性,提出面向具体领域的数据质量测量框架构建准则。基于管理领域工作对数据质量的测量需求,结合构建准则构建了面向管理领域的数据质量测量框架,并明确了框架的数据质量维度、测量指标、测量方法等。

参考文献 | 相关文章 | 多维度评价

Select

5. 分布式网络中连续时间周期的全局top-K频繁流测量

毛晨宇, 黄河, 孙玉娥, 杜扬

计算机科学 2024, 51 (4): 28-38. DOI: 10.11896/jsjkx.231000119

摘要（50）

PDF（pc）（4350KB）（92）

在分布式网络中,测量top-K频繁流对资源分配、安全监控等应用至关重要。现有的top-K频繁流测量工作存在不适用于测量分布式网络流量或只考虑单时间周期等局限。为此,提出了分布式网络中连续时间周期的全局top-K频繁流测量方案,在分布节点中布置了紧凑的概率数据结构来记录网络流信息,每个时间周期结束后分布节点向中心节点发送必要信息,中心节点汇聚得到从测量开始至当前时间周期的全局top-K频繁流。考虑到每条流可能出现在一个或多个测量节点,使用了不同的方法来减少传输开销。对于每条流只会出现在单一节点的情况,采用传输分段最小值的方法来获得阈值,实验结果表明这种方法减少了全量传输超过50%的传输开销。对于每条流会出现在多个节点的情况,提出了多阶段无误差处理方法和单阶段快速处理方法,分别应对不能容忍误差的场景和实际高速网络流量,相比每个时间周期都使用已有单周期方法,传输开销的实验表现降低了两个数量级。最后还提出了一种利用历史平均增值信息降低通信延迟的方法,实验结果表明该方法有效降低了限制信息的平均相对误差。

参考文献 | 相关文章 | 多维度评价

Select

6. 一种基于部分数据的多级剪枝Obfs4混淆流量识别方法

徐宸涵, 黄河, 孙玉娥, 杜扬

计算机科学 2024, 51 (4): 39-47. DOI: 10.11896/jsjkx.231000118

摘要（62）

PDF（pc）（2135KB）（100）

Obfs4混淆流量是匿名通信网络Tor的一种承载流量,因其强匿名的特性而被滥用于非法网络活动,因此识别Obfs4混淆流量对预防利用Tor网络进行的网络犯罪具有重要作用。现有识别策略往往侧重于分析Obfs4流量特征,将完整流样本利用机器学习或深度学习技术进行精细化识别,但处于在线流识别的应用场景下时间开销偏高,且识别准确度在Obfs4应用间隔到达时间反检测技术(Inter-arrival Timing,IAT)后有所下降。为此,提出了一种基于部分数据的多级剪枝Obfs4混淆流量识别方法,仅收集每个流最先到达的少量数据包进行多轮快速过滤,并重点针对IAT模式特性设计识别方法,提升了Obfs4流量识别的效率和鲁棒性。该方法将识别过程分为握手阶段和加密通信阶段。在握手阶段,充分挖掘Obfs4握手数据包的隐含语义,进行随机性、时序和长度分布特征的粗粒度快速剪枝;在加密通信阶段,先对每个流的前若干数据包进行特征提取,并提高IAT相关特征的权重,最后利用XGBoost分类方法进行细粒度识别。实验结果表明,在包括了应用IAT技术的混淆流量的数据集上,使用流的前30~50个数据包能达到99%的正确率和精确度,平均每条流的处理时间在毫秒级。

参考文献 | 相关文章 | 多维度评价

Select

7. RBFRadar:基于可编程数据平面检测价值突发流

吴艳妮, 周政演, 陈翰泽, 张栋

计算机科学 2024, 51 (4): 48-55. DOI: 10.11896/jsjkx.231000213

摘要（55）

PDF（pc）（1979KB）（77）

在各种网络流量中,突发是一种常见且重要的流量模式。突发会增大网络时延并影响应用性能,因此对突发流的检测、分析和缓解对于提升网络性能和鲁棒性是有意义的。然而,当前基于逐次突发的检测方案存在显著的带宽开销和高用户负担问题。文中通过观察并分析多个场景下的突发流量特征,提出了价值突发流(Remarkable Burst Flow,RBF)检测,在降低带宽开销的同时,减少了传统突发检测中的密集手工劳动和专家经验要求,减轻了网络管理者的负担。RBFRadar是基于Sketch数据结构的框架,支持可编程数据平面上的RBF检测,在一段时间内观察流级别的突发性。该框架仅产生有限的内存占用和低时间复杂性,其原型可在PISA架构上实现。实验结果表明,在检测RBF的准确性方面,RBFRadar的F1分数是现有方案的5.6~23.4倍;在带宽开销方面,与基于逐次突发的检测方案相比,RBFRadar可降低84.62%~98.84%的带宽开销。

参考文献 | 相关文章 | 多维度评价