栏目文章

Select

1. 数据科学平台:特征、技术及趋势

朝乐门, 王锐

计算机科学 2021, 48 (8): 1-12. DOI: 10.11896/jsjkx.210600033

摘要（632）

PDF（pc）（1952KB）（3943）

以2015年以来的《Gartner数据科学平台魔力象限系列年度报告》为线索,分析调研35种数据科学平台产品,提出数据科学平台的定义和类型。数据科学平台相关学术研究中的主要科学问题涉及数据科学平台的设计、数据科学平台的可扩展性、基于数据湖的数据科学平台研发、数据科学平台的支持团队协作能力、数据科学平台的开放策略以及数据科学平台工程方法论。数据科学平台的主要特征包括模块化开发及集成能力、开发运维一体化、重视可扩展性、强调用户体验、重视非专业级数据科学家以及重视人机协同场景;数据科学平台的实现需要的关键技术为机器学习、流处理技术、数据规整化、容器化技术和数据可视化;数据科学平台的未来发展趋势主要体现在与人工智能的融合、对开源技术的支持、对非专业级数据科学家的重视、数据治理的集成、数据湖的引入、高级分析及应用的探索、向数据科学全流水线的转型和应用领域的多样化等;数据科学平台的研发活动应遵循以激活数据价值为中心、人在环路(human-in-the loop)的设计模式、开发运维一体化、可用性和可解释性的平衡、数据科学产品生态系统的培育、强调用户体验以及与其他业务系统的集成等设计原则。现阶段的数据科学平台研发亟待在数据偏见与公平性、鲁棒性及稳定性、隐私保护、因果分析、可信任/负责任数据科学平台等方面进行理论突破。

参考文献 | 相关文章 | 多维度评价

Select

2. 跨模态检索研究进展综述

冯霞, 胡志毅, 刘才华

计算机科学 2021, 48 (8): 13-23. DOI: 10.11896/jsjkx.200800165

摘要（1054）

PDF（pc）（3706KB）（3503）

随着互联网上多媒体数据的爆炸式增长,单一模态的检索已经无法满足用户需求,跨模态检索应运而生。跨模态检索旨在以一种模态的数据去检索另一种模态的相关数据,其核心任务是数据特征提取和不同模态间数据的相关性度量。文中梳理了跨模态检索领域近期的研究进展,从传统方法、深度学习方法、手工特征的哈希编码方法以及深度学习的哈希编码方法等角度归纳论述了跨模态检索领域的研究成果。在此基础上,对比分析了各类算法在跨模态检索常用标准数据集上的性能。最后,分析了跨模态检索研究存在的问题,并对该领域未来发展趋势以及应用进行了展望。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于残差注意力网络的地震数据超分辨率方法

周文辉, 石敏, 朱登明, 周军

计算机科学 2021, 48 (8): 24-31. DOI: 10.11896/jsjkx.200900034

摘要（567）

PDF（pc）（3843KB）（1470）

地震数据在油气勘探、地质勘探领域发挥着至关重要的作用。精确详细的地震数据有助于对油气勘探做出精确指导,减小勘探的风险,从而产生巨大的社会效益和经济效益。在提升地震数据分辨率方面,现有的方法在面对海量数据时,在高分辨恢复、去噪性能和效率上效果欠佳,难以恢复出细节丰富的地质信息,无法满足实际需求。地震数据能够反映地质构造以及地层的组成,具有局部相关性高、全局相关性低的特点。同时,地震数据高频部分通常蕴含着地质勘探等重要信息,如分层、断层信息等。针对地震数据的特点,文中将地震数据重建问题转化为图像超分辨率问题,提出了采用基于生成对抗网络的地震数据超分辨方法。针对地震数据分布具有局部相关性高、全局相关性低的特点,设计残差注意力模块,挖掘地震数据的内在相关性,通过训练含有相对生成对抗损失函数的生成对抗网络模型,来对地震数据进行超分辨率恢复,以得到更加精确的地震数据。在真实的地震数据集上进行了实验验证,结果表明,所提方法在地震数据超分辨上效果良好,在性能指标PSNR和SSIM上有3%~4%的提升,具有较强的实用性。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于层析分析改进的联邦平均算法

罗长银, 陈学斌, 马春地, 张淑芬

计算机科学 2021, 48 (8): 32-40. DOI: 10.11896/jsjkx.201000093

摘要（502）

PDF（pc）（3890KB）（1235）

联邦平均(Fedavg)算法采用权重更新来更新全局模型,该算法在权重更新时仅考虑每个客户端数据量的大小,未考虑数据质量对模型的影响。针对该问题,文中提出了基于层次分析改进的联邦平均算法,首次从数据质量的角度来处理多源数据。首先采用熵权法计算数据中各属性的重要度,并将其作为层次分析中准则层的数值,计算每个客户端数据的质量,然后结合客户端数据量的大小,重新计算全局模型中的权重。仿真实验的结果表明,对于中小型数据集而言,使用支持向量机训练的模型准确度最高,达到了85.715 2%;对于大型数据集而言,采用随机森林训练的模型准确率最高,达到了91.932 1%。与传统联邦平均方法相比,所提方法在中小数据集上准确率提升了3.5%,在大数据集上提升了1.3%,能够在提升模型准确率的同时提高数据与模型的安全性。

参考文献 | 相关文章 | 多维度评价

Select

5. 基于动态附加布隆过滤器的RFID数据冗余处理算法

段雯, 周良

计算机科学 2021, 48 (8): 41-46. DOI: 10.11896/jsjkx.200700093

摘要（372）

PDF（pc）（1915KB）（846）

针对RFID设备在读取标签信息时产生的高度冗余会造成实时传输压力、存储空间浪费和上层应用分析结果不可靠等问题,提出一种动态附加布隆过滤器算法(Dynamic-Additional Bloom Filter,DATRBF)来清除RFID冗余数据。首先结合RFID动态数据流特点,利用时间和阅读器因素的影响设计了基础布隆过滤器(Time-Reader Bloom Filter,TRBF),然后根据定时间区间内数据量变化动态决定是否调整或附加额外的TRBF,通过附加TRBF从而扩充数组的方式将误判率控制在阈值内,最后结合两个过滤器对数据是否冗余进行综合判断。实验证明,在过滤RFID实时动态数据流中的冗余数据时,DATRBF算法相比传统布隆过滤器(Bloom Filter,BF)和时空布隆过滤器(Temporal-Spatial Bloom Filter,TSBF)有明显的优势,在数据量随机波动时DATRBF的误判率平均约为TSBF的49%,且DATRBF算法能够在数据量持续上升时保持平稳的低误判率。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于局部回归融合的多核聚类方法

杜亮, 任鑫, 张海莹, 周芃

计算机科学 2021, 48 (8): 47-52. DOI: 10.11896/jsjkx.201000106

摘要（398）

PDF（pc）（1461KB）（767）

针对现有多核聚类方法较少考虑多核数据局部流形结构以及在多核融合时学习参数过多进而易受多核噪声异常等干扰的问题,文中首先提出了基于局部核回归的聚类方法(CKLR)。该方法通过局部学习来刻画单核数据的流形结构并采用稀疏化的局部核回归系数来进行预测和聚类。文中进一步提出了基于单核局部核回归融合的多核聚类方法(CMKLR)。该方法为每个核矩阵构造对应的稀疏化的局部核回归系数,并采用全局线性加权融合的方式获得了多核数据下的局部流形结构和同样稀疏化的多核局部回归系数。所提方法较好地避免了现有方法的两个缺陷,且该方法仅包含局部邻域大小这一超参数。实验结果表明,所提方法在测试数据集上的聚类性能优于当前的主流多核聚类方法。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于自编码器和流形正则的结构保持无监督特征选择

杨蕾, 降爱莲, 强彦

计算机科学 2021, 48 (8): 53-59. DOI: 10.11896/jsjkx.200700211

摘要（300）

PDF（pc）（3508KB）（709）

高维数据中存在着大量的冗余和不相关特征,严重影响了数据挖掘的效率、质量以及机器学习算法的泛化性能,因此特征选择成为计算机科学与技术领域的重要研究方向。文中利用自编码器的非线性学习能力提出了一种无监督特征选择算法。首先,基于自编码器的重建误差选择出单个特征对数据重建贡献大的特征子集。其次,利用单层自编码器的特征权重最终选择出对其他特征重建贡献大的特征子集,通过流形正则保持原始数据空间的局部与非局部结构,并且对特征权重增加L2/1稀疏正则来提高特征权重的稀疏性,使之选择出更具区别性的特征。最后,构造一个新的目标函数,并利用梯度下降算法对所提目标函数进行优化。在6个不同类型的典型数据集上进行实验,并将所提算法与5个常用的无监督特征选择算法进行对比。实验结果验证了所提算法能够有效地选择出重要特征,显著提高了分类准确率和聚类准确率。

参考文献 | 相关文章 | 多维度评价

Select

8. 基于细粒度差异特征的文本匹配方法

王胜, 张仰森, 陈若愚, 向尕

计算机科学 2021, 48 (8): 60-65. DOI: 10.11896/jsjkx.200700008

摘要（349）

PDF（pc）（2010KB）（1305）

文本匹配是检索系统中的关键技术之一。针对现有文本匹配模型对文本语义差异捕获不准确的问题,文中提出了一种基于细粒度差异特征的文本匹配方法。首先,使用预训练模型作为基础模型对匹配文本进行语义的抽取与初步匹配;然后,引入对抗学习的思想,在模型的编码阶段人为构造虚拟对抗样本进行训练,以提升模型的学习能力与泛化能力;最后,通过引入文本的细粒度差异特征,纠正文本匹配的初步预测结果,有效提升了模型对细粒度差异特征的捕获能力,进而提升了文本匹配模型的性能。在两个数据集上进行了实验验证,其中在LCQMC数据集上的实验结果显示,所提方法在ACC性能指标上达到了88.96%,优于已知的最好模型。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于耦合随机投影的张量填充方法

杨宏鑫, 宋宝燕, 刘婷婷, 杜岳峰, 李晓光

计算机科学 2021, 48 (8): 66-71. DOI: 10.11896/jsjkx.200900055

摘要（341）

PDF（pc）（1870KB）（822）

现代信号处理中,越来越多的领域都需要存储和分析规模大、维度高、结构复杂的数据。张量作为向量和矩阵的高阶推广,在保证原始数据内在关系的前提下,可以更为直观地表示大规模数据的结构性。张量填充作为张量分析的一个重要分支,目前已被广泛应用于协同过滤、图像恢复、数据挖掘等领域。张量填充指从被噪声污染或存在数据缺失的张量中恢复出原始张量的手段,文中着眼于当前张量填充技术中时间复杂度较高的缺点,提出了基于耦合随机投影的张量填充方法。该方法的核心包括两个部分:耦合张量分解以及随机投影矩阵。通过随机投影矩阵,文中将原始高维张量投影到低维空间内生成替代张量,同时在低维空间内实现张量填充,进而提高算法的执行效率。同时,所提算法还利用耦合张量分解将填充后的低维张量映射到高维空间,从而实现原始张量的重构。最后,通过实验分析了所提算法的有效性和高效性。

参考文献 | 相关文章 | 多维度评价

Select

10. 基于异质信息网络表示学习与注意力神经网络的推荐算法

赵金龙, 赵中英

计算机科学 2021, 48 (8): 72-79. DOI: 10.11896/jsjkx.200800226

摘要（334）

PDF（pc）（2391KB）（1187）

推荐系统能够有效解决信息过载等问题,得到了国内外众多学者的广泛关注。真实世界中的应用场景往往可以建模成异质信息网络,因此基于异质信息网络表示学习的推荐算法成为了近年来的研究热点。然而,当前的研究工作仍然存在异质信息提取缺乏深度、节点的复杂关系发掘不充分等问题。为解决这些问题,文中提出了基于异质信息网络表示学习与注意力神经网络的推荐算法。首先,提出了保持语义关系与结构拓扑的异质信息网络表示方法;然后,设计了基于元路径的随机游走策略来获取异质信息网络中的节点序列,对序列过滤并生成用户和项目在不同元路径下的表示向量;最后,设计了基于注意力神经网络的推荐算法,将上述向量输入注意力神经网络,深入挖掘表示向量之间的关系以实现有效的推荐。在两个真实数据集上进行实验并与3种主流的算法进行比较,结果表明,所提算法在MAE与RMSE这2个推荐指标方面都有提升,最高提升了8.9%。

参考文献 | 相关文章 | 多维度评价

Select

11. 基于深度学习的民事案件判决结果分类方法研究

王立梅, 朱旭光, 汪德嘉, 张勇, 邢春晓

计算机科学 2021, 48 (8): 80-85. DOI: 10.11896/jsjkx.210300130

摘要（340）

PDF（pc）（1505KB）（1675）

裁判文书数量的快速增长对自动化分类提出了迫切要求,然而已有研究缺乏在民事案件这一细分领域下以判决结果为分类标准的方法的研究,无法实现对民事案件判决结果的准确分类。文中将深度学习技术应用于民事案件判决结果分类领域,通过横向对比多种深度学习模型得出了该领域下表现较好的模型,并依据裁判文书的数据特点对该模型进行了进一步的优化。实验结果证明,Transformer模型的判决结果分类的宏精准率、宏召回率和宏F1分数均高于其他模型。通过对数据预处理流程的优化和对Transformer模型位置嵌入方式的优化,模型的性能指标提升了1%～2%。

参考文献 | 相关文章 | 多维度评价

Select

12. 基于FP-Growth算法和GRNN的电力知识文本挖掘

白勇, 张占龙, 熊隽迪

计算机科学 2021, 48 (8): 86-90. DOI: 10.11896/jsjkx.210600031

摘要（477）

PDF（pc）（1738KB）（790）

为了提高电力知识文本挖掘的性能,采用FP-Growth算法对影响电力需求的强关联因素进行挖掘,运用广义回归神经网络(General Regression Neural Network,GRNN)算法实现电力需求预测。首先,对待挖掘的电力文本进行指标提取并编码,生成电力文本初始FP-Tree;接着采用FP-Growth算法遍历所有FP-Tree,生成频繁集,过滤掉小于最小支持度的项,留下频数较高的频繁项;然后根据更新后的FP-Tree统计关联项,选择与总用电量增长率关联强的变量生成训练样本;最后采用GRNN算法对电力需求文本进行训练,输入电力需求预测样本,设置平滑因子,通过模式层的输出和加权求和来获得电力需求预测结果。实验结果证明,通过合理设置最小支持度和GRNN的平滑因子,能够获得较好的电力文本挖掘性能,与常用挖掘算法相比,所提算法能够获得更高的电力需求预测准确率。

参考文献 | 相关文章 | 多维度评价