大数据&数据科学虚拟专题

Select

1. 嵌入典型时间序列特征的随机Shapelet森林算法

高振卓, 王志海, 刘海洋

计算机科学 2022, 49 (7): 40-49. DOI: 10.11896/jsjkx.210700226

摘要（377）

PDF（pc）（2876KB）（2591）

近年来,时间序列分类问题的研究受到了广泛关注。先进的时间序列分类方法通常建立在良好的特征表示的基础之上。Shapelet是时间序列中具备鉴别性的子序列,可有效表达时间序列的局部形状特征。然而,高昂的计算成本大大限制了基于Shapelet的时间序列分类方法的实用性。除此之外,传统的Shapelet仅能描述欧氏距离度量下子序列的形状特征,因此极易受到噪声干扰并难以挖掘子序列中蕴含的其他类型的鉴别性信息。为应对上述问题,提出了一种新的时间序列分类算法——嵌入典型时间序列特征的随机Shapelet森林。该算法基于以下3个关键策略:1)随机选取Shapelet并限制Shapelet的作用范围以提高效率;2)在Shapelet中嵌入多个典型时间序列特征以提高算法对不同分类问题的适应性,并弥补随机选取Shapelet带来的精度损失;3)在新的特征表示的基础上构建随机森林分类器以确保算法的泛化能力。112个UCR时间序列数据集上的实验结果表明,本文算法的准确性超越了基于Shapelet精确搜索和Shapelet转换技术的STC算法,以及多个其他类型的先进时间序列分类算法。此外,广泛的实验对比验证了本文算法在效率上的显著优势。

参考文献 | 相关文章 | 多维度评价

Select

2. 面向化学结构的线段聚类算法

朱哲清, 耿海军, 钱宇华

计算机科学 2022, 49 (5): 113-119. DOI: 10.11896/jsjkx.210700131

摘要（412）

PDF（pc）（2060KB）（2601）

化学键识别是化学结构识别任务的重要组成部分。化学键中的单键、双键和三键都是由线段组成的,采用霍夫变换进行线段检测时容易产生冗余数据和干扰数据。为此,提出了一种面向化学键的线段聚类算法,对霍夫变换检出的线段进行聚类,进而合并冗余线段。具体而言,基于线段间空间关系的分析,定义线段间的相对相似性与间隔相似性度量;利用这两种度量,进行基于线段合并的聚类方法。实验结果表明,所提出的相似性度量可以全面地刻画线段间的相似关系;该算法能获得较好的聚类结果,同时能够准确复原化学键组成线段的真实位置,是一种有效的化学结构图像预处理方法。

参考文献 | 相关文章 | 多维度评价

Select

3. 学术引用信息可视化方法综述

朱敏, 梁朝晖, 姚林, 王翔坤, 曹梦琦

计算机科学 2022, 49 (4): 88-99. DOI: 10.11896/jsjkx.210300219

摘要（337）

PDF（pc）（8249KB）（2716）

学术文献中蕴含着丰富的引用信息,文献引用是科研评价和文献计量领域的主要分析对象和研究热点。相比基于数学和统计学的定量分析方法,利用可视化方法既可以实现引用信息时序、层次结构的直观呈现,也可以实现复杂引用网络的交互式挖掘,对科研评价改革和文献计量方法创新具有重要意义。文中首先介绍了近年来国内外学术引用信息分析的相关研究,总结了学术引用信息可视化的一般框架;然后根据实体评价和文献计量两类应用场景对可视化方法进行分类,详细阐述了可视化方法在两类应用场景中的研究现状和优缺点;最后指出了学术引用信息可视化面临的挑战和进一步探索的方向。

参考文献 | 相关文章 | 多维度评价

Select

4. 图神经网络在Text-to-SQL解析中的技术研究

曹合心, 赵亮, 李雪峰

计算机科学 2022, 49 (4): 110-115. DOI: 10.11896/jsjkx.210200173

摘要（398）

PDF（pc）（2273KB）（2679）

语义解析领域中的Text-to-SQL 任务对实现基于数据库的自动问答具有重要意义。现有深度学习模型,如Seq2Seq的序列生成模型在单表SQL查询中已取得显著效果,但无法解决多表SQL查询的问题。图神经网络能够有效提取数据库表和问句之间的关联信息,丰富解析过程中的语义信息,从而提升多表SQL查询的准确率。文中提出一种自适应的图构建方式和图编码方式,在现有Text-to-SQL 模型中引入问句信息,通过对问句和数据库的拼接词向量进行卷积操作生成图网络初始化权重,对同种类型下的不同数据库可实现统一训练。采用IRNet框架和关系扩充的方式进行整体模型设计,在当前开放的Text-to-SQL数据集Spider上进行验证。结果表明,该技术能够有效提升多表SQL语句生成的匹配准确率,同时算法对图神经网络在Text-to-SQL领域的研究具有重要的参考价值。

参考文献 | 相关文章 | 多维度评价

Select

5. GSO:基于图神经网络的深度学习计算图子图替换优化框架

苗旭鹏, 周跃, 邵蓥侠, 崔斌

计算机科学 2022, 49 (3): 86-91. DOI: 10.11896/jsjkx.210700199

摘要（768）

PDF（pc）（2335KB）（3167）

深度学习在各种实际应用中取得了巨大成功,如何有效提高各种复杂的深度学习模型在硬件设备上的执行效率是该领域重要的研究内容之一。深度学习框架通常将深度学习模型表达为由基础算子构成的计算图,为了提高计算图的执行效率,传统的深度学习系统通常基于一些专家设计的子图替换规则,采用启发式搜索算法来优化计算图。它们的不足主要有:1)搜索空间大,效率低下;2)缺乏可拓展性;3)难以利用历史优化结果。为了解决上述问题,文中提出了GSO,即一个基于图神经网络的深度学习计算图子图替换优化框架。该框架将计算图的子图优化建模成经典的子图匹配问题,基于计算图中算子的特征信息和计算图的拓扑结构信息,通过图神经网络模型来估计每种子图替换规则的匹配可行性和位置。基于与主流深度学习系统兼容的Python接口实现了GSO,实验结果表明:1)相比全量的子图替换规则,基于图神经网络的子图匹配预测可以最多减少92%的搜索空间;2)相比现有的启发式搜索算法,GSO可以更快地完成计算图子图替换优化(2倍以上),并使优化后的子图最多得到34%的加速。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于信息熵更新权重的数据流集成分类算法

夏源, 赵蕴龙, 范其林

计算机科学 2022, 49 (3): 92-98. DOI: 10.11896/jsjkx.210200047

摘要（594）

PDF（pc）（1699KB）（2765）

在动态的数据流中,由于其不稳定性以及存在概念漂移等问题,集成分类模型需要有及时适应新环境的能力。目前通常使用监督信息对基分类器的权重进行更新,以此来赋予符合当前环境的基分类器更高的权重,然而监督信息在真实数据流环境下无法立即获得。为了解决这个问题,文中提出了一种基于信息熵更新基分类器权重的数据流集成分类算法。首先使用随机特征子空间对每个基分类器进行初始化来构建集成分类器;其次基于每个新到来的数据块构建一个新的基分类器来替换集成中权重最低的基分类器;然后基于信息熵的权重更新策略实时对基分类器中的权重进行更新;最后满足要求的基分类器参与加权投票,得到分类结果。将所提算法和几个经典学习算法进行对比,实验结果表明,所提方法的分类准确性有着明显优势,并且适合多种类型的概念漂移环境。

参考文献 | 相关文章 | 多维度评价

Select

7. 非均衡数据分类经典方法综述与面向医疗领域的实验分析

江昊琛, 魏子麒, 刘璘, 陈俊

计算机科学 2022, 49 (1): 80-88. DOI: 10.11896/jsjkx.210200124

摘要（251）

PDF（pc）（2115KB）（3000）

近年来,人工智能技术被广泛地应用于多个领域。其中,智慧医疗场景得到了普遍关注,并产生了大量临床辅助诊断和医疗方案推荐的实际应用。然而,由于人工智能技术的本质在于通过从大量真实数据中进行模式抽取,从而预测未知情况,因此真实数据的数据特征和数据质量将直接影响人工智能应用的效果。相比其他智能应用领域,由于罕见病患者在人群中总是占极少数,医疗数据具有天然的非均衡的特点,而高度非均衡的数据在机器学习领域被认为是难于学习的。针对这一应用现状,文中首先围绕“数据非均衡”问题开展了文献调研,尝试通过寻找该问题的通用解决办法来指导在智慧医疗环境下的应用。之后,以数据挖掘领域的会议SIGKDD(ACM SIGKDD Conference on Knowledge Discovery and Data Mining)近年来涉及非均衡数据集的工作为分析样本,统计针对特定领域的“数据非均衡”问题人们倾向选择的处理方法。最后,通过医学数据分析中的两个典型应用场景,对调研获得的知识和方法进行实验应用,从而验证了调研和统计分析中所得出方法的可用性。

参考文献 | 相关文章 | 多维度评价

Select

8. 一种面向动态科研网络的社区检测算法

蒲实, 赵卫东

计算机科学 2022, 49 (1): 89-94. DOI: 10.11896/jsjkx.210100023

摘要（363）

PDF（pc）（1701KB）（2629）

科研网络是一类动态变化的异构信息网络,科研网络上的社区检测能挖掘出学术主体的所属社区并发现蕴含于科研社区中的洞察。既有的社区检测算法忽略了科研网络的动态特征和科研主体间的特殊关系,未将科研社区内部的紧密程度和社区间的关系纳入社区检测算法中予以优化,对此提出了一种基于动态科研网络表示学习的社区检测算法DANE-CD。首先基于科研网络自编码器学习科研网络中学术主体的表示向量,然后创新性地在表示学习过程中融入了基于模块度和团队断裂带两个维度的聚类优化,最后基于堆栈自编码器构造了动态科研网络表示学习模型,同时完成了对科研网络的社区检测。在DBLP和HEP-TH两个真实科研数据集上进行了实验,实验结果显示算法在准确率、归一化互信息和模块度3个指标上优于既有科研社区检测算法,可以较好地完成动态科研网络下的社区检测任务。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于DeepFM和卷积神经网络的集成式多模态谣言检测方法

陈志毅, 隋杰

计算机科学 2022, 49 (1): 101-107. DOI: 10.11896/jsjkx.201200007

摘要（579）

PDF（pc）（2092KB）（2836）

随着以微博为代表的社交媒体越来越流行,谣言信息借助社交媒体迅速传播,容易造成严重的后果,因此自动谣言检测问题受到了国内外学术界、产业界的广泛关注。目前,越来越多的用户使用图片来发布微博,而不仅仅是文本,微博通常由文本、图像和社会语境组成。因此,文中提出了一种基于深度神经网络,针对配文文本内容、图像以及用户属性信息的多模态网络谣言检测方法DCNN。该方法由多模态特征提取器和谣言检测器组成,多模态特征提取器分为3部分,即基于TextCNN的文本特征提取器、基于VGG-19的图片特征提取器和基于DeepFM算法的用户社会特征提取器,分别用于学习微博不同模态上的特征表示,以形成重新参数化的多模态特征,特征融合后将该融合后的多模态特征作为谣言检测器的输入进行分类检测。在微博数据集上对该算法进行了大量实验,实验结果表明DCNN算法将识别准确率从78.1%提高到了80.3%,验证了DCNN算法和其中对社会特征建立特征交互方法的可行性与有效性。

参考文献 | 相关文章 | 多维度评价

Select

10. 多空间交互协同过滤推荐

李康林, 古天龙, 宾辰忠

计算机科学 2021, 48 (12): 181-187. DOI: 10.11896/jsjkx.201100031

摘要（362）

PDF（pc）（2449KB）（2660）

大数据时代,由于信息过载,用户很难从海量数据中寻找出感兴趣的内容,个性化推荐系统的诞生极好地解决了这个问题。协同过滤算法被广泛应用于个性化推荐领域,但由于模型的限制,推荐效果未能得到进一步提升。现有的基于协同过滤模型的改进方法大多都是通过引入表示学习方法来得到更好的用户表示向量和项目表示向量,或通过改进用户项目匹配函数来提升推荐能力,但此类工作都致力于从单个交互提取用户-项目交互信息。文中提出了一种多空间交互协同过滤推荐算法,将用户向量和项目向量映射到多空间,从多角度做用户-项目交互,使用两层注意力机制聚合最终的用户表示向量和项目表示向量,以进行评分预测。在公开的真实数据集上,多空间交互协同过滤模型(MSICF)与多个基线模型进行了对比实验,MSICF模型的评估优于对比的基线方法。

参考文献 | 相关文章 | 多维度评价

Select

11. 基于图的多源数据融合框架研究

匡广生, 郭岩, 俞晓明, 刘悦, 程学旗

计算机科学 2021, 48 (11): 170-175. DOI: 10.11896/jsjkx.201100004

摘要（319）

PDF（pc）（1757KB）（3388）

在给定的任务中分析各种数据时,目前大多数研究只针对单源数据进行分析,缺乏应用于多源数据的方法。但如今数据日益丰富,因此提出一种多源数据融合框架,用于融合多种网络平台数据。同一平台数据中包含文本与各种属性,同时不同平台的数据在内容与形式方面也存在很大差异。然而现有的网络信息挖掘方法大多仅使用同一平台中的部分数据进行分析,忽略了不同平台的数据之间存在的相互作用。因此文中提出一种数据融合框架,一方面,能基于图的强大表示能力融合同一平台不同类型的特征,从而提升单个平台的任务性能;另一方面能够利用不同平台的数据特征,使其相互补充,从而提升多个平台的任务性能。文中讨论的融合数据类型包括文本、时间、作者信息,这些特征涉及连续特征、离散特征以及非结构化特征。所提框架在事件分类任务上提升了F1值,验证了提出的多源数据框架的有效性。

参考文献 | 相关文章 | 多维度评价

Select

12. 数据科学平台:特征、技术及趋势

朝乐门, 王锐

计算机科学 2021, 48 (8): 1-12. DOI: 10.11896/jsjkx.210600033

摘要（633）

PDF（pc）（1952KB）（3943）

以2015年以来的《Gartner数据科学平台魔力象限系列年度报告》为线索,分析调研35种数据科学平台产品,提出数据科学平台的定义和类型。数据科学平台相关学术研究中的主要科学问题涉及数据科学平台的设计、数据科学平台的可扩展性、基于数据湖的数据科学平台研发、数据科学平台的支持团队协作能力、数据科学平台的开放策略以及数据科学平台工程方法论。数据科学平台的主要特征包括模块化开发及集成能力、开发运维一体化、重视可扩展性、强调用户体验、重视非专业级数据科学家以及重视人机协同场景;数据科学平台的实现需要的关键技术为机器学习、流处理技术、数据规整化、容器化技术和数据可视化;数据科学平台的未来发展趋势主要体现在与人工智能的融合、对开源技术的支持、对非专业级数据科学家的重视、数据治理的集成、数据湖的引入、高级分析及应用的探索、向数据科学全流水线的转型和应用领域的多样化等;数据科学平台的研发活动应遵循以激活数据价值为中心、人在环路(human-in-the loop)的设计模式、开发运维一体化、可用性和可解释性的平衡、数据科学产品生态系统的培育、强调用户体验以及与其他业务系统的集成等设计原则。现阶段的数据科学平台研发亟待在数据偏见与公平性、鲁棒性及稳定性、隐私保护、因果分析、可信任/负责任数据科学平台等方面进行理论突破。

参考文献 | 相关文章 | 多维度评价

Select

13. 基于WFT-net验证合理性的动态数据精炼策略

陶小燕, 闫春钢, 刘关俊

计算机科学 2021, 48 (7): 99-104. DOI: 10.11896/jsjkx.200700125

摘要（383）

PDF（pc）（2224KB）（2545）

带有数据表的工作流网(WFT-net)用于验证业务流程的合理性,包括正确的行为逻辑和满足的数据需求。在某些情况下,静态数据精炼策略存在无法反映流程中所有可能执行路径的情况,这会导致检测正确率不理想等问题。为此,文中提出了一种新的动态数据精炼策略。首先,提出了在流程运行当前状态下评估与被写数据元素相关联的数据表和谓词状态的方法,捕捉数据流状态的实时变化,全面反映流程执行所有可达的状态,避免执行路径的丢失。此外,当流程执行陷入会导致数据流状态无限更新的循环时,通过适当调整赋值精炼规则的方式,来避免状态的无限延伸。然后,基于所有可能执行路径来检测流程的合理性。最后,在不同业务流程实例上的实验结果表明,该动态数据精炼策略能够有效提高合理性检测的正确率。

参考文献 | 相关文章 | 多维度评价

Select

14. 基于最优输运和k-近邻的离群文档检测

水泽农, 张星宇, 沙朝锋

计算机科学 2021, 48 (7): 105-111. DOI: 10.11896/jsjkx.200400140

摘要（320）

PDF（pc）（1895KB）（2757）

离群点或异常检测是数据挖掘和机器学习等领域的研究热点之一,研究人员已提出了多种离群点检测方法,并将其应用于入侵检测和异常交易检测等问题。但多数离群点检测方法主要针对表数据或时间序列数据等,无法直接应用于离群文档检测。现有基于相近性的离群文档检测方法一般用文档与整个文档集的距离来衡量离群性,无法发现基于局部考量的离群文档,而且采用欧几里德距离可能无法刻画出文档间的语义相近性。基于概率模型的离群文档检测方法过于复杂,并且同样只从全局来定义文档的离群值。针对这些问题,文中提出了一种新的基于相近性的离群文档检测方法。该方法引入最优输运距离,基于利用文档词嵌入向量的语义信息,在文档之间使用最优输运算法以度量距离,并利用LDA主题模型对文本进行层级抽象,通过最优输运算法算出主题之间的距离后,再计算文档距离,文中基于这两种最优运输距离计算文档与它的k近邻文档之间的距离来衡量该文档的离群程度。该方法从局部视角来定义文档的离群性,所采用的文档距离能体现文档之间的语义相近性。在两个开源数据集上进行了较细致的对比实验,实验结果显示,所提方法在多个指标上优于基准离群文档检测方法;还检验了基于k近邻离群文档定义的有效性以及k值的选取对结果的影响。

参考文献 | 相关文章 | 多维度评价

Select

15. 联合学习用户端和项目端知识图谱的个性化推荐

梁浩宏, 古天龙, 宾辰忠, 常亮

计算机科学 2021, 48 (5): 109-116. DOI: 10.11896/jsjkx.200600115

摘要（349）

PDF（pc）（1912KB）（967）

如何在已有的用户行为和辅助信息的基础上准确建模用户的偏好非常重要。在各种辅助信息中,知识图谱(Know-ledge Graph,KG)作为一种新型辅助信息,其节点和边包含了丰富的结构信息和语义信息,近年来受到了越来越多研究者的关注。大量研究表明,在个性化推荐中引入知识图谱可以有效地提高推荐的性能,并增强推荐的合理性和可解释性。然而,现有的方法要么是在KG上探索每个用户-项目交互对(user-item)的独立子路径,要么使用图表示学习的方法在KG中分别学习目标用户(user)或项目(item)的表示,虽然都取得了一定的效果,但是前者没有充分捕获用户-项目(user-item)在KG上的结构信息,后者在产生嵌入(embedding)表示的过程中忽略了user和item的相互影响。为了弥补上述方法的不足,提出了一种联合学习用户端和项目端知识图谱(User-end and Item-end Knowledge Graph,UIKG)的新模型。该模型通过挖掘用户和项目在各自KG中的关联属性信息,并通过联合学习有效地捕获用户的个性化偏好与项目之间的关联性。具体的操作步骤是,利用基于图卷积神经网络的方法从用户知识图谱中学习用户表示向量,再将用户表示向量引入项目知识图谱中联合学习得到项目表示向量,实现用户端KG和项目端KG的无缝统一,最后通过多层感知器进行偏好预测,得到用户对项目的偏好概率,从而更有效地挖掘KG中的高阶结构信息和语义信息来捕获用户的个性化偏好。在公开数据集上的实验结果表明,与基线方法相比,UIKG在Recall@K指标上提高了2.5%~13.6%,在AUC和F1指标上提高了0.4%~5.8%。

参考文献 | 相关文章 | 多维度评价

Select

16. 融合多模态信息的社交网络谣言检测方法

张少钦, 杜圣东, 张晓博, 李天瑞

计算机科学 2021, 48 (5): 117-123. DOI: 10.11896/jsjkx.200400057

摘要（627）

PDF（pc）（1942KB）（1397）

随着社交网络平台的发展,社交网络已经成为人们获取信息的重要来源。然而社交网络的便利性也导致了虚假谣言的快速传播。与纯文本的谣言相比,带有多媒体信息的网络谣言更容易误导用户以及被传播,因此对多模态的网络谣言检测在现实生活中有着重要意义。研究者们已提出若干多模态的网络谣言检测方法,但这些方法都没有充分挖掘出视觉特征和融合文本与视觉的联合表征特征。为弥补这些不足,提出了一个基于深度学习的端到端的多模态融合网络。该网络首先抽取出图片中各个兴趣区域的视觉特征,然后使用多头注意力机制将文本和视觉特征进行更新与融合,最后将这些特征进行基于注意力机制的拼接以用于社交网络多模态谣言检测。在推特和微博公开数据集上进行对比实验,结果表明,所提方法在推特数据集上F1值有13.4%的提升,在微博数据集上F1值有1.6%的提升。

参考文献 | 相关文章 | 多维度评价

Select

17. 基于图神经网络的金融征信研究

李思迪, 郭炳晖, 杨小博

计算机科学 2021, 48 (4): 85-90. DOI: 10.11896/jsjkx.200500109

摘要（445）

PDF（pc）（3237KB）（1375）

金融机构对申请借贷的用户进行信用评价是互联网金融领域的前沿方向之一。首先,基于互联网金融借贷网络历史数据,通过用户间借贷关系的网络化建模来反映融合用户节点与周边关系节点相互作用的借贷关联作用的复杂网络。其次,通过引入基于节点中心性结构特征指标的图神经网络模型,提出了具有邻接圈层信息与借贷信用信息耦合的个人征信评估模型。最后,模型在包含756 100条交易记录的历史数据集上运行实现,并与BP神经网络算法和RF-Logistic模型进行了对比,结果显示所提模型具有更高的评估准确率。

参考文献 | 相关文章 | 多维度评价

Select

18. 面向协同过滤推荐的新型混合评分函数

肖诗涛, 邵蓥侠, 宋卫平, 崔斌

计算机科学 2021, 48 (3): 113-118. DOI: 10.11896/jsjkx.200900067

摘要（375）

PDF（pc）（2279KB）（926）

协同过滤技术在现代推荐系统中得到了广泛的应用,其基本思想是相似的用户会喜欢相似的物品。评分函数(Score Function,SF)是协同过滤推荐模型的一个关键技术,用于评估用户对物品的喜好程度。然而,目前常用的评分函数存在如下缺陷,即内积评分函数难以有效捕捉用户与用户以及物品与物品的相似度,而欧几里德距离度量函数由于几何空间限制降低了模型的表达能力。文中提出了一种融合内积相似度和欧几里德距离度量的新颖的混合评分函数,并从理论上分析了此混合评分函数的性质,证明它能有效弥补现有评分函数的不足。此外,新的混合评分函数是一项通用技术,适用于诸多现有的推荐模型(如SVD++,MF,NGCF,CML等),能够提高模型的推荐质量。最后,在6个公开数据集上进行了大量实验,验证了新混合评分函数的优越性能。

参考文献 | 相关文章 | 多维度评价

Select

19. 基于BERT的社交电商文本分类算法

李可悦, 陈轶, 牛少彰

计算机科学 2021, 48 (2): 87-92. DOI: 10.11896/jsjkx.200700111

摘要（651）

PDF（pc）（1610KB）（2129）

随着网络购物的高速发展,网络商家和购物者在网络交易活动中产生了大量的交易数据,其中蕴含着巨大的分析价值。针对社交电商商品文本的文本分类问题,为了更加高效准确地判断文本所描述商品的类别,提出了一种基于BERT模型的社交电商文本分类算法。首先,该算法采用BERT(Bidirectional Encoder Representations from Transformers)预训练语言模型来完成社交电商文本的句子层面的特征向量表示,随后有针对性地将获得的特征向量输入分类器进行分类,最后采用社交电商文本的数据集进行算法验证。实验结果表明,经过训练的模型在测试集上的分类结果F1值最高可达94.61%,高出BERT模型针对MRPC的分类任务6%。因此,所提社交电商文本分类算法能够较为高效准确地判断文本所描述商品的类别,有助于进一步分析网络交易数据,从海量数据中提取有价值的信息。

参考文献 | 相关文章 | 多维度评价

Select

20. 虚假评论识别研究综述

袁禄, 朱郑州, 任庭玉

计算机科学 2021, 48 (1): 111-118. DOI: 10.11896/jsjkx.200500101

摘要（864）

PDF（pc）（1541KB）（2624）

Web 2.0时代,消费者在在线购物、学习和娱乐时越来越多地依赖在线评论信息,而虚假的评论会误导消费者的决策,影响商家的真实信用,因此有效识别虚假评论具有重要意义。文中首先对虚假评论的范围进行了界定,并从虚假评论识别、形成动机、对消费者的影响以及治理策略4个方面归纳了虚假评论的研究内容,给出了虚假评论研究框架和一般识别方法的工作流程。然后从评论文本内容和评论者及其群组行为两个角度,对近十年来国内外的相关研究成果进行了综述,介绍了虚假评论效果评估的相关数据集和评价指标,统计分析了在公开数据集上实现的虚假评论有效识别方法,并从特征选取、模型方法、训练数据集、评价指标值等方面进行了对比分析。最后对虚假评论识别领域的有标注语料规模限制等未来研究方向进行了探讨。

参考文献 | 相关文章 | 多维度评价

Select

21. 一种基于深度LSTM和注意力机制的金融数据预测方法

刘翀, 杜军平

计算机科学 2020, 47 (12): 125-130. DOI: 10.11896/jsjkx.200700050

摘要（613）

PDF（pc）（2144KB）（2734）

随着互联网的迅速发展金融市场每日产生了大量在线金融数据如每日的交易次数以及交易的总金额等.近年来金融市场数据的动态预测成为了研究热点.金融市场数据量大输入序列较多且会随着时间发生变化.针对这些问题文中提出了基于深度LSTM和注意力机制的金融数据预测模型.首先该模型能处理复杂的金融市场数据输入主要是多序列的输入;其次该模型使用深度LSTM网络对金融数据进行建模解决了数据间长依赖的问题并能学习到更加复杂的市场动态特征;最后该模型引入了注意力机制使得不同时间的数据对预测的重要程度不同预测更加精准.在真实的金融大数据集上的实验表明所提模型在动态预测领域具有准确性高、稳定性好的特点.

参考文献 | 相关文章 | 多维度评价

Select

22. 基于时序推理的分层会话感知推荐模型

罗鹏宇, 吴乐, 吕扬, 袁堃平, 洪日昌

计算机科学 2020, 47 (11): 73-79. DOI: 10.11896/jsjkx.200700088

摘要（548）

PDF（pc）（2260KB）（883）

基于会话的推荐系统,旨在根据匿名会话预测用户下一时刻的行为,这在很多互联网服务中颇为常见。该问题的主要挑战在于,如何模拟目标会话中用户行为的时序关系,并利用有限长度的会话刻画用户的兴趣。现有的方法根据目标会话中邻近物品的时序关系来建模用户的行为模式,并对目标会话中的物品信息进行选择性地保留和利用,进而聚合为会话的整体特征,并将其作为目标会话对应的用户兴趣。为了更好地建模用户行为模式和用户兴趣,文中提出了一种基于时序推理的分层会话感知推荐模型。一方面,不同于以往工作对目标会话中“邻近物品即相关”的假设,文中对目标会话中交互物品之间的依赖关系进行推理,并在会话中学习更灵活的时序关系,以建模用户的行为模式;另一方面,从目标会话中的物品和物品特征两个层次进行物品信息的聚合,实现更细粒度的用户兴趣推断。在两个公共数据集上的实验中,所提模型均优于其他基准模型,验证了其有效性。

参考文献 | 相关文章 | 多维度评价

Select

23. 基于时空数据的城市人流移动模式挖掘

孙天旭, 赵蕴龙, 练作为, 孙毅, 蔡月啸

计算机科学 2020, 47 (10): 91-96. DOI: 10.11896/jsjkx.200100001

摘要（596）

PDF（pc）（3260KB）（1469）

随着城市的快速发展,城市中人流的管理与移动模式挖掘变得越发重要。同时,随着以群智感知为代表的各种感知技术的发展,提出了智慧城市的概念,智慧城市中的大量感知数据为人流的分析提供了可能性。在智慧城市中,时空数据是最为常见的一种数据。本文基于城市中的时空数据,首先提出一种建模方法,将不同种类的时空数据表示为人流模型;然后基于聚类的思想,通过改进传统的基于密度的聚类算法来对人流的移动模式进行挖掘,提出一种人流的移动模式聚类算法:时空密度聚类(Spatio-Temporal Density-Based Spatial Clustering of Applications with Noise,ST-DBSCAN);接着设计了一个移动模式的交通应用场景,并提出对移动模式的评价方法;最后在中国某城市的真实数据集上进行实验与分析,结果表明本文得到的移动模式结果在统一交通服务的场景下可节省25%的交通成本,验证了本文所提移动模式的有效性。

参考文献 | 相关文章 | 多维度评价

Select

24. 网络表示学习算法综述

丁钰, 魏浩, 潘志松, 刘鑫

计算机科学 2020, 47 (9): 52-59. DOI: 10.11896/jsjkx.190300004

摘要（864）

PDF（pc）（2403KB）（2782）

网络是一系列节点和边的集合,通常表示成一个包含节点和边的图。许多复杂系统都以网络的形式来表示,如社交网络、生物网络和信息网络。为了使网络数据的处理变得简单有效,针对网络中节点的表示学习成为了近年来的研究热点。网络表示学习旨在为网络中的每个节点学习一个低维稠密的表示向量,进而可将得到的向量表示运用到常见的网络分析任务中,如节点聚类、节点分类和链路预测等。然而,绝大多数真实网络节点都有丰富的属性信息,如社交网络中的用户资料和引文网络中的文本内容。网络的属性信息对网络表示具有重要的作用,当网络高度稀疏时,网络的属性信息是网络表示重要的辅助信息,有助于更好地学习网络表示。传统的邻接矩阵仅仅表示了边的信息,而无法加入节点的属性信息。因此,网络表示不仅要保存网络的结构信息,还要保存网络的属性信息。此外,大多数真实世界网络都是动态变化的,这种变化包括网络节点的增加和减少,以及网络边的新建和消失。同时,与网络结构变化相似,网络中的属性也会随着时间的推移发生变化。随着机器学习技术的发展,针对网络表示学习问题的研究成果层出不穷,文中将针对近年来的网络表示学习方法进行系统性的介绍和总结。

参考文献 | 相关文章 | 多维度评价

Select

25. 基于自然邻居的标记分布学习

姚成亮, 朱庆生

计算机科学 2020, 47 (8): 132-136. DOI: 10.11896/jsjkx.190700012

摘要（564）

PDF（pc）（2100KB）（996）

标记分布是一种新的机器学习范式, 能很好地解决某些标记多义性问题, 可看作多标记的泛化。传统的单标记学习和多标记学习均可看作标记分布学习的特例。已有的标记分布学习算法中, 基于算法改造的AA-KNN(Algorithm Adaptation-KNN)是一种高效的算法, 但任何涉及K近邻求解问题的算法在处理不同数据集时, 参数K值的选取都是一个难题, 不同的K值得到的结果明显不同。基于此, 将自然最近邻居的概念引入标记分布学习, 提出一种新的标记分布学习方法。对数据集使用自然最近邻居搜索算法查找每个样本的自然邻居, 取自然邻居的标记分布均值作为预测结果。搜索算法不需要人工设置任何参数, 同时搜索算法是一种被动搜索, 其自适应计算得到每个样本的邻居。在6个数据集上使用6个评价指标进行实验, 结果表明, 与AA-KNN相比, 结合自然最近邻居的标记分布学习算法不仅避免了人工设置参数的问题, 而且取得了更优的效果。

参考文献 | 相关文章 | 多维度评价

Select

26. 个性化推荐系统技术进展

刘君良, 李晓光

计算机科学 2020, 47 (7): 47-55. DOI: 10.11896/jsjkx.200200114

摘要（619）

PDF（pc）（1473KB）（2637）

推荐系统通过获取用户的历史行为数据,如网页的浏览数据、购买记录、社交网络信息、用户地理位置等,来推断用户偏好。随着计算机技术的发展,推荐系统所采用的推荐技术由早期的基于用户-项的数据矩阵分解技术为主,逐渐向与数据挖掘、机器学习、人工智能等技术相融合的方向发展,从而深度挖掘用户行为的潜在偏好,以构建更加精准的用户偏好模型。推荐过程也从静态预测发展到实时推荐,通过与用户实时交互来使推荐结果更加丰富。文中重点回顾了推荐系统在不同时期所采用的关键技术,主要包括基于内容过滤的推荐技术、基于协同过滤的推荐技术、基于深度学习的推荐技术、基于强化学习的推荐技术和基于异构网络的推荐技术等。最后对比和分析了关键技术的优缺点,并对推荐系统的未来发展进行展望。

参考文献 | 相关文章 | 多维度评价

Select

27. 基于语义感知的中文短文本摘要生成模型

倪海清, 刘丹, 史梦雨

计算机科学 2020, 47 (6): 74-78. DOI: 10.11896/jsjkx.190600006

摘要（605）

PDF（pc）（1482KB）（1503）

文本摘要生成技术能够从海量数据中概括出关键信息,有效解决用户信息过载的问题。目前序列到序列模型被广泛应用于英文文本摘要生成领域,而在中文文本摘要生成领域没有对该模型进行深入研究。对于传统的序列到序列模型,解码器通过注意力机制将编码器输出的每一个词的隐藏状态作为原始文本完整的语义信息来生成摘要,但是编码器输出的每一个词的隐藏状态仅包含前、后词的语义信息,不包含原始文本完整的语义信息,导致生成摘要缺失原始文本的核心信息,影响生成摘要的准确性和可读性。为此,文中提出基于语义感知的中文短文本摘要生成模型SA-Seq2Seq,以结合注意力机制的序列到序列模型为基础,通过使用预训练模型BERT,在编码器中将中文短文本作为整体语义信息引入,使得每一个词包含整体语义信息;在解码器中将参考摘要作为目标语义信息计算语义不一致损失,以确保生成摘要的语义完整性。采用中文短文本摘要数据集LCSTS进行实验,结果表明,模型SA-Seq2Seq在评估标准ROUGE上的效果相对于基准模型有显著提高,其ROUGE-1,ROUGE-2和ROUGE-L评分在基于字符处理的数据集上分别提升了3.4%,7.1%和6.1%,在基于词语处理的数据集上分别提升了2.7%,5.4%和11.7%,即模型SA-Seq2Seq能够更有效地融合中文短文本的整体语义信息,挖掘其关键信息,确保生成摘要的流畅性和连贯性,可以应用于中文短文本摘要生成任务。

参考文献 | 相关文章 | 多维度评价