虚拟专题
大数据&数据科学 虚拟专题

当今社会已步入大数据时代,各行业对数据价值的重视程度与日俱增,对大数据的研究和分析得到了很多学者的青睐。要想把数据价值发挥出来,需要对数据进行采集、融合、分析、数据可视化。数据科学是从数据中提取有用知识的一系列技能和技术,不仅研究数据本身,还为自然科学和社会科学研究提供了一种新方法。本虚拟专题集选了本刊近期所报道的大数据&数据科学相关研究成果,希望能为本领域相关研究人员提供一定借鉴。

Default Latest Most Read
Please wait a minute...
1. 基于语义感知的中文短文本摘要生成模型
倪海清, 刘丹, 史梦雨
计算机科学    2020, 47 (6): 74-78.   https://doi.org/10.11896/jsjkx.190600006
摘要 (null)   PDF (1482KB) (null)  
文本摘要生成技术能够从海量数据中概括出关键信息,有效解决用户信息过载的问题。目前序列到序列模型被广泛应用于英文文本摘要生成领域,而在中文文本摘要生成领域没有对该模型进行深入研究。对于传统的序列到序列模型,解码器通过注意力机制将编码器输出的每一个词的隐藏状态作为原始文本完整的语义信息来生成摘要,但是编码器输出的每一个词的隐藏状态仅包含前、后词的语义信息,不包含原始文本完整的语义信息,导致生成摘要缺失原始文本的核心信息,影响生成摘要的准确性和可读性。为此,文中提出基于语义感知的中文短文本摘要生成模型SA-Seq2Seq,以结合注意力机制的序列到序列模型为基础,通过使用预训练模型BERT,在编码器中将中文短文本作为整体语义信息引入,使得每一个词包含整体语义信息;在解码器中将参考摘要作为目标语义信息计算语义不一致损失,以确保生成摘要的语义完整性。采用中文短文本摘要数据集LCSTS进行实验,结果表明,模型SA-Seq2Seq在评估标准ROUGE上的效果相对于基准模型有显著提高,其ROUGE-1,ROUGE-2和ROUGE-L评分在基于字符处理的数据集上分别提升了3.4%,7.1%和6.1%,在基于词语处理的数据集上分别提升了2.7%,5.4%和11.7%,即模型SA-Seq2Seq能够更有效地融合中文短文本的整体语义信息,挖掘其关键信息,确保生成摘要的流畅性和连贯性,可以应用于中文短文本摘要生成任务。
相关文章 | 多维度评价
2. 个性化推荐系统技术进展
刘君良, 李晓光
计算机科学    2020, 47 (7): 47-55.   https://doi.org/10.11896/jsjkx.200200114
摘要 (null)   PDF (1473KB) (null)  
推荐系统通过获取用户的历史行为数据,如网页的浏览数据、购买记录、社交网络信息、用户地理位置等,来推断用户偏好。随着计算机技术的发展,推荐系统所采用的推荐技术由早期的基于用户-项的数据矩阵分解技术为主,逐渐向与数据挖掘、机器学习、人工智能等技术相融合的方向发展,从而深度挖掘用户行为的潜在偏好,以构建更加精准的用户偏好模型。推荐过程也从静态预测发展到实时推荐,通过与用户实时交互来使推荐结果更加丰富。文中重点回顾了推荐系统在不同时期所采用的关键技术,主要包括基于内容过滤的推荐技术、基于协同过滤的推荐技术、基于深度学习的推荐技术、基于强化学习的推荐技术和基于异构网络的推荐技术等。最后对比和分析了关键技术的优缺点,并对推荐系统的未来发展进行展望。
参考文献 | 相关文章 | 多维度评价
3. 基于自然邻居的标记分布学习
姚成亮, 朱庆生
计算机科学    2020, 47 (8): 132-136.   https://doi.org/10.11896/jsjkx.190700012
摘要 (null)   PDF (2100KB) (null)  
标记分布是一种新的机器学习范式, 能很好地解决某些标记多义性问题, 可看作多标记的泛化。传统的单标记学习和多标记学习均可看作标记分布学习的特例。已有的标记分布学习算法中, 基于算法改造的AA-KNN(Algorithm Adaptation-KNN)是一种高效的算法, 但任何涉及K近邻求解问题的算法在处理不同数据集时, 参数K值的选取都是一个难题, 不同的K值得到的结果明显不同。基于此, 将自然最近邻居的概念引入标记分布学习, 提出一种新的标记分布学习方法。对数据集使用自然最近邻居搜索算法查找每个样本的自然邻居, 取自然邻居的标记分布均值作为预测结果。搜索算法不需要人工设置任何参数, 同时搜索算法是一种被动搜索, 其自适应计算得到每个样本的邻居。在6个数据集上使用6个评价指标进行实验, 结果表明, 与AA-KNN相比, 结合自然最近邻居的标记分布学习算法不仅避免了人工设置参数的问题, 而且取得了更优的效果。
参考文献 | 相关文章 | 多维度评价
4. 网络表示学习算法综述
丁钰, 魏浩, 潘志松, 刘鑫
计算机科学    2020, 47 (9): 52-59.   https://doi.org/10.11896/jsjkx.190300004
摘要 (null)   PDF (2403KB) (null)  
网络是一系列节点和边的集合,通常表示成一个包含节点和边的图。许多复杂系统都以网络的形式来表示,如社交网络、生物网络和信息网络。为了使网络数据的处理变得简单有效,针对网络中节点的表示学习成为了近年来的研究热点。网络表示学习旨在为网络中的每个节点学习一个低维稠密的表示向量,进而可将得到的向量表示运用到常见的网络分析任务中,如节点聚类、节点分类和链路预测等。然而,绝大多数真实网络节点都有丰富的属性信息,如社交网络中的用户资料和引文网络中的文本内容。网络的属性信息对网络表示具有重要的作用,当网络高度稀疏时,网络的属性信息是网络表示重要的辅助信息,有助于更好地学习网络表示。传统的邻接矩阵仅仅表示了边的信息,而无法加入节点的属性信息。因此,网络表示不仅要保存网络的结构信息,还要保存网络的属性信息。此外,大多数真实世界网络都是动态变化的,这种变化包括网络节点的增加和减少,以及网络边的新建和消失。同时,与网络结构变化相似,网络中的属性也会随着时间的推移发生变化。随着机器学习技术的发展,针对网络表示学习问题的研究成果层出不穷,文中将针对近年来的网络表示学习方法进行系统性的介绍和总结。
相关文章 | 多维度评价
5. 基于时空数据的城市人流移动模式挖掘
孙天旭, 赵蕴龙, 练作为, 孙毅, 蔡月啸
计算机科学    2020, 47 (10): 91-96.   https://doi.org/10.11896/jsjkx.200100001
摘要 (null)   PDF (3260KB) (null)  
随着城市的快速发展,城市中人流的管理与移动模式挖掘变得越发重要。同时,随着以群智感知为代表的各种感知技术的发展,提出了智慧城市的概念,智慧城市中的大量感知数据为人流的分析提供了可能性。在智慧城市中,时空数据是最为常见的一种数据。本文基于城市中的时空数据,首先提出一种建模方法,将不同种类的时空数据表示为人流模型;然后基于聚类的思想,通过改进传统的基于密度的聚类算法来对人流的移动模式进行挖掘,提出一种人流的移动模式聚类算法:时空密度聚类(Spatio-Temporal Density-Based Spatial Clustering of Applications with Noise,ST-DBSCAN);接着设计了一个移动模式的交通应用场景,并提出对移动模式的评价方法;最后在中国某城市的真实数据集上进行实验与分析,结果表明本文得到的移动模式结果在统一交通服务的场景下可节省25%的交通成本,验证了本文所提移动模式的有效性。
相关文章 | 多维度评价
6. 基于时序推理的分层会话感知推荐模型
罗鹏宇, 吴乐, 吕扬, 袁堃平, 洪日昌
计算机科学    2020, 47 (11): 73-79.   https://doi.org/10.11896/jsjkx.200700088
摘要 (null)   PDF (2260KB) (null)  
基于会话的推荐系统,旨在根据匿名会话预测用户下一时刻的行为,这在很多互联网服务中颇为常见。该问题的主要挑战在于,如何模拟目标会话中用户行为的时序关系,并利用有限长度的会话刻画用户的兴趣。现有的方法根据目标会话中邻近物品的时序关系来建模用户的行为模式,并对目标会话中的物品信息进行选择性地保留和利用,进而聚合为会话的整体特征,并将其作为目标会话对应的用户兴趣。为了更好地建模用户行为模式和用户兴趣,文中提出了一种基于时序推理的分层会话感知推荐模型。一方面,不同于以往工作对目标会话中“邻近物品即相关”的假设,文中对目标会话中交互物品之间的依赖关系进行推理,并在会话中学习更灵活的时序关系,以建模用户的行为模式;另一方面,从目标会话中的物品和物品特征两个层次进行物品信息的聚合,实现更细粒度的用户兴趣推断。在两个公共数据集上的实验中,所提模型均优于其他基准模型,验证了其有效性。
相关文章 | 多维度评价
7. 一种基于深度LSTM和注意力机制的金融数据预测方法
刘翀, 杜军平
计算机科学    2020, 47 (12): 125-130.   https://doi.org/10.11896/jsjkx.200700050
摘要 (null)   PDF (2144KB) (null)  
随着互联网的迅速发展金融市场每日产生了大量在线金融数据如每日的交易次数以及交易的总金额等.近年来金融市场数据的动态预测成为了研究热点.金融市场数据量大输入序列较多且会随着时间发生变化.针对这些问题文中提出了基于深度LSTM和注意力机制的金融数据预测模型.首先该模型能处理复杂的金融市场数据输入主要是多序列的输入;其次该模型使用深度LSTM网络对金融数据进行建模解决了数据间长依赖的问题并能学习到更加复杂的市场动态特征;最后该模型引入了注意力机制使得不同时间的数据对预测的重要程度不同预测更加精准.在真实的金融大数据集上的实验表明所提模型在动态预测领域具有准确性高、稳定性好的特点.
相关文章 | 多维度评价
8. 虚假评论识别研究综述
袁禄, 朱郑州, 任庭玉
计算机科学    2021, 48 (1): 111-118.   https://doi.org/10.11896/jsjkx.200500101
摘要 (null)   PDF (1541KB) (null)  
Web 2.0时代,消费者在在线购物、学习和娱乐时越来越多地依赖在线评论信息,而虚假的评论会误导消费者的决策,影响商家的真实信用,因此有效识别虚假评论具有重要意义。文中首先对虚假评论的范围进行了界定,并从虚假评论识别、形成动机、对消费者的影响以及治理策略4个方面归纳了虚假评论的研究内容,给出了虚假评论研究框架和一般识别方法的工作流程。然后从评论文本内容和评论者及其群组行为两个角度,对近十年来国内外的相关研究成果进行了综述,介绍了虚假评论效果评估的相关数据集和评价指标,统计分析了在公开数据集上实现的虚假评论有效识别方法,并从特征选取、模型方法、训练数据集、评价指标值等方面进行了对比分析。最后对虚假评论识别领域的有标注语料规模限制等未来研究方向进行了探讨。
相关文章 | 多维度评价
9. 基于BERT的社交电商文本分类算法
李可悦, 陈轶, 牛少彰
计算机科学    2021, 48 (2): 87-92.   https://doi.org/10.11896/jsjkx.200700111
摘要 (null)   PDF (1610KB) (null)  
随着网络购物的高速发展,网络商家和购物者在网络交易活动中产生了大量的交易数据,其中蕴含着巨大的分析价值。针对社交电商商品文本的文本分类问题,为了更加高效准确地判断文本所描述商品的类别,提出了一种基于BERT模型的社交电商文本分类算法。首先,该算法采用BERT(Bidirectional Encoder Representations from Transformers)预训练语言模型来完成社交电商文本的句子层面的特征向量表示,随后有针对性地将获得的特征向量输入分类器进行分类,最后采用社交电商文本的数据集进行算法验证。实验结果表明,经过训练的模型在测试集上的分类结果F1值最高可达94.61%,高出BERT模型针对MRPC的分类任务6%。因此,所提社交电商文本分类算法能够较为高效准确地判断文本所描述商品的类别,有助于进一步分析网络交易数据,从海量数据中提取有价值的信息。
相关文章 | 多维度评价
10. 面向协同过滤推荐的新型混合评分函数
肖诗涛, 邵蓥侠, 宋卫平, 崔斌
计算机科学    2021, 48 (3): 113-118.   https://doi.org/10.11896/jsjkx.200900067
摘要 (null)   PDF (2279KB) (null)  
协同过滤技术在现代推荐系统中得到了广泛的应用,其基本思想是相似的用户会喜欢相似的物品。评分函数(Score Function,SF)是协同过滤推荐模型的一个关键技术,用于评估用户对物品的喜好程度。然而,目前常用的评分函数存在如下缺陷,即内积评分函数难以有效捕捉用户与用户以及物品与物品的相似度,而欧几里德距离度量函数由于几何空间限制降低了模型的表达能力。文中提出了一种融合内积相似度和欧几里德距离度量的新颖的混合评分函数,并从理论上分析了此混合评分函数的性质,证明它能有效弥补现有评分函数的不足。此外,新的混合评分函数是一项通用技术,适用于诸多现有的推荐模型(如SVD++,MF,NGCF,CML等),能够提高模型的推荐质量。最后,在6个公开数据集上进行了大量实验,验证了新混合评分函数的优越性能。
相关文章 | 多维度评价
首页 | 上一页 | 下一页 | 尾页 第 1 页, 共2 页    总共13 条记录