1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
    数据库&大数据&数据科学 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 基于多空间属性信息融合的序列推荐
    王子泓, 邵蓥侠, 何吉元, 刘金宝
    计算机科学    2024, 51 (3): 102-108.   DOI: 10.11896/jsjkx.230600078
    摘要24)      PDF(pc) (2941KB)(92)    收藏
    序列推荐旨在从用户的历史行为中建模用户不断变化的兴趣,从而做出与用户兴趣相关的推荐。近年来,物品属性信息被证明可以提升序列推荐的性能,很多工作基于属性信息融合去提升序列推荐的性能,都取得了成效但仍存在一定的不足。首先,它们没有显式地建模出用户对物品属性的偏好或者只建模了一个属性偏好向量,无法充分表达用户的偏好。其次,它们的物品属性信息融合过程未考虑用户个性化信息的影响。因此,针对上述不足,提出了基于多空间属性信息融合的序列推荐(MAIF-SR)。文中提出了多空间属性信息融合框架,在不同的属性空间下融合属性序列并建模出用户对不同属性的偏好,用多维兴趣充分表达用户的偏好;设计了个性化属性注意力机制,在融合信息的过程中引入用户个性化信息,增强融合信息的个性化效果。在两个公开数据集以及一个工业私有数据集上进行实验,结果表明,MAIF-SR优于用于对比的基于属性信息融合的序列推荐。
    参考文献 | 相关文章 | 多维度评价
    2. MMOS:支持超卖的多租户数据库内存资源共享方法
    徐海洋, 刘海龙, 杨超云, 王硕, 李战怀
    计算机科学    2024, 51 (2): 27-35.   DOI: 10.11896/jsjkx.231000141
    摘要80)      PDF(pc) (3501KB)(257)    收藏
    多租户数据库为每个租户分配固定的资源配额,而这些资源配额通常未全部得到有效利用,这种静态分配策略导致资源利用率不高。若在不影响租户性能的前提下将未利用的空闲资源共享给其他租户使用,即实现资源超卖,则可以提高资源利用率、提升平台收益。为了支持资源超卖,需要准确预测租户的资源需求,动态地按需为租户分配资源。已有的针对多租户数据库的资源共享方法的研究对象主要是CPU资源,鲜有支持超卖的内存资源共享方法。鉴于此,在联机分析处理场景下,提出了一种支持超卖的多租户数据库内存资源共享方法MMOS(Multi-tenant database Memory resource Overselling and Sharing)。该方法通过准确预测每个租户的内存需求区间,按照区间上限为租户动态调整内存配额,在不影响租户性能的前提下,统一管理空闲内存资源以支持更多租户,实现内存超卖。实验结果表明,MMOS在租户负载动态变化的场景下具有较好效果。在不同资源量的资源池下,支持的租户数可以增加2~2.6倍,资源利用率峰值提升175%~238%。同时,每个租户的业务与性能未受影响。
    参考文献 | 相关文章 | 多维度评价
    3. 基于异构特征融合的多维时间序列分类算法
    乔帆, 王鹏, 汪卫
    计算机科学    2024, 51 (2): 36-46.   DOI: 10.11896/jsjkx.230100135
    摘要128)      PDF(pc) (3986KB)(348)    收藏
    随着大数据时代的到来和传感器的发展,多维时间序列分类问题成为数据挖掘领域的重要问题。多维时间序列存在维度高、维度间关系复杂、数据形态多变的特点,从而生成巨大的特征空间。现有方法难以选取有区分力的特征,导致方法的准确度普遍较低。另一方面,现有方法的分类结果的可解释性较差。针对上述问题,提出了一种基于异构特征融合的多维时间序列分类算法。该算法融合了时域、频域和区间统计值这3种特征并对特征进行聚类,从而找到最有代表性的特征。首先为每个维度提取不同类型的代表性特征,再通过多维度特征转换的方法融合所有维度的不同类型的特征,形成特征向量,并基于此训练分类模型。为了提高分类结果的可解释性,算法基于树结构生成不同类型的候选特征集合,然后通过聚合消除冗余和相似的特征,最终获得少量代表性特征。为了验证所提算法的有效性,在公开的UEA数据集上进行了大量实验。实验结果显示,所提算法的准确性、特征融合的合理性,以及分类结果的可解释性均优于现有方法。
    参考文献 | 相关文章 | 多维度评价
    4. 基于知识图谱的家政服务课程推荐融合模型
    邹莼玲, 朱郑州
    计算机科学    2024, 51 (2): 47-54.   DOI: 10.11896/jsjkx.221200149
    摘要71)      PDF(pc) (3638KB)(237)    收藏
    针对家政服务从业人员对家政服务课程在线学习需求的增加,而现有的家政服务课程在线学习网站存在资源较少、课程不够系统化和不具有课程推荐功能等状况,使得家政服务相关从业人员的在线学习门槛变高。通过分析现有的家政服务课程在线学习网站,提出构建家政服务课程知识图谱,并将家政服务课程知识图谱与推荐算法进行融合,设计了一种融合深度学习技术的规则与水波偏好传播相结合的R-RippleNet家政服务课程推荐模型。R-RippleNet模型的使用对象包括老学员和新学员,老学员部分是基于水波偏好传播模型进行课程推荐,新学员部分则基于规则模型进行课程推荐。实验结果表明,老学员使用R-RippleNet模型的AUC值为95%,ACC值为89%,F1值为89%,新学员使用R-RippleNet模型的总体精确率均值为77%,NDCG均值为93%。
    参考文献 | 相关文章 | 多维度评价
    5. 基于知识图谱与用户兴趣的推荐算法
    许天月, 柳先辉, 赵卫东
    计算机科学    2024, 51 (2): 55-62.   DOI: 10.11896/jsjkx.221200169
    摘要98)      PDF(pc) (2466KB)(225)    收藏
    为了解决协同过滤推荐算法中存在的冷启动以及数据稀疏性等问题,文中引入了具有丰富语义信息和路径信息的知识图谱。基于其结构特征,将图神经网络应用于知识图谱的推荐算法得到了研究者的青睐。推荐算法的核心在于获取物品特征和用户特征,然而,该方面研究的重点在于更好地表达物品特征,而忽略了用户特征的表示。文中在知识图谱图神经网络的基础上,提出了一种基于知识图谱与用户兴趣的推荐算法。该算法通过引入一个独立的用户兴趣捕获模块,来学习用户历史信息,引入了用户兴趣,使得推荐算法在用户和物品两个方面都得到了良好表征。实验结果表明,在MovieLens数据集上,基于知识图谱与用户兴趣的推荐算法实现了数据的充分利用,具有良好的效果,对推荐准确性起到了促进作用。
    参考文献 | 相关文章 | 多维度评价
    6. 基于对比学习的时间序列聚类方法
    杨博, 罗嘉琛, 宋艳涛, 吴宏涛, 彭甫镕
    计算机科学    2024, 51 (2): 63-72.   DOI: 10.11896/jsjkx.221200038
    摘要73)      PDF(pc) (4208KB)(208)    收藏
    现有深度聚类方法严重依赖于复杂的特征提取网络和聚类算法,难以直观地定义时间序列的相似性。使用对比学习的方法可以从正负样本数据的角度定义时间序列的区间相似性,并对特征提取和聚类进行联合优化。基于对比学习的思想,提出了一种不依赖于复杂表示网络的时间序列聚类模型。同时,为解决现有时间序列数据增强方法难以描述时间序列的变换不变性的问题,提出了一种基于时间序列形状特征的数据增强方法,在忽略数据时域特征情况下捕捉序列的相似性。模型通过设置不同的形状转换参数构造正负样本对,学习特征表示并投影到特征空间,在实例级对比和聚类级对比层面利用交叉熵损失最大化正样本对相似性,最小化负样本对相似性,实现了端到端的联合学习表示和聚类分配。在32个UCR中的数据集上进行了大量实验,结果表明该模型可以在不依赖于特定表示学习网络的情况下得到与现有方法相当或优于现有方法的聚类结果。
    参考文献 | 相关文章 | 多维度评价
    7. 基于组合结构的逻辑回归点击预测算法
    郭尚志, 廖晓峰, 鲜开义
    计算机科学    2024, 51 (2): 73-78.   DOI: 10.11896/jsjkx.230100052
    摘要49)      PDF(pc) (2183KB)(164)    收藏
    随着互联网和广告平台的飞速发展,面对海量的广告信息,为了提升用户点击率,提出一种改进的基于组合结构的逻辑回归点击预测算法LRCS(Logical Regression of Combination Structure)。该算法基于不同类别特征广告受众可能不同的特点,首先,采用FM进行特征组合,产生两类组合特征;其次,将一类特征组合作为聚类算法的输入进行聚类;最后,将另一类特征组合输入由聚类产生的分段GBDT+逻辑回归组合的模型中进行预测。在两个公开数据集中进行了多角度验证,结果表明与其他几类常用的点击预测算法相比,LRCS在点击预测上有一定的性能提升。
    参考文献 | 相关文章 | 多维度评价
    8. 基于正则模糊划分的模糊系统及其逼近性质
    彭小玉, 潘小东, 申涵寒, 何红梅
    计算机科学    2024, 51 (2): 79-86.   DOI: 10.11896/jsjkx.221100229
    摘要28)      PDF(pc) (1930KB)(169)    收藏
    文中讨论了带有不同模糊基函数的模糊系统的逼近问题。首先,基于一维正则模糊划分和重叠函数建立多维正则模糊划分,以划分中的元素为模糊基函数设计模糊系统,应用Weierstrass逼近定理证明了该模糊系统是通用逼近器,给出了模糊系统的逼近误差界。其次,提出了多项式型、指数型和对数型模糊系统,并给出了带有隶属函数参数的逼近误差界。最后,通过数值实验对不同模糊系统的逼近能力进行了比较,实验结果进一步验证了理论分析的正确性。
    参考文献 | 相关文章 | 多维度评价
    9. 基于异常检测的标签噪声过滤框架
    许茂龙, 姜高霞, 王文剑
    计算机科学    2024, 51 (2): 87-99.   DOI: 10.11896/jsjkx.221100264
    摘要61)      PDF(pc) (6215KB)(173)    收藏
    噪声是影响机器学习模型可靠性的重要因素,而标签噪声相比特征噪声对模型训练更具决定性的影响。噪声过滤是处理标签噪声的一种有效方法,它不需要估计噪声率,也不需要依赖任何损失函数,然而目前大多数标签噪声过滤算法都会面临过度清洗问题。针对此问题,文中提出了基于异常检测的标签噪声过滤框架,并在此框架下给出了一种自适应近邻聚类的标签噪声过滤算法AdNN(Label Noise Filtering via Adaptive Nearest Neighbor Clustering)。该算法分别考虑分类问题中的每一个类别,把标签噪声检测问题转化成离群点检测问题,识别出每一个类别的离群点,然后根据相对密度去除离群点中的非噪声样本,得到噪声备选集,最后通过噪声因子对噪声备选集中的离群点进行噪声识别和过滤。实验结果表明,在合成数据集和公开数据集上,所提噪声过滤方法可以减轻过度清洗现象,同时能够得到很好的噪声过滤效果和分类预测性能。
    参考文献 | 相关文章 | 多维度评价
    10. 基于Lp范数的非负矩阵分解并行优化算法
    黄路路, 唐舒宇, 张伟, 代祥光
    计算机科学    2024, 51 (2): 100-106.   DOI: 10.11896/jsjkx.230300040
    摘要42)      PDF(pc) (2443KB)(159)    收藏
    非负矩阵分解算法可以从高维数据中提取出低维和稀疏的有用信息,是处理图像聚类、数据压缩和特征提取等问题的重要手段。传统非负矩阵分解算法大多采用欧几里得距离来度量重构误差,尽管其在许多任务中已经显示出有效性,但在解决实际应用问题时仍面临着聚类效果欠佳、收敛速度慢、稳定性较差等问题。为解决这些问题,文中采用Lp范数作为非负矩阵分解的损失函数,通过调节系数p来获得更好的聚类结果。基于协同优化理论和Majorization-Minimization算法,使用粒子群优化算法来并行求解基于Lp范数的非负矩阵分解问题,并在多个真实数据集上验证了所提方法的可行性和有效性。实验结果表明所提算法明显提升了程序的执行效率且一系列评价指标均优于传统非负矩阵分解算法。
    参考文献 | 相关文章 | 多维度评价
    11. 信息传播网络推断综述
    王宇辰, 高超, 王震
    计算机科学    2024, 51 (1): 99-112.   DOI: 10.11896/jsjkx.230500127
    摘要99)      PDF(pc) (2237KB)(1868)    收藏
    信息的传播扩散可以建模为在潜在传播网络上发生的随机过程。由于在实际应用场景中,潜在的传播网络拓扑结构和清晰的传播过程往往是不可见的,因此根据观测到的传播结果,如节点感染时间、状态等信息,推断传播网络拓扑结构,对于分析与理解传播过程、跟踪传播路径以及预测未来传播事件起着重要作用。近年来,传播网络推断问题吸引了众多研究者的目光。文中对近年来的信息传播网络推断工作进行系统性的介绍和总结,为传播网络推断提供一个新视角。
    参考文献 | 相关文章 | 多维度评价
    12. 锚社区时序网络图生成算法
    郑舒文, 王朝坤
    计算机科学    2024, 51 (1): 113-123.   DOI: 10.11896/jsjkx.231000153
    摘要77)      PDF(pc) (4552KB)(1945)    收藏
    图数据相关分析任务往往需要合成数据集来检验和评估算法的有效性和高效性。真实世界图数据不仅在拓扑上具有社区结构特征,还往往在时序上呈现出一定的演化特性,社区节点可能在锚定时间窗口内频繁交互。然而,现有合成方法存在一定局限性。大多方法或仅关注网络中的社区结构,或仅关注网络中的时序信息,无法生成节点锚时频繁交互的社区。为克服此局限,提出了锚社区概念及定义以刻画社区内节点锚时频繁交互的特性;接着,基于分布概率生成模型提出了一般时序图生成算法;进一步地,提出了锚社区时序网络图生成算法(GTN-AC),不仅允许用户配置锚定时间窗口,还允许用户指定度数分布和时间戳分布。实验结果表明,相较于基准方法,GTN-AC能在保证较优生成质量的同时拥有较快的生成速度。
    参考文献 | 相关文章 | 多维度评价
    13. 许可链下的事务并行执行模型
    董昊, 赵恒泰, 王子尧, 袁野, 张奥千
    计算机科学    2024, 51 (1): 124-132.   DOI: 10.11896/jsjkx.230800201
    摘要53)      PDF(pc) (1602KB)(1771)    收藏
    现有的许可链系统大多采取串行的事务执行方式,无法利用多核处理器的性能优势。在共识算法性能较高的许可链中,这种串行的事务执行方法将会成为性能瓶颈。为降低排序-执行-验证架构的许可链中事务执行的时间开销,文中提出了两种事务并发模型。首先,提出了基于地址表的并行执行模型,通过静态分析的方法将事务的读写集映射到地址表中,并利用地址表构建调度图实现无数据冲突的事务并行执行;其次,针对静态分析方法不适用于读写需求复杂的应用场景,提出了基于多版本时间戳排序的并行执行模型,领导者节点使用多版本时间戳排序算法并行地预执行事务并将调度图以事务依赖三元组的形式存储入区块,所有验证节点通过事务依赖三元组进行调度,在保证一致性的前提下实现事务的并行执行;最后,在Tendermint中实现了所设计的两种事务并发模型,并进行了事务执行阶段性能测试和多节点性能测试。实验结果表明,相比串行执行,所提模型在单节点8线程时的事务执行时间分别减少了68.6%和28.5%,4节点8线程时区块链吞吐量分别提升了约43.4%和19.5%。
    参考文献 | 相关文章 | 多维度评价
    14. 基于知识图谱的兴趣捕捉推荐算法
    金宇, 陈红梅, 罗川
    计算机科学    2024, 51 (1): 133-142.   DOI: 10.11896/jsjkx.230500133
    摘要139)      PDF(pc) (2531KB)(1902)    收藏
    知识图谱作为一种辅助信息,可以为推荐系统提供更多的上下文信息和语义关联信息,从而提高推荐的准确性和可解释性。通过将项目映射到知识图谱中,推荐系统可以将从知识图谱中学习到的外部知识注入到用户和项目的表示中,进而增强用户和项目的表示。但在学习用户偏好时,基于图神经网络的知识图谱推荐主要通过项目实体利用知识图谱中的属性信息和关系信息等知识信息。由于用户节点并不与知识图谱直接相连,这就导致不同的关系信息和属性信息在语义上和用户偏好方面是独立的,缺乏关联。这表明,基于知识图谱的推荐难以根据知识图谱中的信息来准确捕获用户的细粒度偏好。因此,针对用户细粒度兴趣难以捕捉的问题,提出了一种基于知识图谱的兴趣捕捉推荐算法。该算法利用知识图谱中的关系和属性信息来学习用户的兴趣,并增强用户和项目的嵌入表示。为了充分利用知识图谱中的关系信息,设计了关系兴趣模块以学习用户对不同关系的细粒度兴趣。该模块将每个兴趣表示为知识图谱中关系向量的组合,并利用图卷积神经网络在用户项目图和知识图谱中传递用户兴趣以学习用户和项目的嵌入表示。此外,还设计了属性兴趣模块以学习用户对不同属性的细粒度兴趣。该模块采用切分嵌入的方法为用户和项目匹配与之相似的属性,并使用与关系兴趣模块中相似的方法进行消息传播。最终,在两个基准数据集上进行实验,实验结果验证了该方法的有效性和可行性。
    参考文献 | 相关文章 | 多维度评价
    15. 基于异质图神经网络预训练的多标签文档分类研究
    吴家伟, 方全, 胡骏, 钱胜胜
    计算机科学    2024, 51 (1): 143-149.   DOI: 10.11896/jsjkx.230600079
    摘要67)      PDF(pc) (2057KB)(1829)    收藏
    多标签文档分类是一种将文档实例与相关标签相关联的技术,近年来受到越来越多研究者的关注。现有的多标签文档分类方法尝试探索文本之外的信息的融合,如文档元数据或标签结构。然而,这些方法要么简单地利用元数据的语义信息,要么没有考虑标签的长尾分布,因此忽略了文档及其元数据之间的高阶关系和标签的分布规律等信息,从而影响到多标签文档分类的准确性。因此,文中提出一种新的基于异质图神经网络预训练的多标签文档分类方法。该方法通过构造文档与其元数据的异质图,采用两种对比学习预训练方法捕获文档与其元数据之间的关系,并通过平衡标签长尾分布的损失函数来提高多标签文档分类的准确性。在基准数据集上的实验结果表明,所提方法的准确率比Transformer提高了8%,比BertXML提高了4.75%,比MATCH提高了1.3%。
    参考文献 | 相关文章 | 多维度评价
    16. 基于AR与DNN联合模型的地理传感器时间序列预测
    董红斌, 韩爽, 付强
    计算机科学    2023, 50 (11): 41-48.   DOI: 10.11896/jsjkx.230500231
    摘要93)      PDF(pc) (1856KB)(2395)    收藏
    地理传感器时间序列具有复杂动态的语义时空相关性和地理时空相关性。尽管已经开发了各种深度学习模型用于时间序列预测,但很少有模型能专注于捕捉地理传感器时间序列内的多类型时空相关性。此外,同时预测多个传感器在未来某一时间步的值非常具有挑战性。为了解决上述问题,提出了一种自回归模型与深度神经网络的联合模型( Joint model of Autoregression and Deep Neural Network,J-ARDNN),用于处理地理传感器时间序列的多目标预测任务。在该模型中,空间模块用于捕捉不同序列间多类型空间的相关性,时间模块采用时间卷积网络来提取单个序列内的时间依赖关系。此外,还引入自回归模型来提高预测模型的鲁棒性。为了验证J-ARDNN模型的有效性和优越性,在不同领域的真实时间序列数据集上进行了充分的实验,结果表明,J-ARDNN模型的预测性能优于对比方法。
    参考文献 | 相关文章 | 多维度评价
    17. 基于边推断增强对比学习的社交媒体谣言检测模型
    刘楠, 张凤荔, 尹嘉奇, 陈学勤, 王瑞锦
    计算机科学    2023, 50 (11): 49-54.   DOI: 10.11896/jsjkx.221000043
    摘要125)      PDF(pc) (1741KB)(2467)    收藏
    近年来,为了应对谣言广泛传播所带来的一系列社会问题,研究者开发了许多基于深度学习的谣言检测方法。虽然这些方法通过从传播结构中学习谣言的高级表征实现了较优的检测性能,但它们都忽略了在构造传播网络时边的不确定性,导致模型的可靠性降低,出现累积误差。针对该问题,提出了边推断增强对比学习的社交媒体谣言检测模型(Edge-Inference Con-trastive Learning,EICL)。首先,EICL基于消息转发(评论)时间戳为给定消息构建传播图;然后,利用新设计的边权重调整策略进行事件传播图数据增强以捕获传播结构边的不确定性;最后,利用对比学习方法解决原数据集本身存在的稀疏性问题,提高模型泛化能力。实验结果表明,与其他基准模型相比,模型EICL在公开数据集Twitter15和Twitter16上的准确率分别提高了2.0%和3.0%,证明其可显著提升社交媒体谣言检测效果。
    参考文献 | 相关文章 | 多维度评价
    18. 基于N-list和DiffNodeset结构的频繁项集并行挖掘算法
    张阳, 王瑞, 吴贯锋, 刘弘毅
    计算机科学    2023, 50 (11): 55-61.   DOI: 10.11896/jsjkx.221000011
    摘要189)      PDF(pc) (1869KB)(2402)    收藏
    频繁项集挖掘是数据挖掘中的一个基本问题,在许多数据挖掘应用中发挥着重要作用。针对并行频繁项集挖掘算法MrPrePost在大数据环境存在密集数据集下算法效率下降、计算节点负载量不均衡和冗余搜索等问题,提出了基于N-lists和DiffNodeset两种结构的并行频繁项集挖掘算法(Parallel Mining algorithm of Frequent Itemset based on N-list and DiffNodeset structure,PFIMND)。首先,根据N-list和DiffNodeset在存储不同数据集上的优势,设计了稀疏度估计函数(Sparsity Estimation,SE),根据数据集稀疏程度灵活选取其中之一压缩数据集,相比采用单一存储结构消耗的内存更少;其次,提出了计算量估计函数(Computation Estimation,CE)来估计频繁1项集F-list中每一项的负载量,并根据计算量进行均匀分组;最后采用集合枚举树作为搜索空间,为避免组合爆炸和冗余搜索问题,设计了超集剪枝策略和基于宽度优先搜索的剪枝策略,生成最终的挖掘结果。实验结果表明,相比同类算法HP-FIMBN,PFIMND算法在Susy数据集上挖掘频繁项集的效果提升了12.3%。
    参考文献 | 相关文章 | 多维度评价
    19. 基于对比学习的多关系属性图聚类方法
    谢卓, 康乐, 周丽娟, 张志鸿
    计算机科学    2023, 50 (11): 62-70.   DOI: 10.11896/jsjkx.220900166
    摘要238)      PDF(pc) (2715KB)(4470)    收藏
    现实世界包含复杂的图数据,其节点之间通常包含多种关系,这种图被称为多关系属性图。图聚类是挖掘图数据相似信息的技术之一,然而现有的图聚类的方法大多只适用于单关系图。即使有的方法考虑到了多关系图,也往往是将图表示学习与聚类看作两个单独的过程。受Deep Graph Infomax(DGI)算法的启发,文中设计了一种基于对比学习的多关系属性图的聚类方法(CCLMAG),用于解决上述问题:1)通过引入社区级互信息机制,弥补了DGI算法无法融合簇信息的缺点;2)引入嵌入融合模块来聚合不同关系上的节点嵌入;3)引入聚类优化模块将图表示学习与聚类两个过程联系起来,使得学习到的节点表示更适合聚类任务。在3个公开数据集和1个构建的期货数据集上的大量实验表明,所提方法优于目前最先进的基线方法,且具有实际应用价值。
    参考文献 | 相关文章 | 多维度评价
    20. 融合无监督SimCSE的短文本聚类研究
    贺文灏, 吴春江, 周世杰, 何朝鑫
    计算机科学    2023, 50 (11): 71-76.   DOI: 10.11896/jsjkx.220900214
    摘要118)      PDF(pc) (2238KB)(212)    收藏
    传统的浅层文本聚类方法在对短文本聚类时,面临上下文信息有限、用词不规范、实际意义词少等挑战,导致文本的嵌入表示稀疏、关键特征难以提取等问题。针对以上问题,文中提出一种融合简单数据增强方法的深度聚类模型SSKU(SBERT SimCSE K-means Umap)。该模型采用SBERT对短文本进行嵌入表示,利用无监督SimCSE方法联合深度聚类K-Means算法对文本嵌入模型进行微调,改善短文本的嵌入表示使其适于聚类。使用Umap流形降维方法学习嵌入局部的流形结构来改善短文本特征稀疏问题,优化嵌入结果。最后使用K-Means算法对降维后嵌入进行聚类,得到聚类结果。在StackOverFlow,Biomedical等4个公开短文本数据集进行大量实验并与最新的深度聚类算法作对比,结果表明所提模型在准确度与标准互信息两个评价指标上均表现出良好的聚类性能。
    参考文献 | 相关文章 | 多维度评价
    21. 基于节点聚类复杂度的图聚类方法
    郑文萍, 王富民, 刘美麟, 杨贵
    计算机科学    2023, 50 (11): 77-87.   DOI: 10.11896/jsjkx.230600003
    摘要213)      PDF(pc) (4558KB)(2425)    收藏
    图聚类可以发现网络中的社区结构,是复杂网络分析中的一项重要任务。针对不同节点的聚类难度各异的问题,提出了一种基于节点聚类复杂度的图聚类算法(Graph Clustering Algorithm Based on Node Clustering Complexity,GCNCC),用于判断节点的聚类复杂度,为聚类复杂度低的节点赋予伪标签,利用伪标签提供的监督信息降低其他节点的聚类复杂度,进而得到网络聚类结果。GCNCC包括节点表示、节点聚类复杂度判别和图聚类3个主要模块。节点表示模块得到保持网络集聚性的表示;节点聚类复杂度判别模块用于判断网络中的低聚类复杂度节点,并利用低聚类复杂度节点的伪标签信息来优化更新网络中其他节点的聚类复杂度;图聚类模块采用标签传播方法,将低聚类复杂度节点标签传播给高聚类复杂度节点,以得到聚类结果。在3个真实的引文网络和3个生物数据集上与9种经典算法进行对比,算法GCNCC在ACC,NMI,ARI和F1等方面均表现良好。
    参考文献 | 相关文章 | 多维度评价
    22. 基于时间感知Transformer的交通流预测方法
    刘起东, 刘超越, 邱紫鑫, 高志敏, 郭帅, 刘冀钊, 符明晟
    计算机科学    2023, 50 (11): 88-96.   DOI: 10.11896/jsjkx.221000201
    摘要228)      PDF(pc) (3039KB)(2521)    收藏
    作为智能交通系统的关键一环,交通流预测面临着长时预测不准的难题,其主要挑战在于交通流数据本身具有复杂的时空关联。近年来,Transformer的提出使得时序数据预测的研究取得了巨大进展,但将Transformer应用于交通流预测仍然存在以下两个问题:1)静态的注意力机制难以捕获交通流随时间动态变化的时空依赖关系;2)采用自回归的预测方式会引发严重的误差累积现象。针对以上问题,提出了一种基于时间感知Transformer的交通流预测模型。首先,设计了一种新的时间感知注意力机制,可以根据时间特征定制注意力计算方案,从而更精准地反映时空依赖关系;其次,在Transformer的训练阶段舍弃了Teacher Forcing机制,并采用非自回归的预测方式来避免误差累积问题;最后,在两个真实交通数据集上进行实验,实验结果表明,所提方法可以有效捕获交通流的时空依赖,相比最优的基线方法,长时预测性能提升了2.09%~ 4.01%。
    参考文献 | 相关文章 | 多维度评价
    23. 骨架数据增强和双重最近邻检索自监督动作识别
    吴雨珊, 徐增敏, 张雪莲, 王涛
    计算机科学    2023, 50 (11): 97-106.   DOI: 10.11896/jsjkx.230500158
    摘要83)      PDF(pc) (2753KB)(2357)    收藏
    传统基于骨架数据的自监督方法常将某一样本的不同增强作为正例,将其余样本均视为负例,这使得正负样本的比例严重失衡,限制了相同语义信息的样本发挥作用。针对上述问题,提出了一种正样本不受数据增强限制的双重最近邻检索动作识别算法DNNCLR。首先,基于人体关节的物理连接设计了一个新的关节级空间数据增强,即Bodypart增强,对输入的骨架序列用正态分布数组随机替换,以获得高级语义嵌入;其次,为避免正样本受数据增强的限制,提出了一种更合理的双重最近邻检索(DNN)正样本扩充策略,进一步提出了双重最近邻检索对比损失DNN Loss。具体为利用支撑集进行全局检索,将正样本集的寻找范围扩展到普通数据增强无法覆盖的新数据点;而负样本集中存在被误判的正样本,其是来自不同视频但语义信息相同的骨架样本。为此,再一次利用最近邻检索,从负样本集中寻找这种潜在的正例,二次扩展正样本集,并进一步提出双重最近邻检索对比损失,迫使模型学习更多的一般特征表示,使得模型优化更加合理。最后,将DNNCLR算法应用在AimCLR模型上,得到AimDNNCLR模型,并在NTU-RGB+D数据集上对该模型进行了线性评估,与前沿模型相比,所提方法在精度上平均提升了3.6%。
    参考文献 | 相关文章 | 多维度评价
    24. 基于二部图表示的属性网络社区发现算法
    赵兴旺, 薛晋芳
    计算机科学    2023, 50 (11): 107-113.   DOI: 10.11896/jsjkx.221000226
    摘要211)      PDF(pc) (1487KB)(2373)    收藏
    属性网络社区发现是网络数据分析中的一项重要研究内容。为了提高社区发现的准确性,现有算法大多通过融合拓扑信息和属性信息对属性网络进行低维表示,然后基于低维特征进行社区发现。然而,这类算法通常基于深度模型进行表示学习,缺乏一定的可解释性。因此,文中提出了一种基于二部图表示的属性网络社区发现算法,以提高社区发现结果的准确性和可解释性。首先,分别基于属性网络的拓扑信息和属性信息计算网络中各个节点作为代表点的概率,通过两类信息融合选出一定比例的节点作为代表点;其次,基于拓扑结构和节点属性计算各个节点到代表点的距离,构建二部图;最后,基于二部图利用谱聚类算法进行社区发现,得到最终结果。在人造属性网络和真实属性网络上与已有的属性网络社区发现算法进行实验比较分析。实验结果表明,所提算法在标准化互信息、调整兰德指数等评价指标上均优于已有算法。
    参考文献 | 相关文章 | 多维度评价
    25. 路网拓扑感知的轨迹表示学习方法
    陈嘉俊, 陈伟, 赵雷
    计算机科学    2023, 50 (11): 114-121.   DOI: 10.11896/jsjkx.221000058
    摘要144)      PDF(pc) (2889KB)(2405)    收藏
    现有路网场景下的轨迹表示学习(Trajectory Representation Learning,TRL) 方法可分为两类,即基于循环神经网络(RNN)和长短期记忆(LSTM)的序列化模型以及基于自注意力机制的学习模型。尽管已有研究做出了重大贡献,但它们仍然存在以下问题:(1)现有的路网表示学习方法忽略了相邻路段之间的转移概率,不能充分捕获路网的拓扑结构信息;(2)基于自注意力机制的学习模型在短轨迹和中长轨迹上的表现优于序列化模型,但在长轨迹的表示学习上性能较差,未能很好刻画轨迹的长期语义特征。基于此,文中提出了一个新的轨迹表示学习模型TRMS。该模型采用概率感知游走来优化传统DeepWalk算法,以深入挖掘路网的拓扑结构,然后将自注意力机制和Masked Seq2Seq学习框架相结合来捕获轨迹的长期语义特征。最后,基于真实轨迹数据进行实验,结果表明,TRMS在短、中、长轨迹的嵌入表示上,性能都优于最好的基线方法。
    参考文献 | 相关文章 | 多维度评价
    26. NeuronSup:基于偏见神经元抑制的深度模型去偏方法
    倪洪杰, 刘嘉威, 郑海斌, 陈奕芃, 陈晋音
    计算机科学    2023, 50 (11): 122-131.   DOI: 10.11896/jsjkx.220900169
    摘要207)      PDF(pc) (3193KB)(2400)    收藏
    随着深度学习的广泛应用,研究者在关注模型分类性能的同时,还需要关注模型的决策是否公平可信。存在决策偏见的深度模型会造成极大的负面影响,因此如何维持深度模型的分类正确率,同时提高模型的决策公平至关重要。目前已有工作提出了较多方法,用于改善模型的个体公平,但是这些方法仍然在去偏效果、去偏后模型可用性、去偏效率等方面存在缺陷。为此,文中分析了深度模型存在个体偏见时神经元异常激活现象,提出了一种基于偏见神经元抑制的模型去偏方法NeuronSup,具有显著降低个体偏见、对主任务性能影响小、时间复杂度低等优势。具体而言,首先根据深度模型部分神经元由于个体偏见而产生异常激活的现象提出了偏见神经元的概念。然后,利用歧视样本对查找深度模型中的偏见神经元,通过抑制偏见神经元的异常激活大幅降低深度模型的个体偏见,并且根据每个神经元的最大权重边确定主任务性能神经元,通过保持深度模型的主任务性能神经元参数不变,来减小去偏操作对深度模型分类性能造成的影响。因为 NeuronSup只对深度模型中的特定神经元进行去偏操作,所以时间复杂度更低,效率更高。最后,在3个真实数据集的6种敏感属性上开展去偏实验,与5种对比算法相比,NeuronSup将个体公平指标THEMIS降低了50%以上,同时使去偏操作对深度模型分类准确率的影响降低到3%以内,验证了NeuronSup在保证深度模型分类能力的情况下降低个体偏见的有效性。
    参考文献 | 相关文章 | 多维度评价
    27. 面向兴趣点推荐系统的自然噪声过滤算法
    朱俊, 韩立新, 宗平, 徐逸卿, 夏吉安, 唐铭
    计算机科学    2023, 50 (11): 132-142.   DOI: 10.11896/jsjkx.230400045
    摘要117)      PDF(pc) (4795KB)(2380)    收藏
    推荐系统源数据中存在着固有的自然噪声,给推荐算法带来了误差与干扰。现有研究更加关注以各类安全攻击为代表的恶意噪声,仅有少数文献针对更为隐蔽、更难处理的自然噪声进行研究,且这些研究几乎都集中在传统推荐领域。在兴趣点推荐场景中,无论是源数据特征,还是自然噪声的产生原因和表现方式,均与传统推荐领域有较大差别。针对兴趣点推荐系统中的自然噪声,提出了基于离散特征量化与聚类距离分析的自然噪声过滤算法NFDC。该算法定义并计算用户签到数据的离散度,量化数据驱动的不确定性,利用推荐算法的准确度(F1值)量化预测驱动的不确定性,深入挖掘两者之间的相关性,构建经验模型,推导潜在自然噪声比例;采用模糊C均值聚类方法分析用户行为模式的相似性,在聚类距离分析的基础上筛选可疑噪声,并自定义噪声验证规则,删除真正的自然噪声。在两个真实的位置社交网络数据集(Brightkite和Gowalla)中,分别采用NFDC算法和其他4种基准方法对源数据进行预处理,将处理后的数据集分别输入到5类代表性的兴趣点推荐算法中,对比不同的降噪技术对提升各类兴趣点推荐算法准确性的影响程度。实验结果表明,NFDC算法能够有效降低系统源数据中的自然噪声,为后续的推荐算法提供可靠的输入。与其他降噪数据集中的最高推荐精度相比,各类推荐算法在NFDC处理后的Brightkite和Gowalla数据集中的准确度分别平均提高了15.95%和5.00%。
    参考文献 | 相关文章 | 多维度评价
    28. 一种结构关系一致的对比聚类方法
    许洁, 王立松
    计算机科学    2023, 50 (9): 123-129.   DOI: 10.11896/jsjkx.220700288
    摘要282)      PDF(pc) (2489KB)(604)    收藏
    作为一项基本的无监督学习任务,聚类旨在将无标签的、混杂的图像数据划分成语义相似的类。最近的一些方法通过引入数据增强,利用对比学习方法学习特征表示和聚类分配,关注模型区分不同语义类的能力,可能导致来自同一语义类样本的特征嵌入被分离的情况。针对以上问题,提出一种结构关系一致的对比聚类方法(Contrastive Clustering with Consistent Structural Relations,CCR),在实例级和聚类级执行对比学习,并且增加关系级别的一致性约束,让模型学习更多来自结构关系的“正数据对”信息,从而减小聚类嵌入被分离所带来的影响。实验结果表明,CCR方法在图像基准数据集上得到了比近年来的无监督聚类方法更优异的结果。模型在CIFAR-10和STL-10数据集上的平均准确度比相同实验设置下的最好方法提升了1.7%,在CIFAR-100数据集上提升了1.9%。
    参考文献 | 相关文章 | 多维度评价
    29. 高效低索引的图相似性搜索算法
    邱珍, 郑朝晖
    计算机科学    2023, 50 (9): 130-138.   DOI: 10.11896/jsjkx.220700105
    摘要141)      PDF(pc) (2297KB)(599)    收藏
    图相似性搜索是在给定的度量标准下查找与查询图相似的图集合,目前大多采用“过滤-验证”的计算框架。针对现有方法中过滤下界不紧密和索引空间占用较大等问题,提出了一种基于查询图分区的多层级过滤、低索引空间占用的图相似性搜索算法Z-Index。该算法首先通过全局粗粒度过滤得到预候选集;然后提出基于扩展概率的查询图分区算法,并采用层级过滤机制进一步精简候选集,增强下界紧密性;最后引入序列相似性差值计算序列中数据分布的稀疏度,提出分区压缩和差值压缩两种编码压缩算法,并据此构建“零”索引结构,降低索引空间开销。实验结果表明,Z-Index算法所得下界更加紧密,产生的候选集大小可减少50%左右,算法执行时间大大缩短,且该算法在索引空间占用极小的情况下仍具有可扩展性。
    参考文献 | 相关文章 | 多维度评价
    30. 基于人群移动模式先验的兴趣点推荐
    伊秋华, 高浩然, 陈馨琪, 孔祥杰
    计算机科学    2023, 50 (9): 139-144.   DOI: 10.11896/jsjkx.220900114
    摘要308)      PDF(pc) (2574KB)(574)    收藏
    兴趣点推荐是基于位置的社交网络中的一项重要任务,为用户提供个性化的地点推荐。然而,当前的兴趣点推荐方法主要学习用户在兴趣点上的签到历史和用户间的社交关系网络,城市人群出行规律无法得到有效利用。首先提出了人群移动模式提取框架(Human Mobility Pattern Extraction,HMPE),利用图神经网络作为人群移动模式的提取器,引入注意力机制捕获城市交通模式的时空信息。HMPE通过制定下游任务,设计上采样模块将表征向量还原为任务目标,实现端到端的框架学习训练,完成人群移动模式提取器的预训练。其次,提出了兴趣点推荐算法HMRec(Human Mobility Recommendation),引入了人群移动模式的先验知识,使得推荐结果更符合城市中的人类出行意愿。对比实验结果显示,HMRec的表现优于基线模型。最后,讨论了兴趣点推荐存在的问题和未来的研究方向。
    参考文献 | 相关文章 | 多维度评价
    首页 | 前页| 后页 | 尾页 第1页 共7页 共206条记录