1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
    大数据 & 数据科学 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 基于用户行为序列特征增强的推荐算法研究
    曹天若, 李景悦
    计算机科学    2025, 52 (11A): 240400141-5.   DOI: 10.11896/jsjkx.240400141
    摘要268)      PDF(pc) (2133KB)(149)    收藏
    随着互联网的迅猛发展,各种功能的APP层出不穷,人们已经可以在互联网上实现各种行为操作,各类商品、新闻、广告等信息流持续不断地产生和传播。与此同时,推荐算法领域的工程师们也在不断收集有用特征来迭代优化算法效果。从早期收集画像特征,演变到用户行为日志和历史行为统计,到目前的用户行为序列特征研究,目前推荐算法领域已取得一套完整的特征工程范式。随着用户的历史行为序列近年来被发现是非常重要的特征。但是,仅凭物品ID能获得的语义嵌入非常有限,也无法自动与其他相关信息进行交叉,其应用在算法效果收益方面也非常有限。自2021年底以来,语言模型的引入在学术界和工业界的应用已取得显著成果,工程师们在推荐算法领域也进行了一些尝试。文中基于语言模型提出了用户行为序列特征增强推荐算法,借助语言模型的语义分析和逻辑思考能力,采用用户行为序列特征的预训练表示学习来实现特征增强,最终提升推荐算法的模型排序能力。
    参考文献 | 相关文章 | 多维度评价
    2. 基于深度神经网络的大样本作战仿真资源分配方法
    叶帅, 李豪, 史培腾, 黄昱霖
    计算机科学    2025, 52 (11A): 241000036-5.   DOI: 10.11896/jsjkx.241000036
    摘要277)      PDF(pc) (2672KB)(161)    收藏
    随着人工智能的发展,作战实验呈现智能化趋势。大样本仿真是开展智能化作战实验的重要支撑,是解决作战实验变量因子多、组合复杂等问题的有效手段,具有样本数量大、速率要求高的特点。海量仿真样本的高速运行依赖于高性能硬件集群的高效调度,面临样本计算资源需求差异大、人工分配难的问题。如何精准预测并动态分配各个样本所需的计算资源,是提高大样本仿真效率的关键。为此,提出了一种基于深度神经网络(DNN)的大样本作战仿真计算资源预测模型。该方法首先构建了深度神经网络在环的仿真资源管理架构。其次,对作战仿真样本文件进行特征提取和学习构建深度神经网络预测模型。在大样本仿真运行时,通过在线预测每个样本所需的计算资源,实现海量作战仿真作业资源的精准预测与动态分配。测试结果表明,在千级样本的典型作战实验仿真场景中,相比于传统配置方法,提出的预测模型在10个高性能服务器节点上的完成时间减少了20.8%。
    参考文献 | 相关文章 | 多维度评价
    3. 基于BWT,MTF和ANS的标签数据压缩算法
    廖睿, 唐杰, 梁桐嘉, 郑欣磊, 王斌翊, 齐志强
    计算机科学    2025, 52 (11A): 241000081-6.   DOI: 10.11896/jsjkx.241000081
    摘要240)      PDF(pc) (2387KB)(154)    收藏
    使用一些规则集可以将一些信息转换为特定的内容存储在一定长度的标签码中。当信息较多时,标签码的使用会更加困难。对标签码数据进行压缩,可以减少存储信息的开销且便于识别。为了实现对此类数据的压缩,本文基于BWT、MTF和ANS算法,形成一种适用于标签数据的无损压缩算法,该算法在一定程度上对标签码进行无损数据压缩,有利于标签码信息的存储和识别以及标签码的使用。
    参考文献 | 相关文章 | 多维度评价
    4. 城市空气质量数据的时空主动采样与联合推测
    稂奥奇, 黄伟杰, 於志勇, 黄昉菀
    计算机科学    2025, 52 (11A): 241000116-9.   DOI: 10.11896/jsjkx.241000116
    摘要221)      PDF(pc) (3195KB)(148)    收藏
    当前,城市中的环境数据仍以固定站点作为主流采样方式,但高昂的全采样成本使其难以大规模扩展。在此背景下,通过局部采样并结合推测算法来推断其余未采样数据的方法成为了当前研究的热点。现有的研究通常使用两种不同的模型分别进行主动采样和缺失推测,存在计算成本高和误差易累积等不足。基于此,提出了一种时空主动采样与联合推测一体化模型(Spatiotemporal Active-sampling and Joint Inference,SAJI)。该模型不仅能选择带来高推测精度的采样站点,还可以确定其主动采样时刻,最后利用多测量向量(Multiple Measurement Vector,MMV)恢复算法联合推测出所有站点的缺失值。实验结果表明,相比于基线算法,SAJI可以充分利用时空相关性使得未采样站点获得有价值的预补值,并利用后续的联合推测算法在低采样率下获得最高的推测精度。
    参考文献 | 相关文章 | 多维度评价
    5. 层次时间序列预测方法与应用综述
    向易, 丛丽丽, 王玮鹏, 周晓航
    计算机科学    2025, 52 (11A): 241000139-7.   DOI: 10.11896/jsjkx.241000139
    摘要423)      PDF(pc) (1877KB)(151)    收藏
    层次时间序列是解决具有层级约束的多元时间序列,上层节点的数据是其所有子节点数据的累加。层次时间序列预测的主要难点是在准确预测每个序列的同时,还要保证不同级别之间的一致性,即预测在层次结构中满足累加的约束。随着大规模数据的涌现,这一复杂而具有挑战性的问题展现出更大的研究价值和广泛的应用前景。通过对层次时间序列预测相关方法和文献的综述,从分类方法和应用理论两个方面进行总结和归纳,同时探讨了该技术面临的挑战和实际应用中存在的缺口。分析表明,层次时间序列预测方法主要可分为预测模型和修订模型两个阶段,逐步引入机器学习和深度学习方法,并演化为将预测和修订模型融合的端对端方法。这些方法广泛应用于商业运营和政府治理领域。在未来的研究趋势方面,首先需要关注海量数据对两阶段方法预测准确度的影响;其次是深入研究端对端层次时间序列预测模型,以避免两阶段参数不连动的问题。此外,政府管理和商业运营的研究可以侧重于对具体问题导致不同层级关注度差异进行建模。
    参考文献 | 相关文章 | 多维度评价
    6. 个性化推荐算法对用户决策行为影响研究综述
    徐富萍, 周晓航, 张宁
    计算机科学    2025, 52 (11A): 241100086-8.   DOI: 10.11896/jsjkx.241100086
    摘要451)      PDF(pc) (2140KB)(228)    收藏
    互联网在快速发展中产生了海量数据,信息过载现象也因此日益凸显。为了帮助用户在庞大的数据量中有效过滤和捕捉数据并进行高质量的运用,个性化推荐算法被提出。该算法在不同场景应用中不断发展,对用户的感知与决策行为产生导向作用。集中研究了基于协同过滤的推荐、基于内容的推荐、基于关联规则的推荐和混合推荐4种典型的个性化推荐算法,分析其在大数据环境下和不同场景中的特点和适用性;从互联网内容平台、电子商务平台和社交场景视角,探究个性化推荐算法在相关理论引入和新兴技术融入中不断发展的进程;从使用意愿和购买决策两方面的影响展开探索,发现了个性化推荐算法对用户决策行为的影响机制,进而探讨了个性化推荐算法在用户决策中的功能作用,并对相关研究进行展望。
    参考文献 | 相关文章 | 多维度评价
    7. 基于机器学习的航材备件需求预测研究
    王蕊, 王智恺, 钟一鸣, 孙辉, 杨凯欣
    计算机科学    2025, 52 (11A): 241100116-9.   DOI: 10.11896/jsjkx.241100116
    摘要394)      PDF(pc) (5586KB)(283)    收藏
    为科学而精准地预测航空公司航材库存备件需求,制定合理的航材计划,从航材价格、重要度、维修间隔时间、装机数量等影响因素的角度出发,提出一种基于机器学习的航材备件需求预测方法。首先通过主成分分析(PCA)与K-means聚类将不同需求规律的备件降维可视化展示并分类,然后建立混合核极限学习机(HKELM)与随机森林(RF)的模型对分类后的数据进行多元回归预测,其中针对预测过程中参数选取困难的问题,采用麻雀搜索算法(SSA)迭代寻优两种模型的最优参数。最后,结合某航空公司机队运行数据进行实例分析,与反向传播(BP)神经网络、支持向量机(SVM)、最小二乘支持向量机(LSSVM)等预测方法进行比较,结果表明所提出的预测方法效果较好,其对航空公司航材计划工作具有一定的指导意义。
    参考文献 | 相关文章 | 多维度评价
    8. 可解释性视角下缺失值填补方法比较研究
    李毅, 王童欣, 庞博中
    计算机科学    2025, 52 (11A): 241100156-8.   DOI: 10.11896/jsjkx.241100156
    摘要256)      PDF(pc) (3124KB)(157)    收藏
    随着深度学习技术的广泛应用,高质量的表格数据对模型预测性能至关重要,而数据缺失会严重破坏其内在结构与分布。尽管缺失值填补方法众多,但现有研究多侧重于填补精度,缺乏对填补结果如何影响下游模型可解释性的系统性评估。文中提出一种基于模型可解释性的缺失值填补评估框架。首先,探讨了深度生成模型在学习复杂数据分布以生成高质量填补值方面的优势。其次,构建了多种缺失场景,并采用夏普利值(Shapley Value)作为核心度量,量化比较了不同填补方法对模型特征重要性解释的影响。实验结果表明:1)深度生成模型能有效学习样本分布,其填补值在保持数据结构与信息完整性方面表现优越;2)填补精度与模型解释的稳定性之间并无直接对应关系,填补方法的选择会显著改变最终的夏普利值;3)随着数据缺失比例的增加,不同填补方法对模型解释结果的差异性影响愈发显著。本研究揭示了缺失值填补对模型可解释性的潜在影响,并为在可解释性攸关的场景中选择合适的填补策略提供了实证依据和新的评估视角。
    参考文献 | 相关文章 | 多维度评价
    9. 基于频率通道注意力机制和MSCNet的锂电池剩余使用寿命预测
    卢世宇, 王海瑞, 朱贵富, 李亚龙
    计算机科学    2025, 52 (11A): 241200041-8.   DOI: 10.11896/jsjkx.241200041
    摘要318)      PDF(pc) (4848KB)(140)    收藏
    为解决锂离子电池容量估计中特征提取不准确、数据噪声大及容量衰减趋势跟踪精度低等问题,提出了一种基于频率通道注意力机制(Frequency Channel Attention Mechanism,FCA)和MSCNet(Multi-Scale Inter-Series Correlations Net)的新型模型。模型首先对原始传感器数据进行去噪处理,以降低噪声对模型性能的干扰;其次,引入频率通道注意力机制,通过频域分析将输入序列映射到频域,识别主导时间尺度以捕捉显著的周期性模式,并对时间序列进行多尺度分解;最后,利用MSCNet对多尺度输出进行动态聚合,捕获不同时间尺度内的跨序列相关性,提升模型对时间依赖性的理解,同时减少模型参数量。在CALCE和NASA公开数据集上的实验表明,该模型在电池使用寿命预测中的相对误差(RE)较现有算法降低了10%~20%,能够更精准地跟踪电池衰退趋势。
    参考文献 | 相关文章 | 多维度评价
    10. 基于引导扩散的序列推荐方法
    李博, 莫先
    计算机科学    2025, 52 (11A): 241200062-6.   DOI: 10.11896/jsjkx.241200062
    摘要234)      PDF(pc) (2536KB)(158)    收藏
    随着用户行为偏好的动态变化,传统序列推荐方法面临着难以捕捉用户意图转变的挑战。为了解决这一问题,提出了一种基于引导扩散的序列推荐方法(GDRec),旨在通过将目标项目表示嵌入到扩散模型中,实现对用户当前意图的精准捕捉。具体地,GDRec模型包括以下关键组件:序列编码器、交叉注意力条件去噪解码器和交叉散度目标。序列编码器逐步生成用户偏好表示,捕捉历史序列与当前目标的动态关系;交叉注意力条件去噪解码器去除嵌入表示中的噪声,提高对下一目标项目的预测精度;交叉散度目标则赋予模型排序能力,确保表示的高质量,并在扩散过程中嵌入目标项目表示进行引导。最后,在Amazon的Office和Tools数据集上进行的大量实验证明了GDRec在多个评价指标上均优于现有的先进方法,显示出其在序列推荐任务中的优越性能。此外,消融实验和超参数分析进一步验证了模型的有效性和稳定性。
    参考文献 | 相关文章 | 多维度评价
    11. 基于张量图扩散的共享近邻密度峰值聚类算法
    刘翘铭, 魏千然, 李智, 王健, 李远方
    计算机科学    2025, 52 (11A): 241200068-11.   DOI: 10.11896/jsjkx.241200068
    摘要210)      PDF(pc) (6034KB)(216)    收藏
    密度峰值聚类(Density Peak Clustering,DPC)是一种基于密度划分思想的聚类分析方法。在处理高维数据时,DPC算法在相似度计算过程与聚类分配过程中分别存在“聚集”效应问题和“多米诺”效应问题,限制了DPC在实际应用中的分析效率。针对以上问题,提出基于张量图扩散的共享近邻密度峰值聚类算法TGD-SNN-DPC,该算法首先基于张量图理论设计张量图自适应构建模块,挖掘数据点间多样性局部邻域信息。在此基础上,提出高效张量图扩散学习模块,引入张量图高效更新策略,在不增加模型计算负担的前提下,利用该模块挖掘数据全局高阶拓扑信息,利用以上两个模块获得合理的鲁棒性更强的样本间邻接相似度信息。设计自适应共享邻域聚类模块,以张量图扩散高阶邻接矩阵为基础,引入基于共享近邻信息的样本局部密度与相对距离,利用自适应邻域非聚类中心样本分配策略,提升模型矩阵的准确性。在6个合成数据集和12个真实UCI数据集上的实验表明TGD-SNN-DPC算法在准确度(ACC)、调整兰德系数(ARI)和标准互信息(NMI)方面均优于基准算法。
    参考文献 | 相关文章 | 多维度评价
    12. 基于GRAM矩阵的粒感知机
    吴少华, 陈玉明
    计算机科学    2025, 52 (11A): 241200110-7.   DOI: 10.11896/jsjkx.241200110
    摘要226)      PDF(pc) (2185KB)(152)    收藏
    感知机是一种简单的线性分类器,也是SVM及深度学习的基石。然而,大部分复杂问题是非线性模型,感知机在处理这类问题时,分类效果不佳。因此,引入粒计算理论,以参考样本为模板,将训练样本粒化为特征粒子及特征粒向量,进而定义粒GRAM矩阵,提出一种基于GRAM矩阵的粒感知机模型。该模型优化感知机的对偶形式,构造新的粒感知机模型。为处理非线性分类问题,引入核函数,构造基于粒向量的核GRAM矩阵,并给出GRAM粒感知机的损失函数和学习方法。最后,从收敛性、非线性处理能力、参考样本的数量以及模型分类效果4方面进行实验分析,结果表明了GRAM粒感知机的有效性与正确性。
    参考文献 | 相关文章 | 多维度评价
    13. 公平性增强的决策树算法
    姜文慧, 叶剑虹, 高灵婷, 黄一凡
    计算机科学    2025, 52 (11A): 241200119-9.   DOI: 10.11896/jsjkx.241200119
    摘要257)      PDF(pc) (2724KB)(177)    收藏
    在机器学习领域,模型的内在偏见问题日益受到关注,这些偏见往往源自训练数据的不平衡性或算法设计缺陷,从而导致某些群体在预测结果上受到不公正对待。为了解决这一问题,提出了一种公平性增强的决策树算法,通过引入公平性预处理方法,有效减少数据中的不平衡性,并且改变传统的决策树分裂标准,在决策树的分裂标准中综合考虑了分类准确性和公平性。所提方法旨在实现不同群体间预测结果的公平分配,减少模型决策中的偏见,确保所有个体得到公正对待。实验结果表明,所提出的方法在多种公平性度量标准下展现出良好的性能,显著降低了不同群体间的预测偏差,具有比现有传统算法更强的公平性纠偏性能。
    参考文献 | 相关文章 | 多维度评价
    14. 时间不确定性中缀/后缀轨迹对齐一致性研究
    高灵婷, 叶剑虹, 姜文慧, 黄一凡
    计算机科学    2025, 52 (11A): 241200200-8.   DOI: 10.11896/jsjkx.241200200
    摘要223)      PDF(pc) (2741KB)(155)    收藏
    对齐是一致性检验技术的一种,涉及将建模的流程行为与事件数据中记录的流程行为进行核对。由于硬件故障、软件错误等因素的影响,时间数据记录呈现出多样性,包括不同的精度和误差,导致记录的数据存在时间不确定性。对此,考虑了含有时间不确定性的中缀/后缀轨迹,提出了基于时间不确定性的轨迹片段对齐方法,针对传统轨迹片段对齐方法无法有效处理不确定性,解决了传统对齐由于时间不确定性导致的对齐精度不足和计算效率低的问题。具体而言,首先处理不确定轨迹并生成行为网;其次计算流程模型的标记,构建辅助网;最后构建同步乘积网,计算时间不确定性的轨迹片段对齐。所提方法拓宽了对齐技术的应用范围,使得对齐能够适应和处理含有时间偏差的数据,增强了对齐算法在面对不完美数据时的稳定性和鲁棒性。实验结果表明,所提出的方法在处理不确定性时,相较于传统方法提高了对齐精度并有效减少了计算复杂度。
    参考文献 | 相关文章 | 多维度评价
    15. 基于观点差异敏感性和意见领袖信任度的观点动力学分析
    张维婧, 高彦平
    计算机科学    2025, 52 (11A): 250100007-9.   DOI: 10.11896/jsjkx.250100007
    摘要287)      PDF(pc) (5013KB)(167)    收藏
    在社会网络中,个体属性对群体观点演化起着重要的作用,为了深入理解这一现象,基于传统的HK(Hegselmann-Krause)模型,引入个体对观点差异的敏感性和个体对意见领袖的信任度,提出一种新的观点演化模型。个体对观点差异的敏感性是指个体在更新自己的观点时,对其他个体观点差异的敏感程度。这种敏感性通过一个敏感性系数来量化,系数越高,表明个体越倾向于与自己观点接近的其他个体进行交流和互动。这种机制可能导致观点的极化,因为个体更可能与观点相似的人交流,从而加强已有的观点。个体对意见领袖的信任度描述了个体在形成观点时对意见领袖的依赖程度,在模型中,每个个体可能以不同的信任度接受意见领袖的观点影响。首先对模型进行简要理论分析,通过在无标度网络中的仿真模拟,探讨这两种属性对观点演化的影响。研究结果表明,个体对观点差异越敏感,观点值的发散程度越大,收敛时间增长。个体对意见领袖的信任度越高,群体观点会越快趋向意见领袖的观点。随后增加意见领袖数量,构建包含两个意见领袖的改进HK模型,通过仿真实验,分析接收到意见领袖观点的个体比例以及个体对意见领袖的信任度对观点演化的影响。实验结果表明,个体对意见领袖的信任度越高,群体观点越容易向意见领袖的观点靠拢,且群体观点的收敛速度更快。同时,接收意见领袖观点的个体比例越高,群体观点的演化过程越容易受到意见领袖观点的主导,群体观点的最终稳定状态也更接近意见领袖的观点。
    参考文献 | 相关文章 | 多维度评价
    16. 最简完备协同组合与概念约简
    马文胜, 侯锡林
    计算机科学    2025, 52 (11A): 250100053-5.   DOI: 10.11896/jsjkx.250100053
    摘要220)      PDF(pc) (1708KB)(181)    收藏
    基于一个任务的全部大数据粒化后与使用者之间形成的使用关系,定义了协同单元,并将协同单元的集合称为协同组合。根据协同组合是否涉及使用关系中的全部元素,定义了完备协同组合。如果一个协同组合是完备的,而它的任何真子集都不是完备的,则称这个协同组合为最简完备协同组合。最后,给出利用形式概念分析中的概念约简的算法来求一个任务全部最简完备协同组合的方法。
    参考文献 | 相关文章 | 多维度评价
    17. 基于生成模型的学生在线学习表现预测混合方法研究
    段超, 王一晴, 王洁, 张明焱
    计算机科学    2025, 52 (11A): 250200029-9.   DOI: 10.11896/jsjkx.250200029
    摘要363)      PDF(pc) (2969KB)(191)    收藏
    学习表现预测利用在线学习平台的学生学习行为数据来识别存在学业风险的学生,可以帮助教师及时进行干预,然而该方式面临着数据不平衡问题,这使得准确识别存在学业风险的学生尤为困难。针对当前解决策略中变分自编码器(Variational Autoencoder,VAE)不能保证生成样本的合理性,生成对抗网络(Generative Adversarial Network,GAN)在处理时间序列数据时易引入新的错误,并且生成器和判别器任何一方训练得过于出色或不足都会导致生成数据质量下降等问题。提出了一种新的基于生成模型的学生在线学习表现预测混合方法。具体而言,首先利用融合双向长短期记忆网络(Bidirectional Long Short-term Memory,BiLSTM)的VAE对GAN进行初始化,不仅能从更加稳定的点开始训练,而且能更好地理解学生行为序列数据前后之间的关联关系和周期性特征;其次,判别器中引入多头注意力机制,增强其对真实数据和生成数据的区分能力,进而与生成器不断博弈;最后,将深度生成模型与经典重采样策略(Synthetic Minority Oversampling Technique,SMOTE)基于Blending集成学习的思想进行融合,有效结合数据和算法两个方面的优势,提高了模型整体的生成能力。在两个真实学生数据集上进行了大量实验,结果表明,该模型可以生成高质量的数据,从而提升预测模型对存在学业风险学生的识别能力,从第一单元开始,在4个评价指标上较基线方法均有提升。
    参考文献 | 相关文章 | 多维度评价
    18. 结合超图学习的多注意力机制新闻推荐方法
    孟祥福, 王琬淳, 张雨萌, 樊文懿
    计算机科学    2025, 52 (11A): 250200067-7.   DOI: 10.11896/jsjkx.250200067
    摘要335)      PDF(pc) (2668KB)(196)    收藏
    在个性化新闻推荐中,图结构常被用来建立用户与新闻之间的交互关系。然而,普通图结构大多忽略了被点击新闻之间的高阶关联信息。此外,现有方法大多仅使用单一向量学习用户兴趣表示与候选新闻表示,导致建模不充分。针对上述问题,提出了结合超图学习的多注意力机制新闻推荐模型。首先,构建候选新闻超图,通过超图注意力网络的学习捕获候选新闻与其语义相似新闻的高阶相关性,丰富候选新闻语义;然后,构建新闻-主题超图用于建模用户兴趣,采用包含多种注意力机制的神经网络架构挖掘深层的用户细粒度兴趣特征;最后,通过引入激活单元,结合候选新闻特征进一步提取用户兴趣,从而提高推荐准确性。在MIND-small和MIND-large数据集上进行的大量实验,验证了所提方法的有效性。
    参考文献 | 相关文章 | 多维度评价
    19. 基于图卷积神经网络的多属性个性化航空行程推荐系统
    彭明田, 王味帅, 田丰, 李江涛, 卢燕, 马淑燕, 朱红林, 刘驰
    计算机科学    2025, 52 (11A): 250200088-6.   DOI: 10.11896/jsjkx.250200088
    摘要326)      PDF(pc) (3499KB)(168)    收藏
    航空市场的快速扩展使航班选择愈加复杂,旅客难以从海量信息中选出最佳方案。现有航空行程推荐系统多采用按价格、时间或准点率排序的静态方法,难以兼顾用户个性化需求和多联程航班组合的复杂性。针对这种情况,提出了基于图卷积神经网络的多属性个性化航空行程推荐系统,以图结构数据处理提升推荐精度和个性化效果。该系统构建航班数据的图结构模型,细化航班关键属性,并将用户历史购票行为转化为图节点间的交互信息。通过图卷积神经网络逐层特征聚合,捕捉用户与航班属性间的高阶关系。实验结果表明,该模型有效结合用户偏好与航班静态属性,显著提高了推荐系统的性能与准确性,为用户提供更优的行程建议。
    参考文献 | 相关文章 | 多维度评价
    首页 | 前页| 后页 | 尾页 第1页 共1页 共19条记录