1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
    2018 全国高性能计算学术年会 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    1. 基于非结构化网格的高可扩展并行有限体积格子
    徐磊, 陈荣亮, 蔡小川
    计算机科学    2019, 46 (8): 84-88.   https://doi.org/10.11896/j.issn.1002-137X.2019.08.013
    摘要 (169)   PDF (2668KB) (378)  
    均匀网格格子Boltzmann方法虽然有其优势,但是在模拟大规模流场信息以及复杂几何边界时仍然存在困难。为此,文中给出了非结构化网格下的有限体积格子Boltzmann方法。该方法采用cell-centered方案,使用low-diffusion Roe方案计算对流通量密度,通过最小二乘方法计算粒子分布函数的梯度。为了能够模拟大规模复杂流场情况,文中给出了非结构化网格有限体积格子Boltzmann方法的并行方法。该法通过ParMETIS划分流场的非结构化网格,将网格近似平均地发送给MPI进程,比较了两种不同规模的网格单元的并行性能。文中通过以下两点验证了并行算法的正确性:1)顶盖方腔驱动流,Re=400,1 000,3 200,5 000;2)圆柱绕流,Re=10,20,40。并行数值实验的结果表明所提并行算法在1 920核上仍然拥有良好的可扩展性,在1 920个核上的并行效率可以达到在240核上效率的78.42%。
    参考文献 | 相关文章 | 多维度评价
    2. 基于超算暨HPIC-LBM的大时空尺度三维湍流磁重联
    颜辉, 朱伯靖, 万文, 钟英, DavidAYune
    计算机科学    2019, 46 (8): 89-94.   https://doi.org/10.11896/j.issn.1002-137X.2019.08.014
    摘要 (141)   PDF (5112KB) (420)  
    大时空尺度湍流磁重联(LTSTMR)是空间物理、太阳物理、宇宙学领域中一种普遍存在的爆发现象。磁能转移-释放-耗散、等离子体加热及高能粒子加速是研究该类现象的核心内容,而研究湍流在LTSTMR中如何起作用是解决以上问题的关键所在。2D/2.5D磁重联模型因其在物理图像简化方面忽略了自然界爆发现象的3D属性和本质。文中基于新型HPIC-LBM粒子算法,在天河2号平台上开展了LTSTMR十万核心级别的数值实验工作。首次获得了太阳大气活动磁重联精细演化(0~500 km) 耗散区内oblique不稳定性证据。证明了耗散区内微观集体集合效应宏观表现的3种具体形式:湍流磁场self-generating-organization、湍动等离子体self-feeding-sustaining及磁场与等离子体间的相互作用。该研究为在超算平台上应用三维磁重联模型开展大时空尺度湍流磁重联提供了一种新途径。
    参考文献 | 相关文章 | 多维度评价
    3. 一种ARM处理器面向高性能计算的性能评估
    王一超, 廖秋承, 左思成, 谢锐, 林新华
    计算机科学    2019, 46 (8): 95-99.   https://doi.org/10.11896/j.issn.1002-137X.2019.08.015
    摘要 (296)   PDF (2828KB) (621)  
    为探索ARM架构在高效能“绿色计算”领域中,面向高性能计算的应用价值,对一款ARM指令集处理器进行性能评估,并将其与主流商用处理器Intel Xeon进行性能对比。在微架构上,测试了该处理器的浮点数计算能力、访存带宽及延迟。实验结果显示,该处理器的双精度浮点计算能力约为475 GFLOPS,相较于Xeon E5-2680v3,低了33%,访存带宽约为105GB/s,优于Xeon平台。在应用层面,选取4个高性能计算领域的典型应用,包含Stencil并行计算方法等,在该处理器实现移植和编译,并采用线程绑定的运行方法,提升缓存局部性,优化计算性能。实验结果显示,ARM指令集处理器的应用移植简单,其优化思路与主流商用处理器(如Intel Xeon)类似,但在计算密集和随机访存型应用上存在提升空间,在Stencil应用上性能近似,结合低功耗特点,在“绿色计算”领域具有竞争力。后续将持续基于最新的ARM指令集芯片做相关研究。
    参考文献 | 相关文章 | 多维度评价
    4. 基于混合混沌大爆炸算法的三维片上网络低功耗映射
    范星冉, 宋国治, 李加正
    计算机科学    2019, 46 (8): 100-105.   https://doi.org/10.11896/j.issn.1002-137X.2019.08.016
    摘要 (150)   PDF (2029KB) (249)  
    三维片上网络(3D NoC)被认为是提高多核处理系统性能的一种方式。对于3D NoC的设计,如何将给定应用特征图(APCG)上的IP核适当地分配到3D NoC架构中是IP核映射的关键问题。一种优秀的映射算法及一次合理的映射可以大幅改善片上网络的通信功耗、发热、延时等指标。大爆炸算法(BB-BC)是一种新型的元启发式群体智能优化算法;混合混沌大爆炸(HCBB-BC)算法是在大爆炸算法基础上进行改进的一种算法,它具有参数简单、收敛速度快等优点。文中提出将混合混沌大爆炸算法用于解决三维片上网络映射问题,这是首次用大爆炸算法的相关算法来解决3D NoC映射问题。仿真实验结果证明,与现有的3D NoC映射算法相比,所提方法可以用更少的迭代次数和时间来找到更好的解决方案,同时有效地降低3D NoC的映射功耗。在经典任务图映射条件下,混合混沌大爆炸算法与遗传算法(GA)相比,收敛速度提高了36.73%,与粒子群算法(PSO)相比,收敛速度提高了22.45%;同时,混合混沌大爆炸算法的平均功耗比遗传算法的平均功耗的最大值低5.75%,并且比粒子群算法的平均功耗的最大值低3.90%。在随机任务图映射条件下,混合混沌大爆炸算法仍然能够保持稳定的功耗优化效率和更快的收敛速度。
    参考文献 | 相关文章 | 多维度评价
    5. 基于GPU加速和非负矩阵分解的并行协同过滤推荐算法
    康林瑶, 唐兵, 夏艳敏, 张黎
    计算机科学    2019, 46 (8): 106-110.   https://doi.org/10.11896/j.issn.1002-137X.2019.08.017
    摘要 (214)   PDF (1889KB) (540)  
    协同过滤(CF)已经在推荐系统中得到了广泛的应用。但是随着用户和项目规模的增大,协同过滤算法的运行效率以及结果的正确性会大大降低。针对这一问题,文中提出了一种基于GPU的非负矩阵分解(NMF)的并行协同过滤方法,充分利用NMF数据降维和特征提取的优势以及CUDA的多核并行计算模式,进行维数简化和用户的相似性计算。该算法在提高精确性的同时降低了计算耗费,可以较好地解决协同过滤推荐系统所存在的稀疏性和扩展性等问题,快速产生精确的个性化推荐结果。基于NVIDIA CUDA设备和真实的MovieLens用户评分数据集,将所设计的并行NMF协同过滤算法与传统的基于用户的和基于物品的协同过滤算法进行了比较,实验结果表明,所设计的并行NMF协同过滤算法达到了较快的处理速度以及较高的推荐准确率。
    参考文献 | 相关文章 | 多维度评价
    6. 基于用户向量化表示和注意力机制的深度神经网络推荐模型
    郭旭, 朱敬华
    计算机科学    2019, 46 (8): 111-115.   https://doi.org/10.11896/j.issn.1002-137X.2019.08.018
    摘要 (222)   PDF (1953KB) (652)  
    随着互联网应用的蓬勃发展,推荐系统作为解决信息过载的有效手段,成为了工业界与学术界的研究热点。面向用户隐式反馈的传统推荐算法主要基于协同过滤和排序学习等方法,但这些方法未充分利用用户行为中的隐式反馈特征。文中提出了一种基于神经网络的用户向量化表示模型,其能够充分利用用户的异构的隐式反馈行为特征。同时,借鉴机器翻译中的self-attention机制,设计了一种神经注意力推荐模型,其融合用户向量化表示和用户-项目交互的动态时序特征以提高推荐系统的性能。在公开数据集上进行对比实验,通过召回率、准确率、NDCG 3个指标评价推荐性能。结果表明,与其他面向隐式反馈的推荐模型相比,所提推荐模型具有更好的推荐性能,并且对用户行为特征具有很好的泛化能力。
    参考文献 | 相关文章 | 多维度评价
    首页 | 前页| 后页 | 尾页 第1页 共1页 共6条记录