1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
    高性能计算 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 高性能计算技术及标准现状分析
    陆平静, 熊泽宇, 赖明澈
    计算机科学    2023, 50 (11): 1-7.   DOI: 10.11896/jsjkx.221100021
    摘要397)      PDF(pc) (2112KB)(2002)    收藏
    高性能计算是科技创新体系的重要组成,是知识创新和技术创新的重要能力支撑,是新时期下与理论、实验并重的三大科技创新手段之一。在过去的三十年间,高性能计算取得了以突飞猛进的进展,高性能计算已经进入E级计算时代,我国在高性能计算领域也取得了跨越式的发展,取得了天河、神威、曙光为代表的一系列成果,高性能系统研制水平跻身国际一流行列。随着摩尔定律接近极限,高性能计算技术的性能提升之路面临巨大挑战,在后摩尔时代,将依赖算法、软件和硬件架构去提升高性能计算机系统的终极性能。另一方面,与高性能计算机技术飞速发展相比,高性能计算标准的发展还存在很多不足。文中首先分析了当前国内外高性能计算机技术的发展现状及趋势,然后剖析了当前国内外高性能计算标准的现状及趋势,最后给出了当前发展中国高性能计算机标准的必要性和重要性。
    参考文献 | 相关文章 | 多维度评价
    2. CNN景象匹配算法的加速设计与FPGA实现
    王晓峰, 李超然, 路坤锋, 栾天娇, 姚娜, 周辉, 谢宇嘉
    计算机科学    2023, 50 (11): 8-14.   DOI: 10.11896/jsjkx.221100104
    摘要258)      PDF(pc) (2126KB)(1882)    收藏
    基于卷积神经网络的景象匹配算法较传统方法具有更高的匹配精度、更好的适应性以及更强的抗干扰能力。但是,该算法有海量的计算与存储需求,导致在边缘端部署存在巨大困难。为了提升计算实时性,文中设计并实现了一种高效的边缘端加速计算方案。在分析算法的计算特性与整体架构的基础上,基于Winograd快速卷积方法,设计了一种面向特征匹配层的专用加速器,并提出了利用专用加速器与深度学习处理器流水线式计算特征匹配层和特征提取网络的整体加速方案。在Xilinx的ZCU102开发板上进行实验发现,专用加速器的峰值算力达到576 GOPS,实际算力达422.08 GOPS,DSP的使用效率达4.5 Ope-ration/clock。加速计算系统的峰值算力达1600 GOPS,将CNN景象匹配算法的吞吐时延降低至157.89 ms。实验结果表明,该加速计算方案能高效利用FPGA的计算资源,实现CNN景象匹配算法的实时计算。
    参考文献 | 相关文章 | 多维度评价
    3. 面向处理器设计的快速性能评测方法
    邓林, 张瑶, 罗家豪
    计算机科学    2023, 50 (11): 15-22.   DOI: 10.11896/jsjkx.220900250
    摘要220)      PDF(pc) (2351KB)(1829)    收藏
    面对日益复杂的处理器设计和有限的设计周期,如何有效地快速进行性能评估,是每一个处理器设计团队需要解决的问题。完整的性能测试集需要运行较长的时间,特别是在硅前验证阶段,高昂的时间成本导致设计团队无法使用完整的性能测试集进行性能评估分析。文中介绍了一种通用处理器快速性能评测方法(Fast-Eval),Fast-Eval性能评测方法基于SimPoint技术,使用FastParallel-BBV方法、最优模拟点的选取以及模拟点的热迁移等方法,显著缩短了BBV生成时间和性能测试时间。实验结果表明,相比完整运行SPEC CPU 2006 REF数据规模测试程序获得的性能数据,所提方法在ARM64处理器上BBV生成时间缩短为原来的16.88%,性能评估时间缩短为原来的1.26%,性能评估结果的平均相对误差为0.53%;在FPGA开发板上测试集的平均相对误差可以达到0.40%,运行时间仅为完整运行时间的0.93%。
    参考文献 | 相关文章 | 多维度评价
    4. Cahn-Hilliard方程多重网格求解器收敛性分析
    郭靖, 齐德昱
    计算机科学    2023, 50 (11): 23-31.   DOI: 10.11896/jsjkx.220800030
    摘要212)      PDF(pc) (1930KB)(1787)    收藏
    Cahn-Hilliard(CH)方程是相场模型中的一个基本的非线性方程,通常使用数值方法进行分析。在对CH方程进行数值离散后会得到一个非线性的方程组,全逼近格式(Full Approximation Storage,FAS)是求解这类非线性方程组的一个高效多重网格迭代格式。目前众多的求解CH方程主要关注数值格式的收敛性,而没有论证求解器的可靠性。文中给出了求解CH方程离散得到的非线性方程组的多重网格算法的收敛性证明,从理论上保证了计算过程的可靠性。针对CH方程的时间二阶全离散差分数值格式,利用快速子空间下降(Fast Subspace Descent,FASD)框架给出其FAS格式多重网格求解器的收敛常数估计。为了完成这一目标,首先将原本的差分问题转化为完全等价的有限元问题,再论证有限元问题来自一个凸泛函能量形式的极小化,然后验证能量形式及空间分解满足FASD框架假设,最终得到原多重网格算法的收敛系数估计。结果显示,在非线性情形下,CH方程中的参数ε对网格尺度添加了限制,太小的参数会导致数值计算过程不收敛。最后通过数值实验验证了收敛系数与方程参数及网格尺度的依赖关系。
    参考文献 | 相关文章 | 多维度评价
    5. 基于SYCL的多相流LBM模拟跨平台异构并行计算研究
    丁越, 徐传福, 邱昊中, 戴未希, 汪青松, 林拥真, 王正华
    计算机科学    2023, 50 (11): 32-40.   DOI: 10.11896/jsjkx.230300123
    摘要154)      PDF(pc) (2328KB)(1694)    收藏
    异构并行体系结构是当前高性能计算的重要技术趋势。由于各种异构平台通常支持不同的编程模型,跨平台性能可移植异构并行应用开发非常困难。SYCL是一个基于C++语言的单源跨平台并行编程开放标准。目前针对SYCL的研究主要集中于与其他并行编程模型的性能比较,对SYCL中提供的不同并行内核实现及其性能优化研究得较少。针对这一现状,基于SYCL编程模型对开源多相流数值模拟软件openLBMmflow实现跨平台异构并行模拟,通过对比基础并行版本、细粒度调优的ND-range并行版本以及计算到工作项多对一映射方法,系统总结了SYCL并行应用的性能优化方法。测试结果表明,在Intel Xeon Platinum 9242 CPU以及NVIDIA Tesla V100 GPU上,相比优化后的OpenMP并行实现,在不需要额外调优的情况下,基础并行版本在CPU上获得了2.91的加速比,表明了SYCL的开箱即用性能具备一定优势。以基础并行版本为基准,ND-range并行版本通过改变工作组大小及形状,在CPU与GPU上分别取得了最高1.45以及2.23的加速比。通过优化计算到工作项的多对一映射改变每个工作项处理的格子数量以及形状,与基础并行版本相比,在CPU与GPU上分别取得了最高1.57以及1.34的加速比。结果表明,SYCL并行应用在CPU上更适合采用计算到工作项多对一映射的优化方法,在GPU上更适合采用ND-range并行内核,以提高性能。
    参考文献 | 相关文章 | 多维度评价
    6. 第一性原理极化率计算中的众核优化方法研究
    罗海文, 吴扬俊, 商红慧
    计算机科学    2023, 50 (6): 1-9.   DOI: 10.11896/jsjkx.220700162
    摘要441)      PDF(pc) (3054KB)(4143)    收藏
    基于量子力学的密度泛函微扰理论(DFPT)可以用来计算分子和材料的多种物理化学性质,目前被广泛应用于新材料等领域的研究中;同时,异构众核处理器架构逐渐成为超算的主流。因此,针对异构众核处理器重新设计和优化DFPT程序以提升其计算效率,对物理化学性质的计算及其科学应用具有重要意义。文中对DFPT中一阶响应密度和一阶响应哈密顿矩阵的计算针对众核处理器体系结构进行了优化,并在新一代神威处理器上进行了验证。优化技术包括循环分块、离散访存处理和协同规约。其中,循环分块对任务进行划分从而由众核并行地执行;离散访存处理将离散访存转换为更高效的连续访存;协同规约解决了写冲突问题。实验结果表明,在一个核组上,优化后的程序性能较优化前提高了8.2~74.4倍,并且具有良好的强可扩展性和弱可扩展性。
    参考文献 | 相关文章 | 多维度评价
    7. 基于混合内存的Apache Spark缓存系统实现与优化
    魏森, 周浩然, 胡创, 程大钊
    计算机科学    2023, 50 (6): 10-21.   DOI: 10.11896/jsjkx.220900261
    摘要325)      PDF(pc) (3181KB)(3944)    收藏
    随着大数据时代数据规模的激增,内存计算框架得到了长足发展。主流内存计算框架Apache Spark使用内存来缓存中间结果,大幅度地提升了数据处理速度。同时,具有较快的读写速度和较大容量的非易失性存储器NVM在内存计算领域展现出了巨大的发展前景,使用DRAM和NVM构建Spark混合缓存系统成为一种可行方案。文中提出了一种基于DRAM-NVM混合内存的Spark缓存系统,该系统选择平面混合缓存模型作为设计方案,然后为缓存块管理系统设计了专用的数据结构,并提出了适用于Spark的混合缓存系统整体设计架构。另外,为了将频繁访问的缓存块保存在DRAM缓存中,提出了基于缓存块最小重用代价的混合缓存管理策略。首先从DAG信息中获取RDD的未来重用次数,未来重用次数多的缓存块将被优先保存在DRAM缓存中,并在缓存块迁移时考虑了迁移成本。设计实验表明,DRAM-NVM混合缓存相比原有缓存系统的性能平均提升了53.06%,对于相同的混合内存,所提策略相比默认缓存策略有平均35.09%的提升。同时,使用文中设计的混合系统只需要1/4的DRAM和3/4的NVM作为缓存,就能达到全部DRAM缓存约79%的性能表现。
    参考文献 | 相关文章 | 多维度评价
    8. 基于多核CPU的DVB-RCS2并行Turbo译码方法
    翟绪论, 张永光, 靳安钊, 强薇, 李梦冰
    计算机科学    2023, 50 (6): 22-28.   DOI: 10.11896/jsjkx.230300005
    摘要237)      PDF(pc) (2813KB)(3869)    收藏
    DVB-RCS2在卫星广播、海事卫星通信、军事卫星通信等领域有着广泛应用,而无论是通信还是军事侦察都需要大吞吐量高速译码。多核CPU算力不断提升以及软件无线电SDR平台的广泛应用,使得基于多核CPU的并行译码成为一种灵活高效的应用方式。为了满足其中双二元Turbo码大吞吐量软件译码的需求,提出了一种基于多核CPU的高速并行软件译码方案。首先对比分析了双二元Turbo码与传统二进制Turbo码的计算复杂度;然后重点对并行计算过程中的内存占用和采用8比特位宽整型数据时的输入量化方法进行了分析和优化,设计了基于多核CPU并行译码的实现方案;最后在Intel 12核CPU上使用SSE并行指令集实现了大于169 Mbps的译码吞吐率,且纠错性能较浮点运算损失小于0.1 dB。通过与现有GPU译码方案对比,说明了所提方案在译码效率和能耗方面的优势,其在高速卫星接收机中具有极高的应用价值。
    参考文献 | 相关文章 | 多维度评价
    9. 基于多核CPU的无锁并行Semi-naive算法
    喻婷, 王立松, 秦小麟
    计算机科学    2023, 50 (6): 29-35.   DOI: 10.11896/jsjkx.220800050
    摘要223)      PDF(pc) (2488KB)(3793)    收藏
    Datalog系统被广泛应用于很多领域,如图数据库、网络和静态程序分析等。在处理海量数据时,基于串行的Datalog求解策略无法充分发挥现有多核处理器的计算性能。针对上述问题,提出一种基于多核CPU的无锁并行Semi-naive算法(Parallel Semi-naive,PSN)用于支持Datalog的高效求解。PSN使用B+树索引进行数据划分,将数据分配给不同的线程执行计算,每个分区产生的中间结果元组互不相同,有利于实现计算时无锁的并行。同时提出一种双层哈希表结构来索引中间结果以提高查重的效率,每个线程只在特定的区域执行相关的计算,无需使用锁来防止写冲突。PSN使用任务队列-线程池为空闲线程分配任务,来实现多线程的负载均衡。在KONECT(Koblenz Network Collection)及斯坦福SNAP(Stanford Network Analysis Platform)的公开数据集上的实验结果表明,PSN算法可以优化Datalog规则的查询性能。
    参考文献 | 相关文章 | 多维度评价
    10. 基于决策树和由均匀分布改进Q学习的虚拟机整合算法
    师亮, 温亮明, 雷声, 黎建辉
    计算机科学    2023, 50 (6): 36-44.   DOI: 10.11896/jsjkx.220300192
    摘要178)      PDF(pc) (3252KB)(3788)    收藏
    随着云数据中心规模的不断扩大,次优虚拟机整合算法所引起的高能耗、低资源利用率和用户服务质量下降等问题逐渐凸显。为此,提出了一种基于决策树和由均匀分布改进Q学习的虚拟机整合算法(DTQL-UD)。该算法采用决策树实现状态表征,并在评估下一时刻状态-动作价值时采用均匀分布选取下一时刻动作,可直接从云数据中心状态到虚拟机迁移的过程中通过实时反馈来不断优化决策。此外,针对强化学习中模拟器与真实场景中的差异问题,基于大量真实云数据中心负载跟踪数据,使用监督学习模型训练模拟器以增加模拟器的仿真度。仿真实验结果表明,DTQL-UD在能耗、资源利用率、用户服务质量、虚拟机迁移次数和剩余活跃主机数量方面分别优化了14%,12%,21%,40%和10%。同时,得益于决策树在表格型数据上更强的特征提取能力,DTQL-UD相比其他现有的深度强化学习方法可学到更优的整合策略,并且在本实验中随着云数据中心规模的增大,可将传统强化学习模型的训练耗时逐步减少60%~92%。
    参考文献 | 相关文章 | 多维度评价
    11. 基于双倍双精度施密特正交化方法的QR分解算法
    金洁茜, 谢和虎, 杜配冰, 全哲, 姜浩
    计算机科学    2023, 50 (6): 45-51.   DOI: 10.11896/jsjkx.230200209
    摘要148)      PDF(pc) (1989KB)(3765)    收藏
    当矩阵的规模较大或者条件数较高时,格拉姆-施密特(Gram-Schmidt)正交化算法和其相关修正算法时常表现出数值不稳定性的现象。为了解决该问题,探索了修正Gram-Schmidt算法(MGS)中舍入误差的累积效应,然后基于无误差变换技术和双倍双精度算法,设计并实现了双倍双精度修正Gram-Schmidt正交化算法(DDMGS)。该算法的精度测试中显示所提算法较分块施密特正交化(BMGS_SVL,BMGS_CWY,BCGS_PIP与BCGS_PIO)的变体算法具有更好的数值稳定性,证明了DDMGS算法能够有效地减少矩阵的正交性损失,提升数值精度,展示了所提算法的可靠性。在算法的性能测试中,首先计算并比较了不同算法的浮点计算量(flops),随后将所提DDMGS算法与修正施密特正交化算法在ARM和Intel两款处理器上作比较,虽然DDMGS算法的运行时间分别是MGS的5.03倍和18.06倍左右,但获得了明显的精度提升效果。
    参考文献 | 相关文章 | 多维度评价
    12. ARM处理器上的格点QCD计算与优化
    孙玮, 毕玉江, 程耀东
    计算机科学    2023, 50 (6): 52-57.   DOI: 10.11896/jsjkx.230200159
    摘要150)      PDF(pc) (1750KB)(3678)    收藏
    格点量子色动力学(格点QCD)是高能物理领域中需要大规模并行计算的最主要应用之一,相关研究通常需要消耗大量计算资源,核心是求解大规模稀疏线性方程组。文中基于国产鲲鹏920 ARM处理器,研究了格点QCD的计算热点Dslash,并将其扩展到64个节点(6 144核),展示了格点QCD计算的线性扩展性。 基于roofline性能分析模型,发现格点QCD是典型的内存限制应用,并通过将Dslash中的3×3复幺正矩阵根据对称性压缩,将其性能提升约22%。对于大规模稀疏线性方程的求解,在ARM处理器上探索了常用的Krylov子空间迭代算法BiCGStab,以及近年来发展起来的前沿的multigrid算法,发现即使考虑预处理时间,在实际物理计算中使用multigrid算法相比BiCGStab依然有几倍至一个数量级的加速。此外,还考虑了鲲鹏920处理器上的NEON向量化指令,发现将其用于multigrid计算时可以带来约20%的加速。因此,在ARM处理器上使用multigrid算法能极大地加速实际的物理研究。
    参考文献 | 相关文章 | 多维度评价
    13. 基于国产c86处理器的CP2K软件移植与优化
    范黎林, 乔一航, 李俊飞, 柴旭清, 崔容培, 韩秉豫
    计算机科学    2023, 50 (6): 58-65.   DOI: 10.11896/jsjkx.230200213
    摘要184)      PDF(pc) (2603KB)(3798)    收藏
    CP2K是目前运行最快的开源第一性原理材料计算和模拟软件,源码中调用协处理器的部分基于CUDA架构编写。因平台底层硬件架构和编译环境不同,原生的CP2K软件无法调用国产c86处理器平台上的DCU,因此不能实现跨平台应用。为解决该问题,提出了一种CP2K面向该平台的移植方案。该方案的核心思想为:对CP2K软件中主要基于CUDA接口实现的DBCSR库进行代码分析,拆解对应结构体和类的封装方式,并基于HIP的编程标准对其进行实现和封装。在国产c86处理器平台上编译安装HIP版的DBCSR库,链接CP2K软件,最终实现运行DCU版的CP2K软件。后续选取两个测试算例,基于编译级与运行级对其进行优化实验。实验发现,删除CP2K脚本链自动安装的FFTW库可提高计算结果精度。实验结果表明,所使用的优化方法可显著提升CP2K软件的计算效率和计算准确性,为实现开源软件面向国产平台的移植优化和国产化替代做出贡献。
    参考文献 | 相关文章 | 多维度评价
    14. 一种面向最佳收益的服务功能链在线编排方法
    黄骅, 江俊, 杨永康, 曹斌
    计算机科学    2023, 50 (6): 66-73.   DOI: 10.11896/jsjkx.220400156
    摘要285)      PDF(pc) (3266KB)(3673)    收藏
    随着网络功能虚拟化技术的发展,如何对服务功能链进行灵活编排以实现收益最大化已成为服务提供商关注的核心问题。文中以最大化收益为目标,将多数据中心场景下的服务功能链在线编排问题建模为0-1整数规划,并在此基础上提出了一种两阶段启发式算法。在第一阶段,根据负载情况及部署开销计算节点和链路的权重值,将服务功能链部署在优先级最高的节点上,然后根据链路的负载情况选取满足带宽约束且优先级最高的链路。在第二阶段,类比最长有效功能序列方法,提出了一种虚拟服务迁移策略,以降低部署资源消耗。基于NSFNET和USNET网络拓扑设计了仿真实验,实验结果表明,相比现有算法,所提方法在部署收益和部署成功率两个方面均有一定提升,能够实现服务资源的优化配置,有效提升部署收益。
    参考文献 | 相关文章 | 多维度评价
    15. 基于“嵩山”超级计算机系统下HHL算法的模拟实现
    谢浩山, 刘晓楠, 赵晨言, 刘正煜
    计算机科学    2023, 50 (6): 74-80.   DOI: 10.11896/jsjkx.220500108
    摘要152)      PDF(pc) (1547KB)(3687)    收藏
    量子计算是一种遵循量子力学规律来调控量子信息单元进行计算的新型计算模式,而量子算法由一系列量子门组合而成,其实现形式为量子线路。量子线路是对量子比特进行操作的线路,以量子比特为基本的存储单元,将量子逻辑门连接在一起来实现特定的计算功能。文中在“嵩山”超级计算机上利用MPI+OpenMP混合并行编程模型,实现了将大规模量子线路拆分到不同节点上进行构建,加快了线路的构建速度,并且在CPU集群系统上具有良好的可拓展性。针对节点间通信问题,设计了序列化和反序列化函数,以保证节点间数据的传输,并且根据各节点所分配任务量间存在的指数级差异,设计了一种拆分任务量、各节点轮循处理的优化方式,实现了节点间的负载均衡。最后在超级计算机CPU集群上成功实现了大规模的量子相位估计线路的构造,相较于单节点取得了8.63的加速比,并通过HHL算法验证了所设计的并行相位估计子模块的正确性,为大规模HHL算法在超算平台上的实现提供了参考。
    参考文献 | 相关文章 | 多维度评价
    16. 密度泛函微扰理论中响应密度矩阵的迭代求解算法研究
    刘人僪, 徐直前, 商红慧, 张云泉
    计算机科学    2023, 50 (6): 81-85.   DOI: 10.11896/jsjkx.220500252
    摘要128)      PDF(pc) (1498KB)(3730)    收藏
    针对密度泛函微扰理论中响应密度矩阵的计算问题,提出了一种全新的Sternheimer方程的并行求解方法,即通过共轭梯度算法和矩阵直接分解算法对Sternheimer方程进行求解,并且在第一性原理的分子模拟软件FHI-aims中实现了这两种算法。实验结果表明采用共轭梯度算法和矩阵直接分解算法的计算结果精度较高,相比传统方法的计算结果误差较小,且具有可扩展性,验证了新的Sternheimer方程中线性方程求解的正确性和有效性。
    参考文献 | 相关文章 | 多维度评价
    17. 深度学习容器云平台下的GPU共享调度系统
    王壮, 王平辉, 王彬丞, 武文博, 王斌, 丛鹏宇
    计算机科学    2023, 50 (6): 86-91.   DOI: 10.11896/jsjkx.220900110
    摘要424)      PDF(pc) (1834KB)(3847)    收藏
    近年来,容器由于具有轻量级以及高可扩展性,逐渐替代了虚拟机,被广泛应用于深度学习云平台中。但目前深度学习云平台在GPU资源管理上依然存在着不足,主要表现为由于容器编排技术的限制,多个容器无法共享使用GPU资源,而对于一些小规模模型的训练任务和推理任务,单个任务并不能充分利用整张GPU卡的计算资源。当前的独占模式会导致昂贵的GPU资源的浪费,降低资源效率和服务可用性。针对这一问题,提出了一种GPU共享调度系统。一方面,基于Kubernetes的Operator机制对现有集群功能进行扩展,实现了多个Pod共享使用GPU资源,同时设计了一种代理机制保证了与原生Kubernetes的兼容性。另一方面,基于GPU时间片与抢占机制,实现了GPU资源的动态管理与调度,在多个任务之间进行细粒度的协调,并减少了任务干扰。实验结果表明,与原生Kubernetes调度系统相比,该系统能够将一组深度学习训练任务的完成时间平均减少约20%,使得集群GPU资源利用率平均提升约10%。在共享使用GPU时高优先级任务性能相较于独占GPU损耗不到5%,同时能够使得低优先级任务以20%的性能运行在同一张GPU上。
    参考文献 | 相关文章 | 多维度评价
    首页 | 前页| 后页 | 尾页 第1页 共1页 共17条记录