栏目文章

Select

1. 天气预报模型WRF中复杂Stencil性能优化

邸健强, 袁良, 张云泉, 张思佳

计算机科学 2024, 51 (4): 56-66. DOI: 10.11896/jsjkx.231000124

摘要（101）

PDF（pc）（2329KB）（156）

天气研究与预报模式(WRF)是一种应用广泛的中尺度数值天气预报系统,在大气研究和业务预报领域发挥着重要作用。Stencil计算是科学工程应用中一类常见的嵌套循环计算模式,WRF中对大气动力学和热力学方程的数值求解引出了大量空间网格上的复杂Stencil计算,存在多维度、多变量、物理模型边界特殊性、物理和动力学过程的复杂性等模型特征。文中深入剖析了WRF中典型的Stencil计算模式,识别抽象出典型Stencil循环中存在的“中间变量”概念,围绕其设计实现了3种优化方案,即中间变量计算合并、中间变量降维存储以及中间变量提取,有效提高了数据局部性,改善了数据重用率和空间复用率,降低了冗余计算和访存开销。结果表明,经优化方案重构的WRF 4.2典型Stencil热点函数在Intel CPU和Hygon CPU上均可获得良好的性能加速,最高加速比达21.3%和17.8%。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于国产DCU异构平台的图匹配算法移植与优化

郝萌, 田雪洋, 鲁刚钊, 刘义, 张伟哲, 何慧

计算机科学 2024, 51 (4): 67-77. DOI: 10.11896/jsjkx.230800193

摘要（162）

PDF（pc）（3041KB）（240）

子图匹配是一种基础的图算法,被广泛应用于社交网络、图神经网络等众多领域。随着图数据规模的增长,人们迫切需要高效的子图匹配算法。GENEVA是一种基于GPU的并行子图匹配算法,其利用区间索引的图存储结构和并行匹配优化方法,能够大幅度减少存储开销,提升子图匹配性能。但由于平台底层硬件架构和编译环境的不同,GENEVA无法直接应用到国产DCU异构平台。为了解决该问题,提出了GENEVA面向国产DCU的移植和优化方案。IO时间开销是GENEVA算法主要的性能瓶颈,文中采用锁页内存、预加载、调度器3种优化策略来突破该瓶颈。其中,锁页内存技术避免了从可分页内存到临时锁页内存的额外数据传输,在DCU平台上大幅度减少了IO传输的时间开销;预加载技术将IO数据传输与DCU核函数计算重叠,掩盖了IO时间开销;调度器在满足预加载需求的同时,减少了冗余数据的传输。在3个不同规模的真实数据集上进行实验,结果表明,采用优化策略后算法性能显著提高。在92.6%的测试用例上,经过优化的GENEVA-HIP算法在国产DCU平台的执行时间比移植前的GENEVA算法在GPU服务器的执行时间短。在较大规模的数据集上,优化的GENEVA-HIP算法在DCU平台上的执行时间相比移植前的GENEVA算法在GPU服务器的执行时间减少了52.73%。

参考文献 | 相关文章 | 多维度评价

Select

3. 一种基于指令MKS的自动向量化代价模型

王震, 聂凯, 韩林

计算机科学 2024, 51 (4): 78-85. DOI: 10.11896/jsjkx.230200024

摘要（95）

PDF（pc）（2431KB）（134）

自动向量化代价模型是编译器进行自动向量化优化时的重要组成部分,其作用是评估代码在应用向量化转换后能否获得性能提升。当代价模型不准确时,编译器会应用负收益的向量化转换,从而降低程序的执行效率。针对GCC编译器默认代价模型的不精确问题,以Intel Xeon Silver 4214R CPU为平台,提出了一种基于指令MKS的自动向量化代价模型。该模型充分考虑了指令的机器模式、运算类型以及运算强度等,并使用梯度下降算法自动搜索不同指令类型的近似代价。在SPEC2006以及SPEC2017上进行了单线程测试,实验结果表明,该模型能够减少收益评估错误的情况。与默认代价模型生成的向量程序相比,GCC编译器添加MKS代价模型后,在SPEC2006课题上最高获得了4.72%的提速,在SPEC2017课题上最高获得了7.08%的提速。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于多类型计算重写的浮点表达式精度优化方法

郝江伟, 杨鸿儒, 夏媛媛, 刘毅, 许瑾晨, 庞建民

计算机科学 2024, 51 (4): 86-94. DOI: 10.11896/jsjkx.221200072

摘要（96）

PDF（pc）（2371KB）（120）

表达式重写是精度优化领域的新兴方法,其核心思想是在不改变表达式精度类型的前提下,将其变换为语义上等价的表达式以尝试提升精度。然而,面对庞大的变换规则和变换空间,如何选取合适的变换策略成为了重写方法的问题所在。针对上述问题,提出了一个基于多类型计算重写的浮点表达式精度优化方法,支持包括函数计算、四则运算的表达式,并实现了表达式重写工具exprAuto。区别于其他精度优化工具侧重于对子表达式的替换,exprAuto更注重对表达式运算顺序的变换。exprAuto在对表达式化简和数学变换后,通过多项式变换获取不同的计算顺序,并尝试减少运算次数以提升精度,最终生成一个包含不同计算顺序的等价表达式集合,通过排序筛选和误差检测从中选出最终的精度优化结果。文中选取41个FPBench标准集中的表达式和18个常见数学函数的近似多项式作为测试用例,在经exprAuto优化后,所提方法相比原式最大误差降低了45.92%,平均误差降低了34.98%;针对其中的18个近似多项式,相比原式最大误差降低了58.35%,平均误差降低了43.73%。实验结果表明,exprAuto可以有效提升表达式尤其是多项式的精度。

参考文献 | 相关文章 | 多维度评价

Select

5. 高性能计算技术及标准现状分析

陆平静, 熊泽宇, 赖明澈

计算机科学 2023, 50 (11): 1-7. DOI: 10.11896/jsjkx.221100021

摘要（489）

PDF（pc）（2112KB）（2197）

高性能计算是科技创新体系的重要组成,是知识创新和技术创新的重要能力支撑,是新时期下与理论、实验并重的三大科技创新手段之一。在过去的三十年间,高性能计算取得了以突飞猛进的进展,高性能计算已经进入E级计算时代,我国在高性能计算领域也取得了跨越式的发展,取得了天河、神威、曙光为代表的一系列成果,高性能系统研制水平跻身国际一流行列。随着摩尔定律接近极限,高性能计算技术的性能提升之路面临巨大挑战,在后摩尔时代,将依赖算法、软件和硬件架构去提升高性能计算机系统的终极性能。另一方面,与高性能计算机技术飞速发展相比,高性能计算标准的发展还存在很多不足。文中首先分析了当前国内外高性能计算机技术的发展现状及趋势,然后剖析了当前国内外高性能计算标准的现状及趋势,最后给出了当前发展中国高性能计算机标准的必要性和重要性。

参考文献 | 相关文章 | 多维度评价

Select

6. CNN景象匹配算法的加速设计与FPGA实现

王晓峰, 李超然, 路坤锋, 栾天娇, 姚娜, 周辉, 谢宇嘉

计算机科学 2023, 50 (11): 8-14. DOI: 10.11896/jsjkx.221100104

摘要（290）

PDF（pc）（2126KB）（2026）

基于卷积神经网络的景象匹配算法较传统方法具有更高的匹配精度、更好的适应性以及更强的抗干扰能力。但是,该算法有海量的计算与存储需求,导致在边缘端部署存在巨大困难。为了提升计算实时性,文中设计并实现了一种高效的边缘端加速计算方案。在分析算法的计算特性与整体架构的基础上,基于Winograd快速卷积方法,设计了一种面向特征匹配层的专用加速器,并提出了利用专用加速器与深度学习处理器流水线式计算特征匹配层和特征提取网络的整体加速方案。在Xilinx的ZCU102开发板上进行实验发现,专用加速器的峰值算力达到576 GOPS,实际算力达422.08 GOPS,DSP的使用效率达4.5 Ope-ration/clock。加速计算系统的峰值算力达1600 GOPS,将CNN景象匹配算法的吞吐时延降低至157.89 ms。实验结果表明,该加速计算方案能高效利用FPGA的计算资源,实现CNN景象匹配算法的实时计算。

参考文献 | 相关文章 | 多维度评价

Select

7. 面向处理器设计的快速性能评测方法

邓林, 张瑶, 罗家豪

计算机科学 2023, 50 (11): 15-22. DOI: 10.11896/jsjkx.220900250

摘要（298）

PDF（pc）（2351KB）（1987）

面对日益复杂的处理器设计和有限的设计周期,如何有效地快速进行性能评估,是每一个处理器设计团队需要解决的问题。完整的性能测试集需要运行较长的时间,特别是在硅前验证阶段,高昂的时间成本导致设计团队无法使用完整的性能测试集进行性能评估分析。文中介绍了一种通用处理器快速性能评测方法(Fast-Eval),Fast-Eval性能评测方法基于SimPoint技术,使用FastParallel-BBV方法、最优模拟点的选取以及模拟点的热迁移等方法,显著缩短了BBV生成时间和性能测试时间。实验结果表明,相比完整运行SPEC CPU 2006 REF数据规模测试程序获得的性能数据,所提方法在ARM64处理器上BBV生成时间缩短为原来的16.88%,性能评估时间缩短为原来的1.26%,性能评估结果的平均相对误差为0.53%;在FPGA开发板上测试集的平均相对误差可以达到0.40%,运行时间仅为完整运行时间的0.93%。

参考文献 | 相关文章 | 多维度评价

Select

8. Cahn-Hilliard方程多重网格求解器收敛性分析

郭靖, 齐德昱

计算机科学 2023, 50 (11): 23-31. DOI: 10.11896/jsjkx.220800030

摘要（320）

PDF（pc）（1930KB）（1910）

Cahn-Hilliard(CH)方程是相场模型中的一个基本的非线性方程,通常使用数值方法进行分析。在对CH方程进行数值离散后会得到一个非线性的方程组,全逼近格式(Full Approximation Storage,FAS)是求解这类非线性方程组的一个高效多重网格迭代格式。目前众多的求解CH方程主要关注数值格式的收敛性,而没有论证求解器的可靠性。文中给出了求解CH方程离散得到的非线性方程组的多重网格算法的收敛性证明,从理论上保证了计算过程的可靠性。针对CH方程的时间二阶全离散差分数值格式,利用快速子空间下降(Fast Subspace Descent,FASD)框架给出其FAS格式多重网格求解器的收敛常数估计。为了完成这一目标,首先将原本的差分问题转化为完全等价的有限元问题,再论证有限元问题来自一个凸泛函能量形式的极小化,然后验证能量形式及空间分解满足FASD框架假设,最终得到原多重网格算法的收敛系数估计。结果显示,在非线性情形下,CH方程中的参数ε对网格尺度添加了限制,太小的参数会导致数值计算过程不收敛。最后通过数值实验验证了收敛系数与方程参数及网格尺度的依赖关系。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于SYCL的多相流LBM模拟跨平台异构并行计算研究

丁越, 徐传福, 邱昊中, 戴未希, 汪青松, 林拥真, 王正华

计算机科学 2023, 50 (11): 32-40. DOI: 10.11896/jsjkx.230300123

摘要（279）

PDF（pc）（2328KB）（1894）

异构并行体系结构是当前高性能计算的重要技术趋势。由于各种异构平台通常支持不同的编程模型,跨平台性能可移植异构并行应用开发非常困难。SYCL是一个基于C++语言的单源跨平台并行编程开放标准。目前针对SYCL的研究主要集中于与其他并行编程模型的性能比较,对SYCL中提供的不同并行内核实现及其性能优化研究得较少。针对这一现状,基于SYCL编程模型对开源多相流数值模拟软件openLBMmflow实现跨平台异构并行模拟,通过对比基础并行版本、细粒度调优的ND-range并行版本以及计算到工作项多对一映射方法,系统总结了SYCL并行应用的性能优化方法。测试结果表明,在Intel Xeon Platinum 9242 CPU以及NVIDIA Tesla V100 GPU上,相比优化后的OpenMP并行实现,在不需要额外调优的情况下,基础并行版本在CPU上获得了2.91的加速比,表明了SYCL的开箱即用性能具备一定优势。以基础并行版本为基准,ND-range并行版本通过改变工作组大小及形状,在CPU与GPU上分别取得了最高1.45以及2.23的加速比。通过优化计算到工作项的多对一映射改变每个工作项处理的格子数量以及形状,与基础并行版本相比,在CPU与GPU上分别取得了最高1.57以及1.34的加速比。结果表明,SYCL并行应用在CPU上更适合采用计算到工作项多对一映射的优化方法,在GPU上更适合采用ND-range并行内核,以提高性能。

参考文献 | 相关文章 | 多维度评价

Select

10. 第一性原理极化率计算中的众核优化方法研究

罗海文, 吴扬俊, 商红慧

计算机科学 2023, 50 (6): 1-9. DOI: 10.11896/jsjkx.220700162

摘要（526）

PDF（pc）（3054KB）（4272）

基于量子力学的密度泛函微扰理论(DFPT)可以用来计算分子和材料的多种物理化学性质,目前被广泛应用于新材料等领域的研究中;同时,异构众核处理器架构逐渐成为超算的主流。因此,针对异构众核处理器重新设计和优化DFPT程序以提升其计算效率,对物理化学性质的计算及其科学应用具有重要意义。文中对DFPT中一阶响应密度和一阶响应哈密顿矩阵的计算针对众核处理器体系结构进行了优化,并在新一代神威处理器上进行了验证。优化技术包括循环分块、离散访存处理和协同规约。其中,循环分块对任务进行划分从而由众核并行地执行;离散访存处理将离散访存转换为更高效的连续访存;协同规约解决了写冲突问题。实验结果表明,在一个核组上,优化后的程序性能较优化前提高了8.2～74.4倍,并且具有良好的强可扩展性和弱可扩展性。

参考文献 | 相关文章 | 多维度评价

Select

11. 基于混合内存的Apache Spark缓存系统实现与优化

魏森, 周浩然, 胡创, 程大钊

计算机科学 2023, 50 (6): 10-21. DOI: 10.11896/jsjkx.220900261

摘要（492）

PDF（pc）（3181KB）（4088）

随着大数据时代数据规模的激增,内存计算框架得到了长足发展。主流内存计算框架Apache Spark使用内存来缓存中间结果,大幅度地提升了数据处理速度。同时,具有较快的读写速度和较大容量的非易失性存储器NVM在内存计算领域展现出了巨大的发展前景,使用DRAM和NVM构建Spark混合缓存系统成为一种可行方案。文中提出了一种基于DRAM-NVM混合内存的Spark缓存系统,该系统选择平面混合缓存模型作为设计方案,然后为缓存块管理系统设计了专用的数据结构,并提出了适用于Spark的混合缓存系统整体设计架构。另外,为了将频繁访问的缓存块保存在DRAM缓存中,提出了基于缓存块最小重用代价的混合缓存管理策略。首先从DAG信息中获取RDD的未来重用次数,未来重用次数多的缓存块将被优先保存在DRAM缓存中,并在缓存块迁移时考虑了迁移成本。设计实验表明,DRAM-NVM混合缓存相比原有缓存系统的性能平均提升了53.06%,对于相同的混合内存,所提策略相比默认缓存策略有平均35.09%的提升。同时,使用文中设计的混合系统只需要1/4的DRAM和3/4的NVM作为缓存,就能达到全部DRAM缓存约79％的性能表现。

参考文献 | 相关文章 | 多维度评价

Select

12. 基于多核CPU的DVB-RCS2并行Turbo译码方法

翟绪论, 张永光, 靳安钊, 强薇, 李梦冰

计算机科学 2023, 50 (6): 22-28. DOI: 10.11896/jsjkx.230300005

摘要（302）

PDF（pc）（2813KB）（4031）

DVB-RCS2在卫星广播、海事卫星通信、军事卫星通信等领域有着广泛应用,而无论是通信还是军事侦察都需要大吞吐量高速译码。多核CPU算力不断提升以及软件无线电SDR平台的广泛应用,使得基于多核CPU的并行译码成为一种灵活高效的应用方式。为了满足其中双二元Turbo码大吞吐量软件译码的需求,提出了一种基于多核CPU的高速并行软件译码方案。首先对比分析了双二元Turbo码与传统二进制Turbo码的计算复杂度;然后重点对并行计算过程中的内存占用和采用8比特位宽整型数据时的输入量化方法进行了分析和优化,设计了基于多核CPU并行译码的实现方案;最后在Intel 12核CPU上使用SSE并行指令集实现了大于169 Mbps的译码吞吐率,且纠错性能较浮点运算损失小于0.1 dB。通过与现有GPU译码方案对比,说明了所提方案在译码效率和能耗方面的优势,其在高速卫星接收机中具有极高的应用价值。

参考文献 | 相关文章 | 多维度评价

Select

13. 基于多核CPU的无锁并行Semi-naive算法

喻婷, 王立松, 秦小麟

计算机科学 2023, 50 (6): 29-35. DOI: 10.11896/jsjkx.220800050

摘要（275）

PDF（pc）（2488KB）（3890）

Datalog系统被广泛应用于很多领域,如图数据库、网络和静态程序分析等。在处理海量数据时,基于串行的Datalog求解策略无法充分发挥现有多核处理器的计算性能。针对上述问题,提出一种基于多核CPU的无锁并行Semi-naive算法(Parallel Semi-naive,PSN)用于支持Datalog的高效求解。PSN使用B⁺树索引进行数据划分,将数据分配给不同的线程执行计算,每个分区产生的中间结果元组互不相同,有利于实现计算时无锁的并行。同时提出一种双层哈希表结构来索引中间结果以提高查重的效率,每个线程只在特定的区域执行相关的计算,无需使用锁来防止写冲突。PSN使用任务队列-线程池为空闲线程分配任务,来实现多线程的负载均衡。在KONECT(Koblenz Network Collection)及斯坦福SNAP(Stanford Network Analysis Platform)的公开数据集上的实验结果表明,PSN算法可以优化Datalog规则的查询性能。

参考文献 | 相关文章 | 多维度评价

Select

14. 基于决策树和由均匀分布改进Q学习的虚拟机整合算法

师亮, 温亮明, 雷声, 黎建辉

计算机科学 2023, 50 (6): 36-44. DOI: 10.11896/jsjkx.220300192

摘要（221）

PDF（pc）（3252KB）（3894）

随着云数据中心规模的不断扩大,次优虚拟机整合算法所引起的高能耗、低资源利用率和用户服务质量下降等问题逐渐凸显。为此,提出了一种基于决策树和由均匀分布改进Q学习的虚拟机整合算法(DTQL-UD)。该算法采用决策树实现状态表征,并在评估下一时刻状态-动作价值时采用均匀分布选取下一时刻动作,可直接从云数据中心状态到虚拟机迁移的过程中通过实时反馈来不断优化决策。此外,针对强化学习中模拟器与真实场景中的差异问题,基于大量真实云数据中心负载跟踪数据,使用监督学习模型训练模拟器以增加模拟器的仿真度。仿真实验结果表明,DTQL-UD在能耗、资源利用率、用户服务质量、虚拟机迁移次数和剩余活跃主机数量方面分别优化了14%,12%,21%,40%和10%。同时,得益于决策树在表格型数据上更强的特征提取能力,DTQL-UD相比其他现有的深度强化学习方法可学到更优的整合策略,并且在本实验中随着云数据中心规模的增大,可将传统强化学习模型的训练耗时逐步减少60%～92%。

参考文献 | 相关文章 | 多维度评价

Select

15. 基于双倍双精度施密特正交化方法的QR分解算法

金洁茜, 谢和虎, 杜配冰, 全哲, 姜浩

计算机科学 2023, 50 (6): 45-51. DOI: 10.11896/jsjkx.230200209

摘要（245）

PDF（pc）（1989KB）（3956）

当矩阵的规模较大或者条件数较高时,格拉姆-施密特(Gram-Schmidt)正交化算法和其相关修正算法时常表现出数值不稳定性的现象。为了解决该问题,探索了修正Gram-Schmidt算法(MGS)中舍入误差的累积效应,然后基于无误差变换技术和双倍双精度算法,设计并实现了双倍双精度修正Gram-Schmidt正交化算法(DDMGS)。该算法的精度测试中显示所提算法较分块施密特正交化(BMGS_SVL,BMGS_CWY,BCGS_PIP与BCGS_PIO)的变体算法具有更好的数值稳定性,证明了DDMGS算法能够有效地减少矩阵的正交性损失,提升数值精度,展示了所提算法的可靠性。在算法的性能测试中,首先计算并比较了不同算法的浮点计算量(flops),随后将所提DDMGS算法与修正施密特正交化算法在ARM和Intel两款处理器上作比较,虽然DDMGS算法的运行时间分别是MGS的5.03倍和18.06倍左右,但获得了明显的精度提升效果。

参考文献 | 相关文章 | 多维度评价

Select

16. ARM处理器上的格点QCD计算与优化

孙玮, 毕玉江, 程耀东

计算机科学 2023, 50 (6): 52-57. DOI: 10.11896/jsjkx.230200159

摘要（235）

PDF（pc）（1750KB）（3824）

格点量子色动力学(格点QCD)是高能物理领域中需要大规模并行计算的最主要应用之一,相关研究通常需要消耗大量计算资源,核心是求解大规模稀疏线性方程组。文中基于国产鲲鹏920 ARM处理器,研究了格点QCD的计算热点Dslash,并将其扩展到64个节点(6 144核),展示了格点QCD计算的线性扩展性。基于roofline性能分析模型,发现格点QCD是典型的内存限制应用,并通过将Dslash中的3×3复幺正矩阵根据对称性压缩,将其性能提升约22%。对于大规模稀疏线性方程的求解,在ARM处理器上探索了常用的Krylov子空间迭代算法BiCGStab,以及近年来发展起来的前沿的multigrid算法,发现即使考虑预处理时间,在实际物理计算中使用multigrid算法相比BiCGStab依然有几倍至一个数量级的加速。此外,还考虑了鲲鹏920处理器上的NEON向量化指令,发现将其用于multigrid计算时可以带来约20%的加速。因此,在ARM处理器上使用multigrid算法能极大地加速实际的物理研究。

参考文献 | 相关文章 | 多维度评价

Select

17. 基于国产c86处理器的CP2K软件移植与优化

范黎林, 乔一航, 李俊飞, 柴旭清, 崔容培, 韩秉豫

计算机科学 2023, 50 (6): 58-65. DOI: 10.11896/jsjkx.230200213

摘要（287）

PDF（pc）（2603KB）（4021）

CP2K是目前运行最快的开源第一性原理材料计算和模拟软件,源码中调用协处理器的部分基于CUDA架构编写。因平台底层硬件架构和编译环境不同,原生的CP2K软件无法调用国产c86处理器平台上的DCU,因此不能实现跨平台应用。为解决该问题,提出了一种CP2K面向该平台的移植方案。该方案的核心思想为:对CP2K软件中主要基于CUDA接口实现的DBCSR库进行代码分析,拆解对应结构体和类的封装方式,并基于HIP的编程标准对其进行实现和封装。在国产c86处理器平台上编译安装HIP版的DBCSR库,链接CP2K软件,最终实现运行DCU版的CP2K软件。后续选取两个测试算例,基于编译级与运行级对其进行优化实验。实验发现,删除CP2K脚本链自动安装的FFTW库可提高计算结果精度。实验结果表明,所使用的优化方法可显著提升CP2K软件的计算效率和计算准确性,为实现开源软件面向国产平台的移植优化和国产化替代做出贡献。

参考文献 | 相关文章 | 多维度评价

Select

18. 一种面向最佳收益的服务功能链在线编排方法

黄骅, 江俊, 杨永康, 曹斌

计算机科学 2023, 50 (6): 66-73. DOI: 10.11896/jsjkx.220400156

摘要（410）

PDF（pc）（3266KB）（3798）

随着网络功能虚拟化技术的发展,如何对服务功能链进行灵活编排以实现收益最大化已成为服务提供商关注的核心问题。文中以最大化收益为目标,将多数据中心场景下的服务功能链在线编排问题建模为0-1整数规划,并在此基础上提出了一种两阶段启发式算法。在第一阶段,根据负载情况及部署开销计算节点和链路的权重值,将服务功能链部署在优先级最高的节点上,然后根据链路的负载情况选取满足带宽约束且优先级最高的链路。在第二阶段,类比最长有效功能序列方法,提出了一种虚拟服务迁移策略,以降低部署资源消耗。基于NSFNET和USNET网络拓扑设计了仿真实验,实验结果表明,相比现有算法,所提方法在部署收益和部署成功率两个方面均有一定提升,能够实现服务资源的优化配置,有效提升部署收益。

参考文献 | 相关文章 | 多维度评价

Select

19. 基于“嵩山”超级计算机系统下HHL算法的模拟实现

谢浩山, 刘晓楠, 赵晨言, 刘正煜

计算机科学 2023, 50 (6): 74-80. DOI: 10.11896/jsjkx.220500108

摘要（204）

PDF（pc）（1547KB）（3775）

量子计算是一种遵循量子力学规律来调控量子信息单元进行计算的新型计算模式,而量子算法由一系列量子门组合而成,其实现形式为量子线路。量子线路是对量子比特进行操作的线路,以量子比特为基本的存储单元,将量子逻辑门连接在一起来实现特定的计算功能。文中在“嵩山”超级计算机上利用MPI+OpenMP混合并行编程模型,实现了将大规模量子线路拆分到不同节点上进行构建,加快了线路的构建速度,并且在CPU集群系统上具有良好的可拓展性。针对节点间通信问题,设计了序列化和反序列化函数,以保证节点间数据的传输,并且根据各节点所分配任务量间存在的指数级差异,设计了一种拆分任务量、各节点轮循处理的优化方式,实现了节点间的负载均衡。最后在超级计算机CPU集群上成功实现了大规模的量子相位估计线路的构造,相较于单节点取得了8.63的加速比,并通过HHL算法验证了所设计的并行相位估计子模块的正确性,为大规模HHL算法在超算平台上的实现提供了参考。

参考文献 | 相关文章 | 多维度评价

Select

20. 密度泛函微扰理论中响应密度矩阵的迭代求解算法研究

刘人僪, 徐直前, 商红慧, 张云泉

计算机科学 2023, 50 (6): 81-85. DOI: 10.11896/jsjkx.220500252

摘要（189）

PDF（pc）（1498KB）（3869）

针对密度泛函微扰理论中响应密度矩阵的计算问题,提出了一种全新的Sternheimer方程的并行求解方法,即通过共轭梯度算法和矩阵直接分解算法对Sternheimer方程进行求解,并且在第一性原理的分子模拟软件FHI-aims中实现了这两种算法。实验结果表明采用共轭梯度算法和矩阵直接分解算法的计算结果精度较高,相比传统方法的计算结果误差较小,且具有可扩展性,验证了新的Sternheimer方程中线性方程求解的正确性和有效性。

参考文献 | 相关文章 | 多维度评价

Select

21. 深度学习容器云平台下的GPU共享调度系统

王壮, 王平辉, 王彬丞, 武文博, 王斌, 丛鹏宇

计算机科学 2023, 50 (6): 86-91. DOI: 10.11896/jsjkx.220900110

摘要（589）

PDF（pc）（1834KB）（4037）

近年来,容器由于具有轻量级以及高可扩展性,逐渐替代了虚拟机,被广泛应用于深度学习云平台中。但目前深度学习云平台在GPU资源管理上依然存在着不足,主要表现为由于容器编排技术的限制,多个容器无法共享使用GPU资源,而对于一些小规模模型的训练任务和推理任务,单个任务并不能充分利用整张GPU卡的计算资源。当前的独占模式会导致昂贵的GPU资源的浪费,降低资源效率和服务可用性。针对这一问题,提出了一种GPU共享调度系统。一方面,基于Kubernetes的Operator机制对现有集群功能进行扩展,实现了多个Pod共享使用GPU资源,同时设计了一种代理机制保证了与原生Kubernetes的兼容性。另一方面,基于GPU时间片与抢占机制,实现了GPU资源的动态管理与调度,在多个任务之间进行细粒度的协调,并减少了任务干扰。实验结果表明,与原生Kubernetes调度系统相比,该系统能够将一组深度学习训练任务的完成时间平均减少约20%,使得集群GPU资源利用率平均提升约10%。在共享使用GPU时高优先级任务性能相较于独占GPU损耗不到5%,同时能够使得低优先级任务以20%的性能运行在同一张GPU上。

参考文献 | 相关文章 | 多维度评价

Select

22. 基于国产众核架构的非结构网格分区块重构预处理算法研究

叶跃进, 李芳, 陈德训, 郭恒, 陈鑫

计算机科学 2022, 49 (6): 73-80. DOI: 10.11896/jsjkx.210900045

摘要（495）

PDF（pc）（3168KB）（665）

如何高效地解决非结构网格离散访存问题一直是科学与工程计算并行算法和应用领域关注的核心热点问题之一。基于国产申威异构众核架构而设计的分布式区块重连的优化算法,在解决应用课题中的非结构稀疏问题时能始终保持高效的计算性能。通过深入分析众核架构片上的通信机制来设计高效的消息分组策略,以提高从核片上阵列带宽的利用率,同时结合无栅栏数据分发算法充分发挥国产异构众核体系架构网络的性能。通过建立性能模型与实验测试分析可知,该算法在不同访存特征下平均内存带宽能达到理论值的70%以上,与主核串行算法相比具有平均10倍和最高45倍的加速性能。同时通过对多个不同领域的应用进行测试分析也证明了该算法的普适性。

参考文献 | 相关文章 | 多维度评价

Select

23. 面向粒子输运程序加速的体系结构设计

傅思清, 黎铁军, 张建民

计算机科学 2022, 49 (6): 81-88. DOI: 10.11896/jsjkx.210600179

摘要（480）

PDF（pc）（2310KB）（695）

粒子输运的随机模拟方法通常用于求解大量运动状态中粒子的特征量。粒子输运问题广泛出现在医学、天体物理和核物理领域,当前粒子输运随机模拟求解方法的主要挑战是计算机能够支撑的模拟样本数、模拟时间尺度与研究人员研究实际问题的需求之间的差距。处理器性能的发展随着工艺尺寸进步的停滞进入了新的历史阶段,复杂的片上结构的集成已经不符合现今的要求。面向粒子输运程序,文中开展了一系列体系结构设计工作,通过分析和利用程序的并行性和访存特点,设计了精简内核和可重配置缓存来加速程序。通过模拟器验证,文中提出的体系结构相比传统乱序架构获得了4.45倍性能功耗比优势以及2.78倍性能面积比优势,这为进一步研究大规模众核粒子输运加速器奠定了基础。

参考文献 | 相关文章 | 多维度评价

Select

24. 多线程数据竞争检测技术研究综述

赵静文, 付岩, 吴艳霞, 陈俊文, 冯云, 董继斌, 刘嘉琪

计算机科学 2022, 49 (6): 89-98. DOI: 10.11896/jsjkx.210700187

摘要（653）

PDF（pc）（1770KB）（938）

随着多核处理器在现代计算机设备中的流行,在软件中使用多线程程序的频率也随之增加。但多线程程序的不确定性会导致程序在运行过程中出现数据竞争、原子性违背、顺序违背和死锁等并发问题。研究发现,在所有并发缺陷中,数据竞争所占的比例最大,而且大多数原子性违背和顺序违背也是由数据竞争引起的。为解决这一问题,学者们先后提出了相关的检测技术,文中对近年来该领域的研究技术进行了总结。首先,介绍了数据竞争的相关概念和产生原因,以及数据竞争检测的主要思想;然后根据程序是否执行将现有的数据竞争检测技术分为静态分析、动态分析和混合检测技术三大类,归纳分析了每类技术的特点并进行了详细的比较;随后,从程序员角度阐明了现有检测技术存在的问题;最后,根据发展现状,对该领域的未来发展方向进行了分析与探讨。

参考文献 | 相关文章 | 多维度评价

Select

25. 面向国产异构众核架构的CFD非结构网格计算并行优化方法

陈鑫, 李芳, 丁海昕, 孙唯哲, 刘鑫, 陈德训, 叶跃进, 何香

计算机科学 2022, 49 (6): 99-107. DOI: 10.11896/jsjkx.210400157

摘要（595）

PDF（pc）（3943KB）（1189）

神威太湖之光在2016－2018年度全球超算top500榜单中排名第一,峰值性能为125.4 PFlops,其计算能力主要归功于国产SW26010众核处理器。由于CFD非结构网格计算存在拓扑关系复杂、离散访存问题严重、存在强相关的线化方程求解等问题,导致CFD非结构网格计算一直是国产众核超级计算机移植与优化的难题。为充分发挥国产异构众核架构的计算效能,首先,提出了一种数据重构模型,提高了数据的局部性和可并行性,使得数据结构更加适应众核架构的特点;然后,针对非结构网格数据存放的无序性导致的离散访存问题,提出了一种基于信息关系预存的离散访存优化方法,将离散访存转化为连续访存;最后,对于存在强相关的线化方程求解问题,引入了从核阵列流水线并行的思想,实现了众核并行。优化后CFD非结构网格计算的整体性能相比原始版本提升了4.19倍,相比通用CPU提升了1.2倍,并扩展到62.4万计算核心的并行规模,能保持64.5%的并行效率。

参考文献 | 相关文章 | 多维度评价

Select

26. 基于GPU的并行DILU预处理技术

汪晋, 刘江

计算机科学 2022, 49 (6): 108-118. DOI: 10.11896/jsjkx.210300259

摘要（672）

PDF（pc）（2690KB）（809）

在科学计算和工程领域,大型稀疏线性方程组的求解非常常见,目前已经有许多迭代方法和预处理技术被用于求解这类方程。DILU预处理技术类似于ILU,是开源计算流体力学软件OpenFOAM中重要的预处理技术,但未在OpenFOAM以外的领域引起关注,目前也没有完整的GPU实现。比较了DILU和ILU预处理技术对稳定双共轭梯度法(BiCGStab)加速的效果,以及它们在构造预处理子上的开销,结果表明,DILU在加速效果上不逊于ILU且在稳定性上优于ILU。在GPU并行实现方面,DILU可以使用分层并行和无全局同步并行两种并行策略,详细讨论了DILU预处理技术在这两种策略下的实现方法,给出了相关的算法和参考代码,然后比较了在两种并行策略下DILU预处理技术的性能。数值实验结果表明,在实践中两种并行策略各有优劣,可以根据实际表现进行选择。另外比较了GPU和CPU执行的DILU预处理技术,GPU在性能上具有明显优势,在线性方程组求解上存在性能瓶颈的程序可以移植到GPU平台以提升性能。

参考文献 | 相关文章 | 多维度评价

Select

27. 并行计算学科发展历程

陈国良, 张玉杰

计算机科学 2020, 47 (8): 1-4. DOI: 10.11896/jsjkx.200600027

摘要（871）

PDF（pc）（1062KB）（2115）

计算科学已经与传统的理论科学和实验科学并列成为第三门科学, 它们相辅相成地推动着人类科技的发展和社会文明的进步。21世纪科学和经济上的关键问题研究前沿, 有可能通过熟练地掌握先进的计算技术并运用计算科学得到解决。高性能计算是一个国家综合国力的体现, 是支撑国家实力持续发展的关键技术之一, 在国防安全、高科技发展和国民经济建设中占有重要的战略地位。经过40多年的发展, 围绕并行计算机、并行算法和并行程序设计, 融合并行计算机体系结构、数值和非数值的并行算法设计及并行程序设计于一体, 形成了并行计算(Parallel Computing)“结构-算法-编程-应用”完整的学科体系与系统课程框架。文中回顾了作者在并行计算学科的发展方面所做的工作, 并对非数值计算中的计算方法和新型的非冯诺依曼结构计算机体系结构的研究进行了介绍。

参考文献 | 相关文章 | 多维度评价

Select

28. 异构混合并行计算综述

阳王东, 王昊天, 张宇峰, 林圣乐, 蔡沁耘

计算机科学 2020, 47 (8): 5-16. DOI: 10.11896/jsjkx.200600045

摘要（1388）

PDF（pc）（3592KB）（5383）

随着人工智能和大数据等计算机应用对算力需求的迅猛增长以及应用场景的多样化, 异构混合并行计算成为了研究的重点。文中介绍了当前主要的异构计算机体系结构, 包括CPU/协处理器、CPU/众核处理器、CPU/ASCI和CPU/FPGA等;简述了异构混合并行编程模型随着各类异构混合结构的发展而做出的改变, 异构混合并行编程模型可以是对现有的一种语言进行改造和重新实现, 或者是现有异构编程语言的扩展, 或者是使用指导性语句异构编程, 或者是容器模式协同编程。分析表明, 异构混合并行计算架构会进一步加强对AI的支持, 同时也会增强软件的通用性。文中还回顾了异构混合并行计算中的关键技术, 包括异构处理器之间的并行任务划分、任务映射、数据通信、数据访问, 以及异构协同的并行同步和异构资源的流水线并行等。根据这些关键技术, 文中指出了异构混合并行计算面临的挑战, 如编程困难、移植困难、数据通信开销大、数据访问复杂、并行控制复杂以及资源负载不均衡等。最后分析了异构混合并行计算面临的挑战, 指出目前关键的核心技术需要从通用与AI专用异构计算的融合、异构架构的无缝移植、统一编程模型、存算一体化、智能化任务划分和分配等方面进行突破。

参考文献 | 相关文章 | 多维度评价

Select

29. 基于新型语言机制的异构集群应用通信优化方法

崔翔, 李晓雯, 陈一峯

计算机科学 2020, 47 (8): 17-15. DOI: 10.11896/jsjkx.200100124

摘要（728）

PDF（pc）（1901KB）（1027）

与传统集群相比, 异构集群具有较高的性价比。但相比迅速发展的硬件技术, 当前软件技术仍然落后, 不能适应不断更新的异构硬件和超大规模的并行计算环境。当前普遍采用的解决方案是直接使用针对不同硬件的并行编程工具, 这一组合方案的缺点是编程层次低, 开发、修改与调试困难。文中介绍了新型语言机制用于描述数据与线程的多维规则结构、排列方式以及通讯模式, 提出了基于新型语言机制的不同类型异构系统之间的软件移植和优化方法。以直接法湍流模拟为例, 实现了应用在不同异构系统上的通信优化和快速移植。

参考文献 | 相关文章 | 多维度评价

Select

30. 一种基于模拟退火的动态部分可重构系统划分-调度联合优化算法

王喆, 唐麒, 王玲, 魏急波

计算机科学 2020, 47 (8): 26-31. DOI: 10.11896/jsjkx.200500110

摘要（532）

PDF（pc）（1476KB）（950）

基于FPGA的动态部分可重构(Dynamically Partially Reconfigurable, DPR)技术因在处理效率、功耗等方面具有优势, 在高性能计算领域得到广泛应用。DPR系统中的重构区域划分和任务调度决定了整个系统的性能, 因此如何对DPR系统的逻辑资源划分和调度问题进行建模, 并设计高效的求解算法是保证系统性能的关键。在建立划分和调度模型的基础上, 设计了基于模拟退火(Simulated Annealing, SA)的DPR系统划分-调度联合优化算法, 用于优化重构区域的划分方案和任务调度。文中提出了一种新型新解产生方法, 可有效跳过不可行解及较差解, 加快了对解空间的搜索并提高了算法的收敛速度。实验结果表明, 与混合整数线性规划(Mixed Integral Linear Programming, MILP)和IS-k两种算法相比, 提出的基于SA的算法的时间复杂度更低;且针对大规模应用, 该算法能够在较短的时间内获得较好的划分与调度结果。

参考文献 | 相关文章 | 多维度评价