栏目文章

Select

1. 面向Lustre集群存储的错误日志分析及系统优化

程稳, 李焱, 曾令仿, 王芳, 唐士程, 杨力平, 冯丹, 曾文君

计算机科学 2022, 49 (10): 1-9. DOI: 10.11896/jsjkx.220100134

摘要（440）

PDF（pc）（2684KB）（2899）

集群存储系统的错误日志信息有助于优化存储系统的可用性和稳定性。现有存储系统错误探究主要针对单机存储系统或集群存储系统的部分功能进行分析评估,缺乏在实际应用场景下,同一生产环境中,长时间、多视角的探究工作。新型功能模块的不断融入,使得集群存储系统日益庞杂,集群存储系统自身引发的错误层出不穷,给各类研发人员带来了困扰与挑战。针对以上问题,提出了面向Lustre集群存储的错误日志分析及系统优化策略,通过收集连续1 673天的错误日志,研究了近2.26 GB的Lustre错误日志,分析了多个版本Lustre错误的特点与问题,揭示了集群存储系统各方面的不足与错误,研究了不同Lustre版本错误的影响因素,总结了Lustre集群在实际生产环境中的常见错误,并给出了相应的解决方案。对Lustre系统研发有了许多新的见解,并总结了14个发现,最后通过采集333天的新增错误记录对14个发现进行了相关验证,给出了一些系统错误优化实例。相关测试表明,优化实例可以显著减少错误数量,提高系统的可用性和稳定性,研究结果和建议对集群存储系统本身的发展以及集群存储系统的运行和维护都有一定的参考价值。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于ARM的图像几何变换算法库实现和优化技术研究

王麓涵, 贾海鹏, 张云泉, 张广婷

计算机科学 2022, 49 (10): 10-17. DOI: 10.11896/jsjkx.220100128

摘要（388）

PDF（pc）（4816KB）（2881）

高性能原语基础算法库(Intel Integrated Performance Primitives,Intel IPP)是面向信号、图像处理领域的高性能多媒体加速库。然而,截至目前,暂时没有基于ARM架构的高性能IPP库。文中针对镜像变换、重映射、仿射、透视变换等基础图像几何变换算法,实现了一个基于ARM计算平台的高性能算法库PerfIPP,并通过SIMD汇编优化、内存对齐、数据预计算、高性能矩阵转置等优化技术,显著提升了上述算法的性能。同时,通过对比不同指令组合、不同指令排列、不同取数存储方式等所带来的性能差异,总结图像几何变换算法在ARM计算平台上实现与优化的关键技术。实验结果表明,在华为鲲鹏920平台上,相比开源计算机视觉库OpenCV,PerfIPP在满足精度要求的同时,在上述基础图像几何变换上获得了108.08%~435.5%的性能提升,并达到了在英特尔至强E5-2640处理器上Intel IPP库平均性能的83.79%。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于神经网络模型的stencil循环最优分块大小预测

包怡坤, 张鹏, 徐小文, 莫则尧

计算机科学 2022, 49 (10): 18-26. DOI: 10.11896/jsjkx.220100147

摘要（408）

PDF（pc）（3004KB）（2825）

stencil循环是科学与工程计算应用中最主要的计算核心之一。循环分块技术可有效改善stencil循环的数据局部性,提高计算并行度。分块的大小选择对stencil循环的性能影响很大,传统的分块大小选择方法通常在时间开销、人工成本、分块选择精度等方面存在短板,实用性较差。文中提出了一种基于人工神经网络的分块大小选择方法,用于预测三维Jacobi型stencil循环程序的最优分块。对来源于实际数值模拟软件中的11个stencil循环进行最优分块预测,实验结果显示,在单核串行和多核并行两种场景下,程序使用模型预测分块相比不分块的性能提升分别为2%和35%,与网格搜索方法的分块性能相当,但在线预测时间开销仅约为后者的1/30 000。此外,相比基于静态分析的Turbo-tiling方法,预测最优分块的实测性能平均提升了约9%。

参考文献 | 相关文章 | 多维度评价

Select

4. 面向飞腾处理器的多线程可复现DGEMV设计与实现

陈磊, 唐滔, 漆海俊, 姜浩, 何康

计算机科学 2022, 49 (10): 27-35. DOI: 10.11896/jsjkx.220100125

摘要（417）

PDF（pc）（2069KB）（2705）

在高性能计算中,求解大规模、大尺度、长时程和病态问题过程中舍入误差的累计都可能会使算法的最终数值结果失真。在不同的计算软硬件资源下,每次运行的结果可能不一致,而这些结果是开发者调试程序和正确性检查的重要依据,会对科研工作的顺利进行造成干扰,因此算法数值结果的可复现性变得至关重要。文中面向飞腾处理器,基于OpenBLAS 软件框架,结合美国伯克利国家实验室的Demmel教授团队开发的ReproBLAS软件中提出的可复现的方法与Castado提出的多层分块技术,使用舍入误差分析和无误差变换等技术,设计出了多线程可复现DGEMV的算法。数值实验显示,所提算法实现了数值计算的可复现性,且输出结果与ReproBLAS相同,验证了所提算法的可靠性。同时,所提算法在相同的测试环境下运行速度至少是ReproBLAS实现算法运行速度的2倍。此外,还将所提算法与日本理化研究所Mukunoki提出的OzBLAS中的可复现DGEMV函数进行对比,同为单线程时该算法的运行速度至少是OzBLAS算法的20倍,在相同多线程数量情况下,该算法的运行速度至少是OzBLAS算法的9倍。理论分析和数值实验均表明,该改进算法比国际上现有的可复现数值算法性能更优。

参考文献 | 相关文章 | 多维度评价

Select

5. 基于“AI+HPC”的第一原理计算时间预测及其在社区平台中的应用

李治莹, 马硕, 周超, 马英晋, 刘倩, 金钟

计算机科学 2022, 49 (10): 36-43. DOI: 10.11896/jsjkx.220100129

摘要（563）

PDF（pc）（3636KB）（2556）

密度泛函方法在常用的第一原理计算方法中有着计算标度低、计算精度高的特点,因此其在化学、生物、医药等领域得到了越来越广泛的应用。然而,在实际应用中,其较为高昂的计算代价对用户计算参数的决策以及计算中心的作业分配都提出了新的挑战。近期开发的基于机器学习的密度泛函计算时间预测系统,能够在算前预测实际的计算开销,预测结果的平均相对误差一般小于0.15,符合实际计算场景下的预测精度要求。文中进一步推进和完善了该预测系统,提供了多GPU并行计算功能、机器学习模型的模块化增补;将其与生物医药社区相结合,实现了对平台计算任务的实时机时显示,方便用户统筹;并基于此开发了智能负载均衡模块,可以提高超大分子及团簇体系的第一性原理并行计算效率。通过多个方面的推进,改善了预测系统的实用性,并在社区平台和并行计算方面得到了初步应用。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于多面体模型的矩阵乘法向量代码生成

王博漾, 庞建民, 徐金龙, 赵捷, 陶小涵, 朱雨

计算机科学 2022, 49 (10): 44-51. DOI: 10.11896/jsjkx.210800247

摘要（401）

PDF（pc）（3412KB）（2727）

矩阵乘法是众多科学计算的核心,而向量化编程是提升其性能的主要手段之一。针对现有的向量化优化往往存在需要手工进行调优以及与硬件结构映射的问题,基于多面体编译器PPCG,在多面体模型中引入向量代码生成框架,提出了基于多面体模型的矩阵乘法向量代码生成框架。通过对矩阵乘法的向量化方案进行收益分析来确定向量化方案,指导应用框架的代码生成,基于该代码生成框架,有利于矩阵乘法的向量化快速优化。选取13个规模在64×64×64到1 024×1 024×1 024之间的矩阵乘法用例进行实验,结果表明,该框架能够正确生成向量化代码,与基础编译器ICC的自动向量化功能相比,应用该框架生成的向量化代码最高获得了5.09倍的加速和3.39倍的平均加速。

参考文献 | 相关文章 | 多维度评价

Select

7. 一种面向申威26010处理器的分布式传递锁机制

李明亮, 庞建民, 岳峰

计算机科学 2022, 49 (10): 52-58. DOI: 10.11896/jsjkx.210800091

摘要（217）

PDF（pc）（2412KB）（2634）

在并行程序中,互斥锁通常被用来避免访问共享资源时发生冲突。申威26010处理器是“神威·太湖之光”超级计算机采用的异构众核处理器,众核之间并无硬件互斥锁机制。其开发人员基于原子操作实现了一种软件互斥锁,但是该软件锁在激烈锁竞争情况下会产生大量的锁操作开销,影响了并行程序的性能。针对这一问题,提出了一种分布式传递锁机制HDT-LOCK。首先,提出并实现了基于众核上便签存储器和主存的混合分布锁来避免访存拥塞;其次,设计了基于寄存器通信和单指令多数据指令(Single-instruction Multiple-data Instruction)的锁传递机制,以进一步提高HDT-LOCK机制的吞吐量。实验结果表明,与原锁机制相比,所提HDT-LOCK机制避免了访存拥塞,并且可扩展性更佳。此外,锁传递机制使HDT-LOCK的吞吐量提升最高可达5.6倍。

参考文献 | 相关文章 | 多维度评价

Select

8. ARM架构云服务器的CPU功耗模型研究

金育妍, 余天豪, 王松波, 林伟伟, 潘宇聪

计算机科学 2022, 49 (10): 59-65. DOI: 10.11896/jsjkx.210800103

摘要（348）

PDF（pc）（2200KB）（2570）

云服务器的功耗模型是云数据中心能耗优化研究的重要内容之一。CPU功耗模型是云服务器功耗模型的重要组成部分,然而现有CPU功耗模型没有考虑CPU的异构性,如缺乏对ARM架构服务器CPU功耗模型的研究。在调研分析现有的ARM架构CPU功耗模型的基础上,提出了一种面向ARM架构的新CPU功耗模型——基于混合建模的CPU功耗模型(Hybrid Based Model,HBM)。该功耗模型综合考虑了CPU利用率和CPU性能事件等建模特征,相比现有的测算精度很高的基于性能计数器的CPU功耗模型,HBM的测算精度与其相近且模型训练成本更低,更适合ARM服务器的CPU功耗建模。文中使用Sysbench负载工具对所提HBM进行实验验证,实验结果表明,HBM的平均相对误差(MRE)在1%以内,具有良好的测算精度。此外,还针对x86和ARM架构服务器进行了交叉实验,实验结果表明不同架构服务器的CPU功耗行为相异,应当使用不同的CPU功耗建模方法。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于新一代神威超算的计算流体力学Palabos软件的并行优化

柳安军, 殷洪辉, 王利, 刘智翔, 孔博, 郭猛, 陈成敏, 杨美红

计算机科学 2022, 49 (10): 66-73. DOI: 10.11896/jsjkx.220100089

摘要（799）

PDF（pc）（2735KB）（2753）

Palabos软件是一款基于格子玻尔兹曼算法(Lattice Boltzmann Method,LBM)的计算流体力学软件,因其优异的计算能力被广泛用于多孔介质、自由界面、颗粒运动、血液流动等计算流体力学领域。Palabos软件广泛的用户需求使其迫切需要在神威超算上进行移植优化和并行加速,服务于能源、化工行业。文中在新一代神威超算(SW26010pro)上对Palabos软件进行异构并行设计,针对Palabos的数据结构和模块化编程不利于神威众核编程的问题,通过直接取址,设置字段标记处理多态导致的分支、数据切片处理等优化思路;并结合新一代神威超算的特性,使用共享内存和寄存器通信的优化技术,实现众核加速2~6倍。同时实现Palabos软件在新一代神威超算上的复杂化工过程多尺度计算方向上两相流算法的百万核心规模的并行计算,以6.4万核心的并行计算规模为基准,百万核心的并行效率大于40%。

参考文献 | 相关文章 | 多维度评价

Select

10. 基于FPGA的高性能可扩展SM4-GCM算法实现

翟嘉琪, 李斌, 周清雷, 陈晓杰

计算机科学 2022, 49 (10): 74-82. DOI: 10.11896/jsjkx.210900137

摘要（315）

PDF（pc）（3407KB）（2898）

在大数据和5G技术蓬勃发展的背景下,高速通信系统中的信息加密成为了新的研究热点,如何在保证数据高安全性的同时,提高数据吞吐率,降低加密算法适配不同应用场景的难度成为了重要的研究课题。针对传统软件实现的SM4-GCM算法吞吐率小、难以在多变的5G及大数据场景下应用的问题,文中基于FPGA可重构的特点,深入剖析SM4-GCM算法的特征,利用Mastrovito算法、Karatsuba算法、快速求余算法,设计了两种高性能、数控分离、可扩展的电路结构,分别采用全流水线技术和四度并行技术对SM4-GCM算法进行加速优化,在保证高安全性的同时,达到了较高吞吐率,并且可灵活移植于各种应用场景。实验结果表明,所提出的两种方案中的单个SM4-GCM模块的吞吐率分别达到了28.16 Gbps和28.8 Gbps,在性能、可扩展性等方面均优于同类已发表的设计。

参考文献 | 相关文章 | 多维度评价