1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
    计算机体系结构* 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 一种面向构件化并行应用程序的性能骨架分析方法
    傅天豪, 田鸿运, 金煜阳, 杨章, 翟季冬, 武林平, 徐小文
    计算机科学    2021, 48 (6): 1-9.   DOI: 10.11896/jsjkx.201200115
    摘要690)      PDF(pc) (2185KB)(1157)    收藏
    性能骨架分析技术通过刻画并行应用程序的程序结构,为并行应用程序性能建模提供输入,是大规模并行应用程序性能分析、性能优化的基础。文中针对数值模拟领域中的一类构件化并行应用程序,在面向通用程序二进制文件的动静态结构分析技术的基础上,提出并实现了一种基于“构件-循环-调用”关系树(Component-Loop-Call-Tree,CLCT)的程序结构自动化生成方法,在此基础上,研制了一种面向构件化并行应用程序的性能骨架分析工具(CLCT SkeleTon Analysis Toolkit,CLCT-STAT)。该方法可以自动识别构件化应用程序中构件类成员函数符号,生成以构件为最小单位的并行应用程序性能骨架。在多个构件化并行应用程序上的测试表明,相比分析建模手动生成性能骨架的方法,所提方法不仅能提供更丰富的程序结构信息,还可以节约人工分析的时间成本。
    参考文献 | 相关文章 | 多维度评价
    2. 面向SW26010处理器的三维Stencil自适应分块参数算法
    朱雨, 庞建民, 徐金龙, 陶小涵, 王军
    计算机科学    2021, 48 (6): 10-18.   DOI: 10.11896/jsjkx.200700059
    摘要593)      PDF(pc) (2242KB)(1123)    收藏
    Stencil计算是科学应用中的一类重要计算,而分块是提升Stencil计算数据局部性的关键技术。针对现有三维Stencil优化在SW26010处理器上缺少时间分块以及分块参数需手工调优的问题,引入时间分块,提出了面向SW26010处理器的三维Stencil自适应分块参数算法。通过建立性能分析模型,结合硬件计算能力及存储容量等限制因素,文中系统地分析了分块参数对模型性能的影响,判断性能瓶颈,指导分块参数的优化方向。基于性能分析模型,自适应分块参数算法可给出预测性能最优时的分块参数,有利于三维Stencil在SW26010处理器上的快速优化部署。选取了三维7点和三维27点Stencil算例进行实验。与未使用时间分块的三维Stencil优化相比,以上两个算例在自适应选择的分块参数下可以达到1.47和1.29的加速比,且实际最优分块参数与理论最佳分块参数一致,这验证了所提性能分析模型及自适应分块参数算法的有效性。
    参考文献 | 相关文章 | 多维度评价
    3. 一种面向动态部分可重构片上系统的列表式软硬件划分算法
    郭彪, 唐麒, 文智敏, 傅娟, 王玲, 魏急波
    计算机科学    2021, 48 (6): 19-25.   DOI: 10.11896/jsjkx.200700198
    摘要445)      PDF(pc) (2039KB)(776)    收藏
    并行计算是提高系统资源利用率的重要手段,越来越多的多处理器片上系统通过集成具有不同功能特点的处理器来满足不同计算任务的需求。具备动态部分可重构特性的异构多处理器片上系统(Dynamic Partial Reconfiguration-Heteroge-neous Multiprocessor Systems-on-Chip,DPR-HMPSoC)因其并行性好、计算效率高而被广泛使用,而低复杂度和高求解性能的软硬件划分算法是充分发挥其计算性能优势的重要保证。已有的相关软硬件划分算法时间复杂度高,且对DPR-HMPSoC平台的支撑不足。针对上述问题,首先提出了一种列表启发式软硬件划分与调度算法,其通过构建基于任务优先级的调度列表,完成任务的调度、映射、FPGA动态部分可重构区域划分等一系列操作;接着给出了软件应用建模、计算平台建模及所提算法的详细设计方案。仿真实验结果表明,所提算法与混合整数线性规划(Mixed Integral Linear Programming,MILP)和蚁群优化(Ant Colony Optimization,ACO)算法相比,可有效减少求解时间,且时间优势与任务规模成正比;在调度长度方面,所提算法的平均性能提升了约10%。
    参考文献 | 相关文章 | 多维度评价
    4. 基于SIMD扩展部件的长向量超越函数实现方法
    刘聃, 郭绍忠, 郝江伟, 许瑾晨
    计算机科学    2021, 48 (6): 26-33.   DOI: 10.11896/jsjkx.200400007
    摘要687)      PDF(pc) (1971KB)(1347)    收藏
    基础数学函数库是计算机系统非常关键的软件模块,然而国产申威平台上的长向量超越函数只能依靠循环调用系统标量函数来间接实现,该方法无法充分发挥申威平台SIMD扩展部件的计算性能。 为了有效解决此问题,实现了申威平台基于SIMD扩展部件底层优化的长向量超越函数,提出了浮点计算融合算法,解决了两分支结构算法难以向量化的问题;提出了基于Estrin算法动态分组的大阶数多项式实现方法,提高了多项式汇编计算的流水性能。 这是在国产申威平台上首次实现长向量超越函数库,提供的函数接口包含三角函数、反三角函数、对数函数、指数函数等。 实验结果表明,双精度版本最大误差控制在3.5ULP(unit in the last place)以下,单精度版本最大误差控制在0.5ULP以下,该性能与申威平台直接循环调用系统标量函数相比有显著提高,平均加速比为3.71。
    参考文献 | 相关文章 | 多维度评价
    5. 基于神威平台的Floyd并行算法的实现和优化
    何亚茹, 庞建民, 徐金龙, 朱雨, 陶小涵
    计算机科学    2021, 48 (6): 34-40.   DOI: 10.11896/jsjkx.201100051
    摘要506)      PDF(pc) (2223KB)(1094)    收藏
    求解全源最短路径的Floyd算法是许多实际应用基础上的关键构建块,由于其时间复杂度较高,串行Floyd算法不适用于大规模输入图计算,针对不同平台的并行Floyd算法设计可为解决现实问题提供有效帮助。针对Floyd算法与国产自主研发处理器匹配滞后的问题,首次提出基于神威平台的Floyd并行算法的实现和优化。根据SW26010处理器主-从核架构的特点,采用主从加速编程模型进行并行实现,并分析了影响该算法性能的关键因素,通过算法优化、数组划分和双缓冲技术进行优化,逐步提升算法性能。测试结果表明,与主核上串行算法相比,基于神威平台的Floyd并行算法在单个SW26010处理器上可以获得106倍的最高加速。
    参考文献 | 相关文章 | 多维度评价
    6. 面向64位RISC-V的基础数学库自动化移植
    曹浩, 郭绍忠, 刘聃, 许瑾晨
    计算机科学    2021, 48 (6): 41-47.   DOI: 10.11896/jsjkx.201200058
    摘要402)      PDF(pc) (1983KB)(720)    收藏
    受制于核心技术和知识产权等客观条件,国产自主芯片的研发困难重重。RISC-V作为一个开源指令集架构(ISA),具有简洁、模块化等优点,成为了国产处理器的新选择。基础数学库作为计算机系统最基础的核心软件库之一,对国产处理器的软件生态建设和健康发展尤为重要,而目前RISC-V还没有相关的基础数学库。因此,文中旨在将基于国产申威处理器的基础数学库移植到64位RISC-V平台。为了解决基础数学库的高效移植问题,首先设计了一个自动化移植框架,该框架通过功能模块间的松耦合,来实现高可扩展性;然后根据64位RISC-V指令集架构的特点,提出了基于全局的主动式寄存器分配方法和基于层次的指令选择策略;最后应用该框架,实现了对申威平台基础数学库中典型函数的移植,测试结果表明移植后函数功能正确且相对于GLIBC库在性能上有一定的提升。
    参考文献 | 相关文章 | 多维度评价
    首页 | 前页| 后页 | 尾页 第1页 共1页 共6条记录