计算机科学 ›› 2019, Vol. 46 ›› Issue (8): 95-99.doi: 10.11896/j.issn.1002-137X.2019.08.015

• 2018 全国高性能计算学术年会 • 上一篇    下一篇

一种ARM处理器面向高性能计算的性能评估

王一超1, 廖秋承1, 左思成2, 谢锐1, 林新华1   

  1. (上海交通大学网络信息中心 上海200240)1
    (上海交通大学电子信息与电气工程学院 上海200240)2
  • 收稿日期:2019-01-20 出版日期:2019-08-15 发布日期:2019-08-16
  • 通讯作者: 林新华(1979-),男,博士,高级工程师,主要研究方向为高性能计算与体系架构,E-mail:james@sjtu.edu.cn
  • 作者简介:王一超(1990-),男,硕士,工程师,主要研究方向为高性能计算中的性能优化问题,E-mail:wangyichao@sjtu.edu.cn;廖秋承(1994-),男,助理工程师,主要研究方向为计算机体系架构;左思成(1997-),男,主要研究方向为高性能计算;谢锐(1974-),男,硕士,高级工程师,主要研究方向为计算机网络
  • 基金资助:
    国家重点研发计划(2018YF0404603)

Performance Evaluation of ARM-ISA SoC for High Performance Computing

WANG Yi-chao1, LIAO Qiu-cheng1, ZUO Si-cheng2, XIE Rui1, LIN Xin-hua1   

  1. (Network & Information Center,Shanghai Jiao Tong University,Shanghai 200240,China)1
    (School of Electronic Information and Electrical Engineering,Shanghai Jiao Tong University,Shanghai 200240,China)2
  • Received:2019-01-20 Online:2019-08-15 Published:2019-08-16

摘要: 为探索ARM架构在高效能“绿色计算”领域中,面向高性能计算的应用价值,对一款ARM指令集处理器进行性能评估,并将其与主流商用处理器Intel Xeon进行性能对比。在微架构上,测试了该处理器的浮点数计算能力、访存带宽及延迟。实验结果显示,该处理器的双精度浮点计算能力约为475 GFLOPS,相较于Xeon E5-2680v3,低了33%,访存带宽约为105GB/s,优于Xeon平台。在应用层面,选取4个高性能计算领域的典型应用,包含Stencil并行计算方法等,在该处理器实现移植和编译,并采用线程绑定的运行方法,提升缓存局部性,优化计算性能。实验结果显示,ARM指令集处理器的应用移植简单,其优化思路与主流商用处理器(如Intel Xeon)类似,但在计算密集和随机访存型应用上存在提升空间,在Stencil应用上性能近似,结合低功耗特点,在“绿色计算”领域具有竞争力。后续将持续基于最新的ARM指令集芯片做相关研究。

关键词: 处理器, ARMv8, 性能评估

Abstract: In order to compare the performance of Intel Xeon processor for high performance computing,this paper eva-luated an ARM-ISA based-SoC floating point computing capacity,memory access bandwidth and latency.Computing capacity of double floating point on this is about 475 GFLOPS that is only 66% of Intel Xeon E5-2680v3.Memory bandwidth is 105 GB/s,better than Xeon processor.Moreover,this paper ported 4 scientific computing applications including stencil method on this SoC.The experiments show that the performance of two stencil applications on this SoC is close to that on Intel Xeon processors,and thread mapping for cache locality is a kind of performance optimization methods for this SoC.More performance study later on the new generation ARM Server SoC will be explored

Key words: Processor, ARMv8, performance evaluation

中图分类号: 

  • TP391
[1] JACKSON A,TURNER A,WEILAND M,et al.Evaluating the Arm Ecosystem for High Performance Computing[C]∥Platform for Advanced Scientific Computing (PASC) Conference.Zurich,Swiss:ACM,2019:1-18.
[2] MCINTOSH-SMITH S,PRICE J,DEAKIN T,et al.Compara- tive Benchmarking of the First Generation of HPC-Optimised Arm Processors on Isambard[C]∥Cray User Group (CUG) Conference.2018.
[3] YOSHIDA T.Fujitsu high performance CPU for the Post-K Computer[C]∥Hot Chips 30 Symposium (HCS).Cupertino,US:IEEE,2018.
[4] STEPHENS N,BILES S,BOETTCHER M,et al.The ARM Scalable Vector Extension[C]∥IEEE Micro.Boston,US:IEEE,2017.
[5] MCCORMICK P S,BRAITHWAITE R K,FENG W.Empirical Memory-Access Cost Models in Multicore NUMA Architectures[C]∥International Conference on Parallel Processing (ICPP).Taipei:2011.
[6] LAURENZANO M A,TIWARI A,CAUBLE-CHANTRENNE A,et al.Characterization and bottleneck analysis of a 64-bit ARMv8 platform[C]∥ISPASS 2016 - International Symposium on Performance Analysis of Systems and Software.2016.
[7] MALLINSON A C,BECKINGSALE D A,GAUDIN W P,et al.CloverLeaf:Preparing Hydrodynamics Codes for Exascale[C]∥CRAY User Group.2013.
[8] MCINTOSH-SMITH S,MARTINEAU M,DEAKIN T,et al.TeaLeaf:A mini-application to enable design-space explorations for iterative sparse linear solvers[C]∥Proceedings of IEEE International Conference on Cluster Computing.ICCC,2017.
[9] ZERR R,BAKER R.SNAP:SN (discrete ordinates) application proxy:Description[R].2013.
[10] MARTINEAU M,MCINTOSH-SMITH S.Exploring On-Node Parallelism with Neutral,a Monte Carlo Neutral Particle Transport Mini-App[C]∥Proceedings of IEEE International Confe-rence on Cluster Computing.ICCC,2017.
[11] PARLETT B N.LINPACK Users’ Guide (J.J.Dongarra,J.R.Bunch,C.B.Moler and G.W.Stewart)[M].Philadelphia:SIAM Review,2005.
[12] MCCALPIN J D.Memory Bandwidth and Machine Balance in Current High Performance Computers[J].IEEE ComputerSocie-ty Technical Committee on Computer Architecture Newsletter,1995,2:19-25.
[13] MCVOY L,STAELIN C.lmbench:Portable Tools for Perfor- mance Analysis[C]∥Proceedings of the USENIX Annual Technical Conference.1996.
[14] LIU J,WU J,PANDA D K.High performance RDMA-based MPI implementation over InfiniBand[C]∥International Journal of Parallel Programming.2004.
[15] LIN X H,WANG Y C,QIN Q,et al.Modeling and Evaluating Intel IMCI Vgather Instruction using Stencils[J].Computer Engineering & Science,2016,38(9):1741-1747.(in Chinese) 林新华,王一超,秦强,等.利用Stencil建模及评估Intel IMCI vgather指令[J].计算机工程与科学,2016,38(9):1741-1747.
[1] 陈孟东, 郭东升, 谢向辉, 吴东. 基于异构计算平台的规则处理器的设计与实现[J]. 计算机科学, 2020, 47(4): 312-317.
[2] 陶小涵, 庞建民, 高伟, 王琦, 姚金阳. 基于SW26010处理器的FT程序的性能优化[J]. 计算机科学, 2019, 46(4): 321-328.
[3] 罗殊彦, 朱怡安, 曾诚. 嵌入式异构多核处理器核间的通信性能评估与优化[J]. 计算机科学, 2018, 45(6A): 262-265.
[4] 高放,黄樟钦. 基于异构多核并行加速的嵌入式神经网络人脸识别方法[J]. 计算机科学, 2018, 45(3): 288-293.
[5] 朱君鹏, 李晖, 陈梅, 戴震宇. SNS:一种快速无偏的分层图抽样算法[J]. 计算机科学, 2018, 45(11): 249-255.
[6] 马飞越,游洪,佃松宜,杨家勇,彭新智,王博,丁培. 一种用于气体绝缘开关设备异物清扫与检测的机器人系统[J]. 计算机科学, 2017, 44(Z11): 592-595.
[7] 李红军,崔西宁,牟明,韩伟. 一种面向分布式嵌入式计算机的性能评估模型[J]. 计算机科学, 2017, 44(4): 153-156.
[8] 唐滔,彭林,黄春,杨灿群. 面向存储层次设计优化的GPU程序性能分析[J]. 计算机科学, 2017, 44(12): 1-10.
[9] 孟德龙,文敏华,韦建文,林新华. 神威太湖之光上OpenFOAM的移植与优化[J]. 计算机科学, 2017, 44(10): 64-70.
[10] 王伟,王嘉郡,王明明,张文静,陈金广. 以网络性能为核心的移动自组网Flooding攻击防御技术[J]. 计算机科学, 2017, 44(1): 159-166.
[11] 林新华,秦强,李硕,文敏华,松岗聪. 使用Stencil评估Intel AVX2 Vgather指令[J]. 计算机科学, 2017, 44(1): 20-24.
[12] 张静,熊承义,高志荣. 基于GPU的压缩感知重构算法的设计与实现[J]. 计算机科学, 2016, 43(8): 318-322.
[13] 董卫宇,刘金鑫,戚旭衍,何红旗,蒋烈辉. 基于热例程的动态二进制翻译优化[J]. 计算机科学, 2016, 43(5): 27-33.
[14] 韩磊,徐 波,黄向生,张彦峰. 基于GPU的散斑三维重建系统[J]. 计算机科学, 2015, 42(8): 294-299.
[15] 王文义,冉晓龙. 关于多核系统并行程序效率的编程因素及其研究[J]. 计算机科学, 2015, 42(8): 28-31.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 雷丽晖,王静. 可能性测度下的LTL模型检测并行化研究[J]. 计算机科学, 2018, 45(4): 71 -75 .
[2] 孙启,金燕,何琨,徐凌轩. 用于求解混合车辆路径问题的混合进化算法[J]. 计算机科学, 2018, 45(4): 76 -82 .
[3] 张佳男,肖鸣宇. 带权混合支配问题的近似算法研究[J]. 计算机科学, 2018, 45(4): 83 -88 .
[4] 伍建辉,黄中祥,李武,吴健辉,彭鑫,张生. 城市道路建设时序决策的鲁棒优化[J]. 计算机科学, 2018, 45(4): 89 -93 .
[5] 史雯隽,武继刚,罗裕春. 针对移动云计算任务迁移的快速高效调度算法[J]. 计算机科学, 2018, 45(4): 94 -99 .
[6] 周燕萍,业巧林. 基于L1-范数距离的最小二乘对支持向量机[J]. 计算机科学, 2018, 45(4): 100 -105 .
[7] 刘博艺,唐湘滟,程杰仁. 基于多生长时期模板匹配的玉米螟识别方法[J]. 计算机科学, 2018, 45(4): 106 -111 .
[8] 耿海军,施新刚,王之梁,尹霞,尹少平. 基于有向无环图的互联网域内节能路由算法[J]. 计算机科学, 2018, 45(4): 112 -116 .
[9] 崔琼,李建华,王宏,南明莉. 基于节点修复的网络化指挥信息系统弹性分析模型[J]. 计算机科学, 2018, 45(4): 117 -121 .
[10] 王振朝,侯欢欢,连蕊. 抑制CMT中乱序程度的路径优化方案[J]. 计算机科学, 2018, 45(4): 122 -125 .