吉象家手机版:高性能计算解决方案
如果你有高性能计算的建设需求,请联系我们的资深客户顾问——纪总:136-5518-1178
高性能计算系统是提高一个科研机构研究水平的重要基础设施,也是一个国家科技与经济实力的标志。它不仅是一个高速处理的计算机系统、更重要的是在其之上运行的各种应用对科学领域产生非常深远的影响。
高性能技术计算是利用数值模拟和数字技术方法探索和预测未知世界的技术。这一技术广泛应用于核武器研究和核材料储存仿真、生物信息技术、医疗和新药研究、计算化学、GIS、CAE、全球性长期气象、天气和灾害预报、工艺过程改进和环境保护等许多领域。近年来,随着研究的深入和竞争的加剧,各个领域越来越多地使用模拟的方法来解决科研和生产中的实际问题。模拟的模型越来越大、计算的精度越来越高、对超级计算机性能要求也越来越高。例如,在一个3维模型中,如果把从每个方向取100个分点增加取到1000个分点,对计算机资源的需求将增加1000倍以上。高性能计算应用不仅规模越来越大,而且往往必须在规定的时间内完成任务否则就失去了计算的价值(如天气预报、传染病防治)。这就对计算机系统的计算能力、系统带宽、内存容量、存储设备和I/O吞吐能力以及应用软件的开发技术都提出了更高、更全面的要求。
1 某超级计算中心工程计算平台
超级计算中心工程计算平台是面向先进制造业用户的高端仿真平台,在华东地区制造业用户中颇具影响力。为了解决长期困扰用户的老系统平台性能低,系统不稳定,存储IO瓶颈问题,超级计算中心建设全新的工业计算平台。
方案:
2012年苏创高性能计算团队为该超级计算中心设计面向制造业客户的工程计算平台,集群规模21万亿次,存储600TB,采用IBM Platform集群管理与作业调度软件与IBM GPFS并行文件系统以及IBM高性能计算专业实施服务
集群拓扑图如下:
价值:
业务平台上线后,解决了多年来困扰超级计算中心工程计算平台系统性能的问题与存储的IO瓶颈。IBM的并行文件系统GPFS替代原来的LUSTRE,使得集群存储方面更加稳定可靠,管理非常简单,提高集群并行访问性能,降低读写延迟,支持文件系统RDMA底层硬件加速功能,支持Windows与Linux混合平台;
2 商用飞机某震动所
方案:
吉象家手机版针对用户业务需求,设计采用4箱IBM BladeCenter刀片中心,共56把HS22刀片式服务器作为计算节点,采用千兆互联,万兆上联的网络架构。使用Platform集群管理与调度软件统一管理,GPFS并行文件系统统一存储。
价值:
放心的交钥匙工程,统一品牌的完整的HPC系统解决方案.
整体方案完全基于IBM成熟的服务器硬件产品和HPC系统软件产品,统一品牌,平衡设计。IBM Platform致力于为高性能计算提供计算资源管理的解决方案,国内的超大规模计算中心、以及其他对可靠性有要求的系统,多数采用了IBM Platform软件解决方案。Platform LSF有灵活的调度策略,比如抢占、回填、预约等高级调度策略。
IBM GPFS通用并行文件系统是目前最稳定的、最先进的并应用于商用的文件系统;并行文件系统保证所有节点均可同时高速读写同一文件系统和同一文件;支持数据分级存储和信息生命周期管理,优化存储性能;保证文件系统可按需要扩大和缩小;带有日志的文件系统保证不会在遇到系统或电源故障时文件系统不被破坏。
3某气象局
气象局数值预报平台是气象局的核心业务系统,承担重大的数值预报业务。气象局需要专业的供应商提供完整的解决方案,以解决目前遇到的计算瓶颈、可靠性与专业维护问题。
方案:
在2012年12月中标气象局的项目,提供计算能力近35万亿次的超级计算机。方案采用IBM BladeCener H系统,使用INTEL处理器。软件层面使用IBM Platform统一管理集群与作业调度,采用IBM GPFS统一管理存储,提高存储性能。
拓扑:
价值:
气象局的核心数值预报系统采用IBM的解决方案。提供强大的整体解决方案,不仅包括业界最好的硬件系统,包括服务器和存储,还包括业内排名第一的软件平台,IBM Platform LSF和IBM GPFS。除此之外,吉象家手机版高性能的专业实施与服务能力也是强大解决方案的重要组成部分。
4、某研究中心
方案:
该中心设计一套混合式架构的高性能计算集群。胖节点部分采用IBM小型机集群;普通计算节点采用IBM x86的刀片式服务器。统一采用IBM Platform LSF管理调度集群,IBM GPFS统一管理存储。
高性能计算系统拓扑图:
价值:
提供丰富的软硬件解决方案,客户支持混合架构的集群以满足不同业务的需求。采用Power 7技术的小型机不仅稳定可靠,而且计算性能突出,可以为客户节省大量昂贵的软件许可证资源。IBM Platform与IBM GPFS这两款核心软件都支持混合架构的模式,简化了IT基础架构的管理。
5 某大学
高性能计算平台是为了满足校内各种科研应用需求而建设的综合性高性能计算平台。2013年苏创负责承建,集群理论计算能力70万亿次。
方案:
在分析了用户高性能计算机系统需求后, 建议采用在高性能计算的领域已经得到广泛认同的IBM Cluster 1350集群架构,计算节点则选用IBM最新一代的x240刀片服务器,配置最新技术的Intel Xeon E5-2600系列处理器, 集群配置专业的高性能集群管理软件Platform LSF软件套件。本方案规划中,所有计算节点的系统峰值浮点性能约71,562Gflops,约70万亿次/秒。
高性能计算集群拓扑图:
价值:
综合性的高性能计算平台对于集群的稳定性与管理提出了挑战。IBM可以提供高可靠的解决方案,为用户省心。Platform LSF是经过长期验证的高可靠性软件,它的80%的代码是为了解决软件的可靠性问题。IBM DCS3700存储系统是专门为高性能计算而设计的专业存储系统,它承袭了IBM硬件的高可靠基因,在存储性能方面也是独一无二。
6 某物质结构研究所
方案:
为中科院某物质结构研究所设计的一套四路刀片式集群,采用62片IBM Flex x440四路刀片式服务器,IBM DS3524存储系统。Platform LSF和GPFS作为核心软件层,解决业务调度、集群管理和存储性能与管理问题。
系统架构图:
7 某大学GPU计算
该大学计算科学科研团队吸引了国内外一批知名学者组成计算科学科研团队,并成功入选江苏省首批创新科研团队。该团队是一支具有国际一流水平的创新科研 团队,其成员在微分方程数值解法、积分方程快速算法、随机问题计算方法、图像处理、高维数据处理和机器学习理论等领域做出了国际一流的研究成果。目前,信 息产业面临“多核革命”,高性能计算从单核到多核的硬件发展相对成熟,但相关的算法、软件研发尚处于起步阶段。这为广东信息产业带来了抢占多核并行计算及 软件的制高点的机遇。
应用需求
团队以建立多核计算机上的高效能计算方法为研究方向,具体研究内容广泛,包括:
1、高性能与多核并行计算;
2、非平稳信号自适应数据分析及其在信号处理中的应用;
3、计算机断层重建新算法及其在图像中的应用;
4、企业评估和风险预警的统计学习方法;
5、油气地震勘探巨量复杂数据处理的偏微分方程方法;
6、高维数据的超快速高精度傅立叶变换;
7、基于积分方程模型的高精度快速图像处理方法。
该大学GPU集群的特色是:自编程序、用户众多、应用广泛,需求各不相同。
解决方案
在上面所列的各种应用中,线性方程组的求解占据得要位置。为此,针对稠密、稀疏线性方程作GPU并行化测试。稠密线性方程组在nVidia Tesla C2050 GPU下加速3倍。
对稀疏线性方程组,与intel Xeon X5650 CPU相比, nVidia Tesla C2050 GPU能获得5~10倍的加速。
根据测试结果,决定选用nVidia Tesla C2050 GPU.
为了满足多用户多任务多应用的需求,并考虑到后续扩展性,曙光为该GPU集群作了特殊配置,有如下特色。
采用高密度GPU计算节点,二百余颗nVidia Tesla C2050 GPU提供超过110Tflops的计算能力。
自主研发的并行文件系统,两个IO节点,对计算节点提供80G的IO带宽,可大大提升系统的IO性能。 GPFS优势 还包括: 基于对象存储,使存储更具智能化;对单个目录下的元数据操作进行优化;数据安全性,可选支持多副本方式,充分保护数据安全性;极佳的可扩展性。 基于对象存储的体系结构使系统可以支持几万个客户节点,存储容量支持Petabytes级别;由于GPFS已经部署到多个不同规模大小的实际机群 系统中,可满足商业和安全应用对正常运行时间的要求;支持多种主流的网络连接,包括 TCP/IP,Myrinet,Infiniband,Qrandrics等;和集群管理软件结合,对文件系统部署、文件系统管理、文件系统快速恢复 提供良好支持。
三套网络,专网专用。高速计算网采用Inifiband 40Gbps全互联高速网络,用于并行计算时的数据交换和计算 通讯;数据网亦称接入网,采用高性能千兆以太网,主要用于用户接入、IO读写等,同时,数据网又作为高速计算网的备份;管理网采用千兆以太网,用于系统管 理控制、系统监控、作业的递交、作业监控等监控管理方面的数据通讯,同时,管理网又作为数据网的备份。
众多并行基础软件。集群应用范围很广,因此需要很多基础软件。操作系统:业界知名的Suse 64位企业版Linux操作系统,性能卓越,安全可 靠。MPICH和LAM-MPI:最稳定、适用性最好MPI实现,用于跨结点并行程序的开发。并行虚拟机PVM:用于异构系统下的并行程序开发。编译环 境:提供GNU C/C++编译器、GNU Fortran77/90/95等各种编译器、Java、Python、PERL开发环境,满足多种程序开发 需求;特别提供用于GPU程序开发的驱动、cudatoolkit和gpucomputing SDK。
数学库,程序优化的重要手段。 提供AMD核心数学库ACML、基本线性代数库BLAS、针对特定平台性能调优的高性能BLAS库GOTO和ATLAS、线性代数计算子程序包 LAPACK、可扩展线性代数库ScaLAPACK、并行可扩展科学计算工具箱PETSc、傅里叶变换数学库FFTW。
高性能计算平台管理软件。自主研发的集群管理软件GridView支持GPU计算监控,用户可随时了解GPU软硬件信息,如GPU的型号、软件版本、主频、风扇转速和温度变化等。
8 某大学海洋模式
计算中心高性能计算环境采用集群结构,拥有72个计算节点,1152个计算核心,每核心配置3GB以上内存,峰值计算能力10万亿次/秒;拥有 100TB存储能力。集群72个计算节点通过56Gb Infiniband网络互联;使用8个IO节点连接SAN存储;同时使用千兆以太网作为管理网络。计算网格节点部署也同时完成,成为科学院高性能计算网 格的一部分。集群LINPACK测试效率为88%,在同类集群中属较高水平。集群温度控制采用水冷方式,在满足对高密度刀片集群进行降温的同时,减少了占地空间,降低了机房噪声,节约了能源。
部署的系统软件资源包括:redhat Linux 操作系统,GPFS并行文件系统,Intel和PGI编译器;集群作业调度系统和监控采用LSF;。中心目前部署了有关物理海洋学和生物信息学方面应用模式和软件,主要应用领 域涉及物理海洋、生物信息、地球物理、资源环境等方面,主要服务于海洋科学研究、生物能源与过程研究对高性能计算的需求。 同时,中心将面向全校开放,重点支持科学研究领域,兼顾高技术应用领域及其他行业对高性能计算的需求。
【声明】
本版块相关解决方案,均来自我公司实际实施项目,仅供参考,请勿转载扩散。相关背景知识和部分项目概述,源自各合作企业技术手册及互联网公开资料。如果文中资料涉及您的隐私或权益,请致电025-68255895。我们会及时删除或妥善处理,谢谢!
如果你有高性能计算的建设需求,请联系我们的资深客户顾问——纪总:136-5518-1178