跨越“三重门” 曙光GPU助力深圳光启制造“隐身衣”-中科曙光

相信很多人都对传说中的“隐身衣”有着不同寻常的好奇，这种只存在《哈利波特》中的魔法宝物是真的吗？“隐身衣”到底是大自然的奇迹，还是科学的力量？深圳光启高等理工研究院（以下简称光启研究院）刘若鹏院长告诉记者：“隐身衣”是一种超材料技术研制、通过引导微波“转向”防止物体被“发现”的科学产物。

光启研究院自2010年7月揭牌成立后，吸引了多个国家和地区的杰出科学家，在充满活力的交叉学科合作中，建立起具有广阔国际视角的科研环境。不到两年的时间内，光启研究院已经成为中国超材料技术的领军企业。

2011年，光启研究院全面启动超材料制备与封装技术重点实验室等5个重点实验室和超颖射频技术工程实验室等6个工程实验室的建设，在光启的实验室中，曙光GPU解决方案通过跨越“三重门”，成为集群管理成功的关键。

三重考验挑战集群管理操作能力

因为研发需要，光启研究院GPU集群所承担的大部分科研工作需要使用CST Microwave studio2011、 COMSOL 4.2和MATLAB三个软件作大规模计算，三个软件对集群的要求各具特色：

可用的CST Microwave Studio 2011版本在分布式计算时，要求头结点必须是Windows Server 2008 R2 操作系统，计算结点必须是LLinux系统。CST2011可以使用GPU加速，单结点可以挂载多颗GPU；自带MPI通信工具；自带作业调试器。

而COMSOL4.2有两类使用，单个大作业、多个小作业。计算时需要调用MATLAB，因此需要将MATLAB与COMSOL配置正确，以使协同工作。

MATLAB 2011b 则需要支持GPU加速，同时支持分布式并行计算，自带作业调度工具，客户端不必登录服务器就可以提交作业、查看结果。

面对三个大型软件同时工作时，普通的GPU根本无法满足如此大规模的计算，往往会陷入崩溃的状况。针对光启研究院的特别需求，曙光公司迎难而上，制定了一整套GPU解决方案。

一个集群管理软件GridviewGridview PK多个工作调度

要满足光启研究院的需求，既要整合三个软件到同一个作业调度系统之中，又要避免三个软件使用各自调度器带来的资源竞争和资源闲置。这是一个极具挑战性的任务，必须深入了解这两款商业的软件的架构，实现无缝融合，让软件用户感觉不到作业调试系统的改变。

为此，曙光公司研发人员认真研究了光启的应用需求。光启研究院的科学家是超材料的专家，却不是IT专家，怎样让他们不必登录集群、不必学习LLinux命令，只需打开浏览器就可以直观地提交作业、查看计算结果呢？光启近二百位科学家几乎每天都在使用集群，而且运算能力越高越好，就需要GPU越多越好；光启的机房剩余空间不多，必须提供计算能力密集的服务器；还要考虑同时配置Windows结点和Linux结点，以便使用CST2011，两类结点要统一调度；而且单个作业需要使用多颗GPU，GPU间通信需要高速互联网络……

最终，曙光公司决定使用集群管理软件Gridview中的作业调度模块替代CST2011和MATLAB 2011b 自带的作业调度工具，实现作业的统一调度。曙光公司集群管理软件Gridview支持定制开发portal，集群管理员可以快速开发出特定应用软件的portal。

而且曙光提供的GPU高性能解决方案系统中的大部分结点都部署了SUSE操作系统，少量结点部署windows server 2008 R2虚拟机。CST2011头结点仅仅分发作业，并不承担计算任务，负载较轻，虚拟机即可胜任。单个物理结点上部署多个虚拟机，节约投资。

在有限的预算内，曙光还配备了202块NVIDIA Tesla C2050 GPU卡，使CPU与GPU的数量达到1:1的最佳比例。每个主板上挂载两颗GPU，这两颗GPU之间的通信不必通过网络交换机，使用本地内存即可完成，大大减少了通信开销，提高应用的扩展性。

当GPU跨结点并行时，通信开销往往成为性能提升的瓶颈。为此，曙光GPU高性能解决方案配置高带宽低延时的InfiniBand QDR网络互联设备，任意结点之间都能达到全线速40Gbps。采用极高密度的曙光GPU服务器，在1U空间实现两颗CPU+两颗GPU的计算能力，使光启研究院有效节省机房面积，却更快的提高了计算能力与计算速度。

在光启研究院项目准备、实施过程中，曙光公司做了大量的定制研发，尤其是面对作业调度系统整合、极高密度GPU服务时，充分体现出多年深耕高性能计算的实力。曙光从单一服务器硬件供应商向“信息服务供应商”的转型之路，渐行渐近。

关联公众号

关联公众号

严正声明

联系我们

售后服务

跨越“三重门” 曙光GPU助力深圳光启制造“隐身衣”