曙光新闻

跨越“三重门” 曙光GPU助力深圳光启制造“隐身衣”

相信很多人都对传说中的“隐身衣”有着不同寻常的好奇,这种只存在《哈利波特》中的魔法宝物是真的吗?“隐身衣”到底是大自然的奇迹,还是科学的力量?深圳光启高等理工研究院(以下简称光启研究院)刘若鹏院长告诉记者:“隐身衣”是一种超材料技术研制、通过引导微波“转向”防止物体被“发现”的科学产物。

光启研究院自2010年7月揭牌成立后,吸引了多个国家和地区的杰出科学家,在充满活力的交叉学科合作中,建立起具有广阔国际视角的科研环境。不到两年的时间内,光启研究院已经成为中国超材料技术的领军企业。

2011年,光启研究院全面启动超材料制备与封装技术重点实验室等5个重点实验室和超颖射频技术工程实验室等6个工程实验室的建设,在光启的实验室中,曙光GPU解决方案通过跨越“三重门”,成为集群管理成功的关键。

三重考验  挑战集群管理操作能力

因为研发需要,光启研究院GPU集群所承担的大部分科研工作需要使用CST Microwave studio2011、 COMSOL 4.2和MATLAB三个软件作大规模计算,三个软件对集群的要求各具特色:

可用的CST Microwave Studio 2011版本在分布式计算时,要求头结点必须是Windows Server 2008 R2 操作系统,计算结点必须是LLinux系统。CST2011可以使用GPU加速,单结点可以挂载多颗GPU;自带MPI通信工具;自带作业调试器。

而COMSOL4.2有两类使用,单个大作业、多个小作业。计算时需要调用MATLAB,因此需要将MATLAB与COMSOL配置正确,以使协同工作。

MATLAB 2011b 则需要支持GPU加速,同时支持分布式并行计算,自带作业调度工具,客户端不必登录服务器就可以提交作业、查看结果。

面对三个大型软件同时工作时,普通的GPU根本无法满足如此大规模的计算,往往会陷入崩溃的状况。针对光启研究院的特别需求,曙光公司迎难而上,制定了一整套GPU解决方案。

一个集群管理软件GridviewGridview  PK多个工作调度

要满足光启研究院的需求,既要整合三个软件到同一个作业调度系统之中,又要避免三个软件使用各自调度器带来的资源竞争和资源闲置。这是一个极具挑战性的任务,必须深入了解这两款商业的软件的架构,实现无缝融合,让软件用户感觉不到作业调试系统的改变。

为此,曙光公司研发人员认真研究了光启的应用需求。光启研究院的科学家是超材料的专家,却不是IT专家,怎样让他们不必登录集群、不必学习LLinux命令,只需打开浏览器就可以直观地提交作业、查看计算结果呢?光启近二百位科学家几乎每天都在使用集群,而且运算能力越高越好,就需要GPU越多越好;光启的机房剩余空间不多,必须提供计算能力密集的服务器;还要考虑同时配置Windows结点和Linux结点,以便使用CST2011,两类结点要统一调度;而且单个作业需要使用多颗GPU,GPU间通信需要高速互联网络……

最终,曙光公司决定使用集群管理软件Gridview中的作业调度模块替代CST2011和MATLAB 2011b 自带的作业调度工具,实现作业的统一调度。曙光公司集群管理软件Gridview支持定制开发portal,集群管理员可以快速开发出特定应用软件的portal。

而且曙光提供的GPU高性能解决方案系统中的大部分结点都部署了SUSE操作系统,少量结点部署windows server 2008 R2虚拟机。CST2011头结点仅仅分发作业,并不承担计算任务,负载较轻,虚拟机即可胜任。单个物理结点上部署多个虚拟机,节约投资。

在有限的预算内,曙光还配备了202块NVIDIA Tesla C2050 GPU卡,使CPU与GPU的数量达到1:1的最佳比例。每个主板上挂载两颗GPU,这两颗GPU之间的通信不必通过网络交换机,使用本地内存即可完成,大大减少了通信开销,提高应用的扩展性。

当GPU跨结点并行时,通信开销往往成为性能提升的瓶颈。为此,曙光GPU高性能解决方案配置高带宽低延时的InfiniBand QDR网络互联设备,任意结点之间都能达到全线速40Gbps,是业界最好的网络。采用极高密度的曙光GPU服务器,在1U空间实现两颗CPU+两颗GPU的计算能力,使光启研究院有效节省机房面积,却更快的提高了计算能力与计算速度。

在光启研究院项目准备、实施过程中,曙光公司做了大量的定制研发,尤其是面对作业调度系统整合、极高密度GPU服务时,充分体现出多年深耕高性能计算的实力。曙光从单一服务器硬件供应商向“信息服务供应商”的转型之路,渐行渐近。



上一篇:新疆电子政务云试点项目在天山云计算中心评审验收

下一篇:曙光天阔A440-G领军入门级服务器市场

购买咨询 售后咨询 电话咨询