中科曙光Sugon

首页 >解决方案>行业解决方案与行业案例>电信

通信行业深度学习集群方案

    当前国内三大运营商都开启了自己的人工智能业务,其中中国移动发布了人工智能平台——九天;中国电信与合作伙伴共同打造了人工智能开放平台——灯塔;中国联通通过混改与百度等合作伙伴一起共赴人工智能盛宴。人工智能已经成为运营商发力数字化新业务的着力点。三大运营商都已在人工智能领域布局。一方面是推进通信行业本身的智能化,另一方面是运用信息通信技术更好地支撑和服务人工智能产业以及各行业的智能化转型。目前已应用于通信行业的人工智能平台构建及相关经营分析活动,涵盖智慧网络、智慧运营、智慧连接、智慧服务等领域。
1、通信行业深度学习集群整体架构
    通信行业深度学习集群方案架构一般由4层结构组成,包括:存储层、计算层、网络层、业务层。
 
2、计算层
    深度学习技术有着网络模型复杂、训练时间长和模型收敛难度大等特点,这些特点使得深度学习网络在训练的过程中需要巨大的运算量,同时深度学习在训练过程中有着非常多的矩阵运算操作,矢量化并行程度高,非常适合GPU进行运算。针对不同深度学习场景,可以搭载多颗GPU的不同类型GPU服务器,在整个计算层中成为了的核心计算单元。同时,在计算层中针对集群管理和桌面服务等非核心计算部分采用通用机架服务器支撑。
    GPU服务器在本层中为整个深度学习集群系统提供主要的计算能力,通过网络层将所有的计算单元整合并进行资源分配调度,满足实际的计算需求。
    (1)在线推理
    对于在线推理场景,服务器一般根据业务需求推荐2U2卡、4U4卡或4U8卡机型,一般根据业务场景需求选择机型。对于高并发且性能要求不高的需求,推荐使用2U2卡或4U4卡机型。对于单一推理运算性能要求较高的需求,推荐使用4U8卡或4U4卡机型。
    (2)离线训练
    对于离线训练,一般建议采用4U8卡PCIe或NVlink服务器,由于对于GPU集群性能要求较高,单机8卡可以保证内部互联带宽,从而提供较高的单机计算能力。
3、网络层
    网络层主要包括物理网络传输、集群管理调度、人工智能平台三个部分。
    (1)物理传输
    对于深度学习网络模型训练时,物理网络传输方面除了满足可以提供计算强大计算能力的GPU之外还需要保证PCI-E的传输带宽,对于多机情况,需要能提供更好网络带宽的网络设备来保证整个系统的数据传输效率,减少网络数据传输带来的影响。
    (2)Gridview集群管理调度系统
    Gridview系列产品是曙光公司针对HPC集群打造的一体化集群操作系统平台可实现对GPU资源的管理、监控和调度。集群管理调度可对计算集群整体状态和计算节点的实时状态进行监控和分析,并形成实时的可视化数据报表。
 
    (3)SothisAI人工智能平台
    曙光SothisAI是容器化的企业级分布式深度学习平台,提供高效快速的人工智能解决方案,一站式深度学习解决方案。帮助用户解决多用户组资源分配、开发环境快速搭建、应用程序灵活迁移等技术需求。支持深度学习领域主流的Caffe和TensorFlow等框架,实现从系统到数学库再到上层框架的多层深度学习开发环境一键部署。
 
4、存储层
    存储层主要用于存放计算数据,对于大规模离线训练场景,有较多的原始数据和训练数据,考虑到高并发需要,一般建议采用分布式文件存储。存储系统一般包含索引控制器(两台双活冗余,负责元数据访问请求,同时负责存储系统的监控管理)以及3台以上数据控制器。
    单个磁盘阵列的扩展能力有限,多个磁盘阵列对于用户来说是分散的存储,那么就需要使用并行文件系统把所有的存储阵列统一为一个大的存储,而并行文件系统能够满足用户这个需求。
    采用分布式存储的优势包括以下几点:
    (1)系统结构灵活
    ParaStor采用元数据和数据分离的非对称式结构,也可以采用对称式结构。
    (2)数据安全
    ParaStor存储系统,采用N+M:B纠删码数据保护技术,既能实现数据的高可用保护,又能提高存储系统的利用率
    (3)分级存储
    为用户提供更为精细的分级存储策略,满足用户对个别文件夹数据频繁读取的需求。
    (4)多协议支持
    各客户端节点等作为ParaStor的客户端,支持Linux和Windows客户端,还支持标准的NFS、CIFS接口、POSIX API、MapReduce编程接口、REST编程接口、SOAP编程接口、SNMP接口,具有广泛的适应性。
    (5)访问控制
    提供对用户/用户组以及客户端的授权管理。针对某些特定行业,还可配置WORM功能,防止恶意篡改数据。
    (6)扩展性
    极佳的扩展性,支持在线扩容,且不影响业务系统使用。
    (7)监控管理
    提供基于Web的统一监控管理平台。直观易懂的图形界面方便用户管理和监控系统的软硬件资源。
5、成功案例
   
close

尊敬的客户您好:
由于本公司(曙光信息产业股份有限公司)日常研发出来的新产品、新部件数量较多,如果由于未能对官网的产品信息及时更新,而给广大用户带来不便,敬请谅解。如果您有购买需求,请联系本公司400-810-0466进行电话咨询或联系本公司销售人员进行询问。