容器化人工智能开发平台-中科曙光

容器化人工智能开发平台

容器化人工智能开发平台解决方案实现了对深度学习开发环境的快速部署，针对深度学习开发流程，对运算资源按照训练任务进行分割和分发，并额外支持容器镜像管理、权限管理、交互界面图形化等功能，以帮助用户更快速的介入人工智能领域，聚焦实际算法的优化和迭代，促进人工智能技术在各行各业的快速落地。

容器化快速部署

基于容器技术，应用容器化，资源动态弹性扩展，实现深度学习开发和应用环境秒级部署。

灵活的平台生态

数据集、模型代码、模型权重等多维内容共享；在线自定义开发环境，并支持镜像固化和自助发布。

AI全流程覆盖

对深度学习中的数据预处理、模型在线编写、模型训练、超参调优、模型验证和模型发布等流程实现完全覆盖。

支持主流AI框架

支持深度学习领域主流的Caffe、TensorFlow、PyTorch等框架，提供GUI、SSH、Jupyter等多种接入方式。

方案架构

产品架构图调整_容器化人工智能开发平台.png

方案技术架构

人工智能-容器化人工智能开发平台.png

方案物理架构

方案构成

SothisAI软件平台：曙光SothisAI是容器化的企业级分布式深度学习平台，提供高效快速的人工智能解决方案，一站式深度学习解决方案。帮助用户解决多用户组资源分配、开发环境快速搭建、应用程序灵活迁移等技术需求。SothisAI支持主流深度学习框架，提供图形化、SSH、Jupyer等多种接入方式，并采用Slurm和Kubernetes双调度引擎支撑，可满足不同应用场景特点。

基于GPU的异构计算集群：针对深度学习的应用特点，采用4U8卡的高密度自研服务器X780和X795，搭配主流人工智能异构加速卡，为集群提供强劲的运算能力支撑。同时集群采用的高带宽、低延迟的Infiniband网络，能满足深度学习多机多卡网络模型训练时，对PCI-E的传输带宽的高要求，并保证整个系统的数据传输效率，减少网络数据传输带来的影响。

ParaStor存储系统：ParaStor是曙光自主开发的分布式并行存储系统，目前最新版本为Parastor300，采用多副本、N+M纠删码等数据保护技术、全冗余设计，支持单一存储命名空间、支持容量海量扩展，性能线性扩展，能够充分满足深度学习应用场景中存在对数据集的频繁读写，多用户同时并发访问，训练时频繁的数据交互等应用需求。

方案价值

高效管理调度编排

原生大规模编排调度验证，经过10000节点验证，具备处理大规模流量与批任务的能力，支持多种类型业务稳定高效地混合部署，大幅提升资源利用率。兼容主流加速器适配 CPU、GPU、FPGA、NPU。
开放灵活的AI平台

集数据导入、数据处理、模型开发、模型训练、模型评估、服务上线等功能于一体，提供一站式全方位的深度学习建模流程，快速打造智能业务。基于的开源容器化 AI 引擎，赋能企业的定制化模型。
多业务场景解决方案

集成多个行业数据集，包括语音、图像、自然语言处理等，依托容器技术，为金融、能源、电力、微服务架构、分布式深度学习提供强大支撑。用户能够大幅优化资源管理，实现开发流程敏捷化。

关联公众号

关联公众号

严正声明

联系我们

售后服务

首页 > 通用解决方案 > 人工智能 > 容器化人工智能开发平台