大模型智算平台

智算平台主要覆提供从数据准备、模型开发、模型训练到部署、监控和回收的全生命周期管理能力,结合对计算、存储、网络资源的高效调度和利用,实现对大模型的高效训练和推理支持,加速大模型的业务落地,建立一个高效、可靠、可扩展的大模型平台,提高资源利用率和研发效率。

总览

算力市场

数据存储与管理

数据是模型训练的基石,需要结合分布式文件系统对海量数据进行存储和管理,方便开发人员在模型开发的各个阶段对数据进行便捷的访问与操作,并且满足在大规模分布式训练和推理中对数据并行读取与写入的高性能需求。具体需求如下:

支持通过分布式存储创建和管理虚拟磁盘。

支持虚拟磁盘的权限管理和共享。

支持大规模数据的存储、版本管理与共享。

支持从第三方数据集平台自动导入数据集。

支持数据集、虚拟磁盘挂载到各类工作负载。

支持数据集、虚拟磁盘在线浏览、上传、下载和删除。

支持指定虚拟磁盘的存储空间大小。

数据集

虚拟磁盘

容器镜像管理

容器是一种高效的资源调度和环境管理方式,模型开发过程中的各类工作负载依赖容器镜像进行调度和运行,因此需要系统支持对容器镜像以及镜像仓库进行管理,包括系统内置镜像仓库以及第三方镜像仓库,已支持各类工作负载对容器镜像使用需求。具体需求如下:

支持注册第三方容器镜像仓库。

支持从平台分配镜像仓库并指定存储空间大小。

支持注册和管理容器镜像名称、Tag、启动命令、启动参数、环境变量、Dockerfile、说明等信息。

支持通过标签、分类等方式对镜像用途进行管理。

支持镜像的导入、导出。

支持在不同场景根据标签、分类等信息对镜像进行筛选。

容器镜像

镜像仓库

模型开发与管理

模型在训练之前涉及到大量的数据处理、代码开发、代码调试工作,需要使用到一定的计算、存储资源来建立开发环境,基于容器实例的WebIDE能够较好的满足模型在开发阶段的工作。具体需求如下:

支持通过容器实例方式启动各类WebIDE在线开发环境,例如:Jupyter、VS Code、ComfyUI等。

支持通过容器实例方式启动训练可视化工具,例如:Tensorboard、Visdom等。

支持模型文件的存储、版本管理与共享。

支持从第三方模型平台自动导入模型。

容器实例支持挂载虚拟磁盘、数据集和模型等数据存储。

容器实例支持启动、停止、编辑、删除等生命周期管理操作。

容器实例支持动态调整网络端口。

容器实例支持Webshell实现在线终端操作。

容器实例支持SSH实现本地终端操作。

容器实例支持保存运行时环境为容器镜像。

容器实例支持查看运行日志、事件以及CPU、GPU、内存、网络等监控信息。

在线开发环境

可视化工具

训练与资源调度

模型训练阶段需要使用到大量的计算和存储资源,并且通常有不同优先级、不同模型、不同参数、不同数据的训练任务需要同时进行,因此系统需要采用多种调度和资源管理策略来保障模型训练工作的有序进行。具体需求如下:

支持分布式训练和多节点资源调度。

支持单实例单节点、多实例单节点、多实例多节点等多种资源调度模式。

支持主流分布式训练框架并为框架不同角色指定不同资源规格,例如:PyTorch、Tensorflow等。

支持挂载虚拟磁盘、数据集和模型等数据存储。

支持指定训练镜像、启动命令、训练数据、基础模型、工作目录、启动参数、环境变量等训练参数。

支持查看运行日志、事件以及CPU、GPU、内存、网络等监控信息。

支持设置重启策略和重启次数限制。

支持训练模板创建、管理以及根据模板快速创建训练任务。

支持查看运行中的训练实例并通过Webshell进行在线登录和调试。

模型管理

训练任务

训练模板

模型部署与推理

模型的部署和推理需要支持多种推理框架,以支持不同模型采用不同推理框架达到最优的推理效率和效果。具体需求如下:

支持vLLM、SGLang、xinference等多种主流推理框架。

支持有状态和无状态部署模式。

支持启动、停止、编辑、删除等生命周期管理操作。

支持指定推理镜像、启动命令、基础模型、工作目录、启动参数、环境变量等部署参数。

支持挂载虚拟磁盘、数据集和模型等数据存储。

支持指定推理实例副本数量并支持不停机动态调整。

支持推理服务访问白名单。

支持设置推理服务自动停机时间。

推理服务

计算与存储资源管理

在大规模基础设施中,存在多种CPU架构、GPU架构、操作系统、存储系统,系统需要能够综合的对这些异构资源进行统一的管理以及合理、高效的进行调度。具体需求如下:

支持多地域、多集群资源管理模式。

支持AMD64、ARM64计算架构。

支持主流开源操作系统和过程信创操作系统。

支持主流NVIDIA GPU以及国产GPU/NPU卡。

支持MIG、vGPU等主流GPU虚拟化方式。

支持异构资源调度。

支持队列调度、优先级调度、GANG调度等调度模式。

资产资源分组调度。

支持资源规格指定、分配以及基于资源规格的工作负载调度。

支持裸金属资源调度。

支持用户自定义资源队列、资源规格以及资源分组。

支持计算资源配额管理。

支持多集群存储资源管理。

支持CephFS、GPFS等分布式存储系统。

支持多级存储配额管理。

支持资源全局视图、查看资源使用情况;

支持个人资源视图;

支持全局算力市场视图;

支持以算力维度快速创建工作负载;

计算集群

其它功能

支持多租户、多用户;

支持多角色、多权限管理。

支持资源操作审计日志;

支持集成第三方登录系统;

高可用部署;

数据备份、恢复方案;

系统监控、看板、告警;