系統(tǒng)概述:
異構(gòu)算力調(diào)動(dòng)平臺(tái)是基于MLOPS的AI平臺(tái),提供算力自動(dòng)調(diào)度、數(shù)據(jù)自動(dòng)標(biāo)注和算法自動(dòng)訓(xùn)練能力 ,通過(guò)可視化操作和自動(dòng)化的流程管理讓用戶零代碼即可快速上線智能應(yīng)用,打造數(shù)據(jù)、算力和算法“三位一體”、“端到端”的企業(yè)級(jí)人工智能平臺(tái)解決方案。
返回
Introduce
(1)異構(gòu)算力調(diào)度
基于云原生技術(shù)架構(gòu),實(shí)現(xiàn)對(duì)英偉達(dá)GPU/華為NPU/寒武紀(jì)MLU/海光DCU等異構(gòu)計(jì)算資源的管理和動(dòng)態(tài)調(diào)度,支持統(tǒng)一納管多套異構(gòu)Kubernetes計(jì)算集群,并提供組織管理、用戶管理、角色管理、計(jì)費(fèi)管理、監(jiān)控管理、日志管理、告警管理等功能模塊。
(2)AI使能
預(yù)置主流大模型,讓用戶“零代碼”即可實(shí)現(xiàn)大模型訓(xùn)練、微調(diào)和推理應(yīng)用。針對(duì)大規(guī)模分布式訓(xùn)練場(chǎng)景,提供“故障重調(diào)度“和”斷點(diǎn)續(xù)訓(xùn)“能力(華為NPU),支持臨終遺言(CKPT)和策略恢復(fù)功能。
集成機(jī)器學(xué)習(xí)工作流引擎,預(yù)置數(shù)據(jù)處理、模型訓(xùn)練等“100+算子“組件,支持基于可視化的“拖拉拽”方式構(gòu)建模型“訓(xùn)推一體”流水線,打造基于“樣本回流“的數(shù)據(jù)閉環(huán)機(jī)制,讓AI模型“邊用邊學(xué)、越用越好”。