AIOS平臺為用戶提供了強大的全流程可視化管理平臺:交互學習平臺,集群管理平臺,性能監(jiān)控平臺,審計平臺這四大模塊又同時對外提供豐富的接口組件,使得用戶既可以通過我們的平臺進行常規(guī)業(yè)務操作,又可以利用我們提供的接口組件,將核心服務集成到自己現(xiàn)有系統(tǒng)中。
AIOS平臺提供了一系列的函數(shù)庫,方便用戶在建模編寫腳本的過程中,快速調(diào)用這些函數(shù)而無需關心這些業(yè)務無關的技術細節(jié);同時我們在系統(tǒng)不同功能模塊中,提供了不同的工作集,方便用戶在具體場景中快速操作。所有這些,都大大加速了用戶在開發(fā)人工智能解決方案時的速度。
統(tǒng)一的集群管理:負責整個系統(tǒng)計算資源的集中管理、統(tǒng)一分配與作業(yè)調(diào)度,包括GPU資源池的集中管理與分配、多租戶方式隔離計算資源、以作業(yè)方式動態(tài)分配計算資源以及計算資源回收等。
統(tǒng)一的監(jiān)控運維:實時監(jiān)控管理集群資源使用情況和集群狀態(tài),包括作業(yè)狀態(tài)、GPU使用率、集群健康度等,并分析每一類的資源占用情況,提供觸發(fā)預警機制。
統(tǒng)一的開發(fā)環(huán)境:支持拖拽式和編碼式建模,提供一站式的交互開發(fā)操作界面,幫助用戶完成模型腳本在線編輯、模型訓練、模型驗證以及模型推理等核心功能,并結合硬件資源可視化、作業(yè)調(diào)度器,提高系統(tǒng)硬件資源的利用率。
產(chǎn)品功能特性
資源管理服務:系統(tǒng)提供完備的資源管理平臺,對所有計算資源進行集中管理,通過該平臺,可以實現(xiàn)對各類資源的狀態(tài)查詢以及相關維護操作。
任務流建模:任務流建模是整個建模過程的核心,用戶可以利用平臺提供的標準化組件進行無編碼式的建模,也可以通過平臺提供的各類框架運行組件,編寫自定義腳本進行建模訓練。
實時日志:用戶在訓練過程中,可以打開實時日志查看功能,實時查看訓練過程中輸出的日志。
在線腳本編輯服務:
平臺為了方便用戶更好更快速的修改自己的建模腳本,在任務流界面提供文件管理功能,方便用戶及時找到自己的腳本,并進行在線腳本編輯。
在線文件管理支持用戶瀏覽自己的整個文件空間,并支持圖像預覽、在線編輯編輯,全屏腳本編輯等操作。
在線推理服務
人工智能計算平臺模型訓練的目的是為了訓練出符合要求的模型,而在線預測才是讓模型產(chǎn)生價值的地方。平臺提供通用推理鏡像服務,支持將主流模型文件部署為在線服務,并提供統(tǒng)一的模型接入規(guī)范,支持多種模式格式。
同時,平臺在線推理服務支持推理接口的在線預測功能,以及模型推理服務的多實例部署。
*的前后臺分離架構
在以前傳統(tǒng)的網(wǎng)站開發(fā)中,前端一般扮演的只是切圖的工作,只是簡單地將UI設計師提供的原型圖實現(xiàn)成靜態(tài)的HTML頁面,而具體的頁面交互邏輯,比如與后臺的數(shù)據(jù)交互工作等,可能都是由后臺的開發(fā)人員來實現(xiàn)的,或者是前端是緊緊的耦合后臺。導致后臺的開發(fā)壓力大大增加,前后端工作分配不均。不僅僅開發(fā)效率慢,而且代碼難以維護。
AIOS采用*的前后端分離架構,很好的解決前后端分工不均,開發(fā)過程相互依賴,bug難以定位等諸多問題。將更多的用戶交互邏輯由前端專職處理,而后端則可以專注于數(shù)據(jù)處理,業(yè)務權限控制等,前后端通過標準的restful接口實現(xiàn)數(shù)據(jù)交互。
后端專注于:服務層 & 數(shù)據(jù)訪問層 & 權限控制;
前端專注于:頁面展現(xiàn)(視圖層)& 交互邏輯;
的微服務架構
AIOS采用kubernetes+docker+rabbitmq的微服務架構模式,利用kubernetes實現(xiàn)高可用的集群環(huán)境,以及統(tǒng)一的資源調(diào)度,配合docker容器技術實現(xiàn)多租戶資源隔離,由rabbitmq實現(xiàn)分布式消息處理。為平臺展現(xiàn)層提供強大的內(nèi)核支撐,平臺采用的微服務架構模式有以下特點:
· 服務高度自治,集中管理;
· 復雜業(yè)務得到拆分,易于維護;
· 高度靈活易于拓展;
靈活的多層級資源分配機制
平臺使用NFS(Network File System)實現(xiàn)統(tǒng)一的網(wǎng)絡文件存儲系統(tǒng),極大簡化了平臺部署的復雜性,提高了公共文件資源的利用率。再結合linux多用戶多任務的系統(tǒng)特性,實現(xiàn)文件存儲資源的多租戶資源隔離。
平臺為了解決不同用戶群體在資源使用上的多樣性和特殊性,首先在集群的節(jié)點管理上提供分區(qū)管理功能,即將集群中的所有服務器節(jié)劃分為若干個區(qū)域;其次針對不同的用戶組織,由管理員進行服務器資源的統(tǒng)一分配,管理員可以根據(jù)實際的業(yè)務需求,針對不同的用戶群體進行靈活配置。
此外,為了有效提高計算資源使用的利用率,以及保障用戶使用資源的公平性,平臺針對計算資源以及各類業(yè)務運行時實例,提供了多層級資源分配限額機制。
多租戶存儲資源隔離
平臺基于GlusterFS(Gluster File System)實現(xiàn)統(tǒng)一的分布式網(wǎng)絡文件存儲系統(tǒng),為用戶提供多租戶隔離的文件存儲服務,并利用GlusterFS的分布式特性,有效保障用戶數(shù)據(jù)的安全性。
平臺基于Docker Registry為用戶提供多租戶鏡像倉庫服務,即向用戶提供平臺常規(guī)業(yè)務所需要的各種內(nèi)置運行時鏡像,又向用戶提供私有的鏡像倉庫服務,用戶可以上傳自己的鏡像,并在實際的開發(fā)、訓練以及推理中使用自己的鏡像。
平臺利用Kubernetes強大的作業(yè)編排能力,為用戶提供統(tǒng)一的計算資源調(diào)度,所有計算資源集群內(nèi)共享,在用戶需要時,平臺根據(jù)用戶的資源需求動態(tài)創(chuàng)建運行時環(huán)境,運行結束即收回。這樣即保障了用戶資源的合理使用,又大大提高了集群資源的利用率。此外,利用了容器的隔離特性,有效保障用戶數(shù)據(jù)的安全。
強大的作業(yè)調(diào)度機制
AIOS平臺的核心是模型訓練,對CPU、內(nèi)存、GPU等資源的合理使用要求非常高,通常這些計算設備造價不菲,計算資源的合理使用是體現(xiàn)一個計算平臺最重要的指標。平臺采用的kubernetes先天支持多種策略的作業(yè)調(diào)度,可以有效保證各類訓練任務的及時有效執(zhí)行。再結合平臺提供的用戶資源申請分配機制,以及資源使用率告警機制,可以靈活有效的管理多租戶場景下,集群計算資源的統(tǒng)一合理調(diào)度。
完善的資源監(jiān)控體系
Heapster是容器集群監(jiān)控和性能分析工具,可以定時采集集群環(huán)境中所有節(jié)點的CPU、內(nèi)存、網(wǎng)絡以及磁盤情況,平臺通過Heapster實現(xiàn)上述資源的統(tǒng)一采集及管理;而平臺自主研發(fā)的cMonitor則可以對GPU資源進行定時的采集及管理;結合平臺提供的計算資源告警機制,最終可以在平臺展現(xiàn)層實時監(jiān)控集群環(huán)境下的所有資源,并及時向管理員發(fā)送告警信息,有效管理集群硬件資源,提高資源利用率。
計算節(jié)點所需硬件配置:
指標項 | 配置 | 推薦配置 |
機器數(shù)量 | 1 | 2(支持擴展) |
型號 | X86平臺的服務器 | X86平臺的服務器 |
CPU | 32核(物理核數(shù),非超線程核數(shù)),支持AVX模式 | 32核(物理核數(shù),非超線程核數(shù))或更高,支持AVX模式 |
GPU | n*Tesla P4 | n*Tesla P40/P100/V100 |
內(nèi)存 | 128G內(nèi)存 | 256G以上內(nèi)存 |
磁盤 | 2*1T硬盤作RAID1磁盤陣列 | 2*2T以上容量硬盤作RAID1磁盤陣列 |
網(wǎng)卡 | 1個千兆網(wǎng)卡 | 1個萬兆以 |
選配信息
項目 | 描述 |
H3C AIOS部署服務(4臺) | 必配 |
H3C 公共科學計算AIOS軟件License費用 | 必配,3個節(jié)點 |
H3C 大數(shù)據(jù)技術支持服務(一年) | 必配 |