紫光恒越技術有限公司
產品概述
隨著AI科學計算的技術突破,人工智能已經廣泛應用于各行各業(yè),如醫(yī)療、金融、汽車、法律、工業(yè)、教育等等,其中AI科學計算服務中心化也成為眾望所歸的選擇,雖然AI 深度學習目前的門檻有所降低,但是對于專業(yè)的數據科學家,依然是需要為了環(huán)境搭建,并行運算,分布式存儲,作業(yè)調度等基礎設施和服務耗費較多的人力和成本,為此,UNIS公共科學計算AIOS平臺應運而生,提出軟硬件一體化方案,從基礎硬件的部署和軟件安裝,到交互式開發(fā)環(huán)境的一鍵啟動,從模型的深度訓練和調優(yōu),到多機多卡GPU作業(yè)靈活調度,UNIS AIOS平臺,提供了十分簡潔的使用方式,實現了資源的整合/彈性擴容縮容和合理調度,同時也提供豐富的可自定義的軟件和鏡像和二次開發(fā)的API接口,可方便的集成進入原有SaaS平臺。
針對圖像處理、語音識別、自然語言處理等深度學習場景下,需要搭建大規(guī)模的GPU集群,針對不同的算法模型、不同的深度學習框架,用戶如何統一調度與管理GPU集群的計算資源、存儲資源,分配給不同的租戶使用,是需要解決的問題。
對于TensorFlow、Caffe、MxNet等深度學習框架,如何快速部署,提供開發(fā)鏡像環(huán)境,滿足不同用戶在不同場景下的框架需求、算法需求與開發(fā)需求,也是數據科學家難以逾越的一道門檻。
面對不同用戶同時進行模型訓練、在線推理,采用什么策略對各個任務進行調度,是搶占模式還是*先出,以及每個訓練任務利用哪個GPU加速卡,每個卡的運行狀態(tài)如何,都需要統一的監(jiān)控與管理。
針對以上問題,為用戶提供一體化的軟硬件部署和管理服務,減少系統安裝維護工作量;優(yōu)化分布式訓練部署模型,實現多機多卡GPU資源與訓練作業(yè)靈活調度;提供豐富的可自定義軟件和鏡像庫,充分滿足客戶對AI計算環(huán)境的需求。
靈活的資源調度機制:提供強大的資源調度策略,以及資源實時監(jiān)控,使企業(yè)可以有效、合理的使用各種計算資源。
完善的API接口服務:系統所有核心業(yè)務,都對外提供完善的A P I 接口, 用戶可以通過這些接口,實現人工智能平臺服務與用戶已有SaaS平臺的深度集成。
靈活的權限管理策略:系統通過對人員角色權限的劃分,以及資源的使用規(guī)劃,使得平臺中不同的用戶的計算資源都能很好的隔離,滿足企業(yè)對權限管理的各種要求。
豐富的性能監(jiān)控服務:AIOS平臺提供完善的性能監(jiān)控服務,能實時監(jiān)控系統所有服務的健康狀況和硬件/網絡利用率情況,并針對各種日常運維工作,提供可視化的操作界面,提高系統運維管理者的工作效率。
系統架構

*的前后臺分離架構
在以前傳統的網站開發(fā)中,前端一般扮演的只是切圖的工作,只是簡單地將UI設計師提供的原型圖實現成靜態(tài)的HTML頁面,而具體的頁面交互邏輯,比如與后臺的數據交互工作等,可能都是由后臺的開發(fā)人員來實現的,或者是前端是緊緊的耦合后臺。導致后臺的開發(fā)壓力大大增加,前后端工作分配不均。不僅僅開發(fā)效率慢,而且代碼難以維護。
AIOS采用*的前后端分離架構,很好的解決前后端分工不均,開發(fā)過程相互依賴,bug難以定位等諸多問題。將更多的用戶交互邏輯由前端專職處理,而后端則可以專注于數據處理,業(yè)務權限控制等,前后端通過標準的restful接口實現數據交互。
后端專注于:服務層 & 數據訪問層 & 權限控制;
前端專注于:頁面展現(視圖層)& 交互邏輯;
的微服務架構
AIOS采用kubernetes+docker+rabbitmq的微服務架構模式,利用kubernetes實現高可用的集群環(huán)境,以及統一的資源調度,配合d o c ker容器技術實現多租戶資源隔離,由rabbitmq實現分布式消息處理。為平臺展現層提供強大的內核支撐,平臺采用的微服務架構模式有以下特點:
多租戶存儲資源隔離
平臺使用NFS(Network File System)實現統一的網絡文件存儲系統,極大簡化了平臺部署的復雜性,提高了公共文件資源的利用率。再結合linux多用戶多任務的系統特性,實現文件存儲資源的多租戶資源隔離。
強大的作業(yè)調度機制
AIOS平臺的核心是模型訓練,對CPU、內存、GPU等資源的合理使用要求非常高,通常這些計算設備造價不菲,計算資源的合理使用是體現一個計算平臺最重要的指標。平臺采用的kubernetes先天支持多種策略的作業(yè)調度,可以有效保證各類訓練任務的及時有效執(zhí)行。再結合平臺提供的用戶資源申請分配機制,以及資源使用率告警機制,可以靈活有效的管理多租戶場景下,集群計算資源的統一合理調度。
完善的資源監(jiān)控體系
Heapster是容器集群監(jiān)控和性能分析工具,可以定時采集集群環(huán)境中所有節(jié)點的CPU、內存、網絡以及磁盤情況,平臺通過Heapster實現上述資源的統一采集及管理;而平臺自主研發(fā)的cMonitor則可以對GPU資源進行定時的采集及管理;結合平臺提供的計算資源告警機制,最終可以在平臺展現層實時監(jiān)控集群環(huán)境下的所有資源,并及時向管理員發(fā)送告警信息,有效管理集群硬件資源,提高資源利用率。
主要特性及優(yōu)勢
AIOS平臺為用戶提供了強大的全流程可視化管理平臺:交互學習平臺,集群管理平臺,性能監(jiān)控平臺,審計平臺這四大模塊又同時對外提供豐富的接口組件,使得用戶既可以*通過我們的平臺進行常規(guī)業(yè)務操作,又可以利用我們提供的接口組件,將核心服務集成到自己現有系統中。
AIOS平臺提供了一系列的函數庫,方便用戶在建模編寫腳本的過程中,快速調用這些函數而無需關心這些業(yè)務無關的技術細節(jié);同時我們在系統不同功能模塊中,提供了不同的工作集,方便用戶在具體場景中快速操作。所有這些,都大大加速了用戶在開發(fā)人工智能解決方案時的速度。
統一的集群管理
負責整個系統計算資源的集中管理、統一分配與作業(yè)調度,包括GPU資源池的集中管理與分配、多租戶方式隔離計算資源、以作業(yè)方式動態(tài)分配計算資源以及計算資源回收等。
統一的監(jiān)控運維
實時監(jiān)控管理集群資源使用情況和集群狀態(tài),包括作業(yè)狀態(tài)、GPU使用率、集群健康度等,并分析每一類的資源占用情況,提供觸發(fā)預警機制。
統一的開發(fā)環(huán)境
提供一站式的交互開發(fā)操作界面,幫助用戶完成模型腳本在線編輯、模型訓練、模型驗證以及模型推理等核心功能,并結合硬件資源可視化、作業(yè)調度器,提高系統硬件資源的利用率。
產品功能特性
資源管理服務
系統提供完備的資源管理平臺,對所有計算資源進行集中管理,通過該平臺,可以實現對各類資源的狀態(tài)查詢以及相關維護操作。

作業(yè)調度服務
系統提供強大的作業(yè)調度引擎,為用戶提供多種作業(yè)調度策略:*先出,資源回填,公平共享,作業(yè)搶占,用戶循環(huán)調度,用戶作業(yè)均衡等。

性能監(jiān)控服務
系統針對各種計算資源,提供多維度的資源性能監(jiān)控指標查詢接口,并圖形化展示。

API服務
深度學習模塊核心服務如下:
另外針對AI深度學習訓練過程中復雜不可解釋的參數選配,為了減少嘗試次數,浪費資源和時間,也提供豐富的超參算法支持,支持Ran d om S e a r c h、TPE ( T r e e - b a s e dParzen Esitmator)以及Bayesian超參搜索算法,利用高效的超參搜索算法實現并行超參搜索,充分發(fā)揮集群計算能力,多任務并發(fā)搜索,不同任務間分享搜索結果(不同的),這樣以改進效率為目標,做到搜索效果與搜索代價的良好平衡,還有提供蒙特卡洛樹搜索 + 深度學習網絡功能,解決搜索空間過大問題,并對搜索結果進行學習。
運行環(huán)境
計算節(jié)點所需硬件配置
指標項 | 配置 | 推薦配置 |
機器數量 | 1 | 2(支持擴展) |
型號 | X86平臺的服務器 | X86平臺的服務器 |
CPU | 32核(物理核數,非超線程核數),支持AVX模式 | 32核(物理核數,非超線程核數)或更高,支持AVX模式 |
CPU | n*Tesla P4 | n*Tesla P40/P100/V100 |
內存 | 128G以上內存 | 256G以上內存 |
磁盤 | 2*1T硬盤作RAID1磁盤陣列 | 2*2T以上容量硬盤作RAID1磁盤陣列 |
網卡 | 1個千兆網卡 | 1個萬兆以 |
計算節(jié)點所需硬件配置
項目 | 描述 |
大數據平臺部署服務(4臺) | 必配 |
UNIS 公共科學計算AIOS軟件License費用 | 必配,3個節(jié)點 |
UNIS 大數據技術支持服務(一年) | 必配 |