螞蟻集團NextEvo全面開源AI Infra技術(shù) 可實現(xiàn)大模型訓練“自動駕駛”
近日,螞蟻集團AI創(chuàng)新研發(fā)部門NextEvo全面開源AI Infra技術(shù),可幫助大模型千卡訓練有效時間占比超過95%,能實現(xiàn)訓練時“自動駕駛”,這推動了AI研發(fā)效率。

(圖:螞蟻集團的自動化分布式深度學習系統(tǒng)DLRover現(xiàn)已全面開源)
該技術(shù)框架名為DLRover,目標在于大規(guī)模分布式訓練的智能化。目前很多企業(yè)的訓練作業(yè)都是跑在混合部署的集群中,運行環(huán)境復(fù)雜多變,不管多么“崎嶇的地形”,DLRover都可以“輕松行駛”。
2023 年大模型技術(shù)的發(fā)展,帶來了工程實踐的爆發(fā),如何管理數(shù)據(jù),提高訓練和推理效率,最大化利用現(xiàn)有算力,成了關(guān)鍵一環(huán)。
完成一個千億參數(shù)級別的大模型,如GPT-3,用一張卡訓練一次要耗時32年,那么訓練時的算力利用尤為重要。方法之一是把能用的算力用得更好,比如進一步壓榨已購買GPU的性能;二是把以前利用不了的算力用起來,比如CPU、內(nèi)存等,這就需要通過異構(gòu)計算平臺來解決。
最新集成進DLRover的是Flash Checkpoint(FCP)方案。模型訓練時,一般要打Checkpoint(檢查點),以便中斷時能恢復(fù)到最近狀態(tài),目前常規(guī)的做法,存在著耗時長、高頻打點易降低訓練可用時間、低頻打點恢復(fù)時丟失過多等缺點。新方案FCP應(yīng)用在千卡千億參數(shù)模型訓練后,Checkpoint 導(dǎo)致的訓練浪費時間降低約5倍,其中持久化時間降低約70倍,有效訓練時間從90%提升至95%。
同時集成進去的,還有三項新的優(yōu)化器(Optimizer)技術(shù)。優(yōu)化器作為機器學習的核心組件,用于更新神經(jīng)網(wǎng)絡(luò)參數(shù)以最小化損失函數(shù)。其中,螞蟻的AGD(Auto-switchable optimizer with Gradient Difference of adjacent steps)優(yōu)化器,在大模型預(yù)訓練任務(wù)中,相比傳統(tǒng)的AdamW技術(shù)加速 1.5 倍,AGD已在螞蟻內(nèi)部多個場景使用并取得顯著效果,相關(guān)論文已被 NeurIPS '23收錄。

(圖:在大模型預(yù)訓練任務(wù)中,AGD相比AdamW可以加速1.5 倍)
作為自動化分布式深度學習系統(tǒng),DLRover的“自動駕駛”功能模塊還包括:Atorch,一種PyTorch分布式訓練擴展庫,在千億參數(shù)模型千卡級別規(guī)模下,訓練的算力利用率可達60%,幫助開發(fā)者進一步壓榨硬件算力。
DLRover以 “ML for System” 的理念來提升分布式訓練的智能度,旨在通過一個系統(tǒng),讓開發(fā)者完全擺脫資源配置的束縛,專注于模型訓練本身。在沒有任何資源配置輸入的情況下,DLRover 仍然可以為每個訓練作業(yè)提供最佳資源配置。
據(jù)了解,螞蟻集團在人工智能領(lǐng)域持續(xù)進行技術(shù)投入,最近,螞蟻集團在內(nèi)部成立了AI創(chuàng)新研發(fā)部門NextEvo,承擔了螞蟻AI的所有核心技術(shù)研發(fā),包含百靈大模型的所有研發(fā)工作,涉及AI算法、AI工程、NLP、AIGC等核心技術(shù),并在布局多模態(tài)大模型、數(shù)字人等領(lǐng)域的技術(shù)研發(fā)和產(chǎn)品創(chuàng)新。
同時,螞蟻集團還加速開源節(jié)奏,填補了國內(nèi)相關(guān)技術(shù)空白,推動人工智能行業(yè)快速發(fā)展。
DLRover開源地址:https://github.com/intelligent-machine-learning/dlrover
免責聲明:本網(wǎng)站所有文章僅作為資訊傳播使用,既不代表任何觀點導(dǎo)向,也不構(gòu)成任何投資建議。】
猜你喜歡
六大金融科技公司營收619億元背后:AI賦能助貸,行業(yè)穩(wěn)健增長
解讀金融科技公司年報:行業(yè)穩(wěn)健前行,頭部公司深度“擁抱”AI20多個“金融+AI”場景即將發(fā)布!深圳金融+AI生態(tài)體系建設(shè)正啟航
在科技浪潮奔涌向前的時代,金融與AI的深度融合正以前所未有的態(tài)勢重塑著金融行業(yè)的格局。8億用戶的智能診療革命:螞蟻用AI重構(gòu)“機構(gòu)—醫(yī)生—患者”全鏈路
AI醫(yī)療再進化!螞蟻集團發(fā)布醫(yī)療大模型一體機