新浪科技訊 12月8日上午消息,京東級具近日,升身智升倍京東云JoyBuilder模型開發(fā)平臺(tái)迎來全新升級,型訓(xùn)成功支撐業(yè)界頂尖模型GR00T N1.5的練效率提千卡訓(xùn)練,成為行業(yè)首家支持具身智能千卡級LeRobot開源訓(xùn)練框架的京東級具AI開發(fā)平臺(tái),且訓(xùn)練效率較開源社區(qū)版本提升3.5倍。升身智升倍基于軟硬件深度調(diào)優(yōu)和算法層面的型訓(xùn)突破,大幅提升了模型訓(xùn)練效率與穩(wěn)定性,練效率提1億+數(shù)據(jù)的京東級具千卡訓(xùn)練時(shí)間從15小時(shí)縮短至22分鐘,加速具身智能邁向規(guī)?;涞亍I碇巧?/p>
據(jù)介紹,型訓(xùn)圍繞具身智能模型訓(xùn)練,練效率提京東云AI Infra及相關(guān)團(tuán)隊(duì)基于JoyBuilder模型研發(fā)平臺(tái)進(jìn)行了全棧優(yōu)化:
在具身數(shù)據(jù)鏈路優(yōu)化方面,京東級具通過重構(gòu)具身數(shù)據(jù)預(yù)處理與加載流程,升身智升倍JoyBuilder平臺(tái)實(shí)現(xiàn)CPU數(shù)據(jù)處理與GPU計(jì)算異步執(zhí)行,型訓(xùn)減少等待時(shí)間。針對海量具身小數(shù)據(jù)文件,自研的高性能并行文件系統(tǒng)云海JPFS通過分布式元數(shù)據(jù)管理與智能預(yù)取,支持高并發(fā)訪問。在1024卡集群上,讀取帶寬超過400GB/s,保障數(shù)據(jù)持續(xù)高速供給。
在具身模型計(jì)算優(yōu)化方面,針對主流開源的VLA(視覺-語言-動(dòng)作)模型的計(jì)算特點(diǎn)從Attention層、Token裁剪和訓(xùn)練后量化等多方位極致優(yōu)化,全方位提升模型的訓(xùn)練效率。在具身模型基礎(chǔ)設(shè)施方面:通過搭建3.2T RDMA后端網(wǎng)絡(luò),基于多軌道優(yōu)化、拓?fù)涓兄{(diào)度與智能震蕩抑制,保障千卡間集合通信的高吞吐與低延遲,并在單點(diǎn)故障時(shí)快速恢復(fù),支持長周期訓(xùn)練穩(wěn)定運(yùn)行。同時(shí),基于云原生的AI數(shù)據(jù)湖優(yōu)化了數(shù)據(jù)調(diào)度與流水線,提升端到端處理效率。
此外,京東云JoyBuilder模型開發(fā)平臺(tái),基于在全鏈路數(shù)據(jù)處理、模型計(jì)算效率和AI基礎(chǔ)設(shè)施等的全面優(yōu)化,支持業(yè)界當(dāng)前最主流的LeRobot訓(xùn)練數(shù)據(jù)最新協(xié)議,并成為行業(yè)首家支持具身模型千卡級開源訓(xùn)練框架的AI開發(fā)平臺(tái)。
海量資訊、精準(zhǔn)解讀,盡在新浪財(cái)經(jīng)APP 責(zé)任編輯:楊賜