摩爾線程發(fā)布Torch
11月28日消息,線程摩爾線程正式發(fā)布了PyTorch深度學(xué)習(xí)框架的發(fā)布最新版MUSA擴(kuò)展庫——Torch-MUSA v2.7.0,在功能集成、線程性能優(yōu)化、發(fā)布硬件支持上都實(shí)現(xiàn)了進(jìn)一步突破。線程
值得一提的發(fā)布是,在短短一個(gè)月內(nèi),線程Torch-MUSA就連續(xù)完成了v2.5.0、發(fā)布v2.7.0兩次版本更新。線程
另外一個(gè)變化就是發(fā)布,v2.5.0版本起,線程Torch-MUSA版本號與PyTorch主版本號保持同步,發(fā)布便于開發(fā)者進(jìn)行版本識別與管理。線程
v2.7.0版本進(jìn)一步集成了muSolver、發(fā)布muFFT等計(jì)算加速庫,線程顯著提升復(fù)雜計(jì)算任務(wù)的執(zhí)行效率;
新增支持統(tǒng)一內(nèi)存設(shè)備(Unified Memory)的UMM,有效優(yōu)化內(nèi)存使用效率。
繼續(xù)保持與最新MUSA SDK的兼容性,支持使用MUSA SDK 4.2.0至4.3.0及更高版本進(jìn)行編譯。
目前,Torch-MUSA專屬支持的算子總數(shù)已超過1050個(gè),系統(tǒng)在性能與穩(wěn)定性方面均實(shí)現(xiàn)進(jìn)一步提升,為大模型訓(xùn)練與推理提供了更高效、更可靠的底層支持。
下一次版本升級將是v2.9.0,進(jìn)一步優(yōu)化性能與功能,持續(xù)構(gòu)建和完善基于MUSA架構(gòu)國產(chǎn)全功能GPU的深度學(xué)習(xí)生態(tài)。
▼ Torch-MUSA開源地址:
https://github.com/MooreThreads/torch_musa
v2.7.0版本主要更新內(nèi)容
新增特性
▼ 動態(tài)雙精度轉(zhuǎn)換(Dynamic Double Cast)
用戶可通過設(shè)置環(huán)境變量export TORCH_USE_MUSA_DOUBLE_CAST=1,開啟Float64數(shù)據(jù)類型算子的動態(tài)轉(zhuǎn)換功能,torch_musa將使用float32作為計(jì)算數(shù)據(jù)類型。
▼ 分布式檢查點(diǎn)(Distributed Checkpoint)
支持從多個(gè)rank并行加載和保存模型,顯著加速檢查點(diǎn)的保存與加載過程。目前已支持分布式檢查點(diǎn)的異步保存功能。
功能增強(qiáng)
▼ 新增Poisson、binomial、_standard_gamma、_sample_dirichlet、vdot、upsample(1d、2d、3d、with aa)、flash_attention、transformer_encoder_layer 等多個(gè)實(shí)用算子,MUSA專屬支持的算子總數(shù)突破1050個(gè)。
▼ 通過升級PyTorch底層支持,torch.compile與AOTInductor功能進(jìn)一步增強(qiáng);
▼ 默認(rèn)啟用TF32計(jì)算模式,提升浮點(diǎn)運(yùn)算效率;
▼ 優(yōu)化性能分析工具Kineto的穩(wěn)定性,并將其適配版本升級至2.7.0;
▼ 繼續(xù)優(yōu)化FSDP2流水線并行策略,進(jìn)一步降低內(nèi)存占用。
v2.5.0版本主要更新內(nèi)容
新增特性
▼ 新增muFFT與muSolver庫集成,大幅擴(kuò)展計(jì)算能力;
▼ 在面向邊緣計(jì)算的SoC設(shè)備中支持統(tǒng)一內(nèi)存管理,基于Arm 架構(gòu)的UMA(統(tǒng)一內(nèi)存尋址)設(shè)計(jì),實(shí)現(xiàn)GPU與CPU共享同一物理內(nèi)存空間,顯著降低模型運(yùn)行過程中的內(nèi)存開銷,具體包括:
消除GPU端重復(fù)內(nèi)存分配;
減少主機(jī)與設(shè)備間的內(nèi)存拷貝;
GPU可直接訪問由CPU分配器申請的內(nèi)存空間。
算子擴(kuò)展與性能優(yōu)化
▼ 新增支持包括ilshift、irshift、replication_pad1d_bwd、angle、ctcLossTensor、ctcLossTensorBwd、logit、amin/amax/prod.dim_int、glu_bwd等多個(gè)算子;
▼ 新增基礎(chǔ) Sparse(CSR) 操作支持;
▼ 擴(kuò)充量化算子支持范圍;
▼ 修復(fù)torch.norm形狀錯(cuò)誤問題;
▼ 支持reduce_sum的uint8輸入與int64輸出;
▼ C++擴(kuò)展新增支持tensor.is_musa()方法;
▼ 修復(fù)空輸入下argmax/argmin的異常行為;
▼ 優(yōu)化var/std、pad、convolution3d、layer_norm等操作的執(zhí)行效率。
系統(tǒng)功能增強(qiáng)
▼ 開放torch.musa.mccl.version()接口;
▼ 支持getCurrentMUSABlasHandle與getCurrentMUSABlasLtHandle;
▼ 優(yōu)化FSDP2流水線并行策略,降低訓(xùn)練內(nèi)存占用。
-
英特爾股價(jià)大漲10%!與蘋果重歸于好:將為M系列芯片代工同檔最大!榮耀500全系8000mAh電池:零下20℃也能用第十四屆環(huán)海南島國際大帆船賽在三亞開賽普麗妍發(fā)公告“封殺”新氧系門店,新氧回應(yīng):傳播不實(shí)信息,已發(fā)律師函華為Mate 80 Pro Max為何藏獨(dú)特彩蛋:有趣且專屬的小儀式榮耀500系列搭載同檔最強(qiáng)2億像素:年度氛圍感神機(jī)同檔位最強(qiáng)性能!榮耀500全系搭載驍龍8系旗艦芯明天發(fā)布!華為Mate 80系列價(jià)格預(yù)測:新機(jī)入門價(jià)可能較上代下調(diào)300元普京:俄方預(yù)計(jì)美方談判代表將于下周到訪莫斯科一圖看懂:小米上線Ultra車主關(guān)懷禮 五大權(quán)益
- ·小米本月五次回購累計(jì)超15億港元:今日斥資2.87億港元回購700萬股
- ·東北一洗浴中心回應(yīng)接待印度人后瀕臨倒閉:沒辦法拒之門外 一視同仁
- ·美烏代表在日內(nèi)瓦會晤 雙方均稱“取得進(jìn)展”
- ·撿漏大王!網(wǎng)友2630元低價(jià)搶到RTX 4070主機(jī):暢玩高畫質(zhì)3A
- ·2025河北省縣(區(qū))域兒童籃球聯(lián)賽收官
- ·大眾速騰遭車主集體投訴:質(zhì)保期內(nèi)原車輪胎開裂
- ·大眾速騰遭車主集體投訴:質(zhì)保期內(nèi)原車輪胎開裂
- ·西貝開新店:近40道產(chǎn)品降價(jià)、排隊(duì)109桌
- ·00后外賣小哥日均送83單5年攢112萬 月賺4萬多:網(wǎng)友感慨太無敵
- ·印度博主體驗(yàn)東北澡堂 網(wǎng)友驚呼“比酒店還劃算”
- ·三只松鼠企業(yè)文化引熱議:員工都有“鼠名” CEO叫松鼠老爹
- ·東北一洗浴中心回應(yīng)接待印度人后瀕臨倒閉:沒辦法拒之門外 一視同仁
- ·中國一汽入股零跑或年內(nèi)簽約 朱江明:實(shí)控權(quán) 創(chuàng)始團(tuán)隊(duì)必須要堅(jiān)守
- ·北京下雪了:銀裝素裹
- ·北汽高管:國內(nèi)豪華車市場因享界加入 已從三強(qiáng)林立變成四足鼎立
- ·杭州68歲大爺被幾百只螞蟻圍攻 送進(jìn)搶救室
- ·這下真的能當(dāng)電爐了 Intel將展示5000W功耗GPU技術(shù)
- ·普麗妍發(fā)公告“封殺”新氧系門店,新氧回應(yīng):傳播不實(shí)信息,已發(fā)律師函
- ·十字路口小米SU7被日產(chǎn)天籟攔腰橫撞:責(zé)任判了
- ·同檔最大!榮耀500全系8000mAh電池:零下20℃也能用
- ·為什么工作很忙很累 反而晚上卻越想熬夜
- ·魏哲家連喊三次“不夠”!稱臺積電先進(jìn)制程產(chǎn)能還差3倍
- ·我國科學(xué)家首次破解:終于知道嫦娥六號月壤為什么這么黏
- ·大眾速騰遭車主集體投訴:質(zhì)保期內(nèi)原車輪胎開裂
- ·東莞地鐵1號線一期開通試運(yùn)營
- ·3D大神最新力作!《漫威爭鋒》隱形女
- ·中國運(yùn)動員在希臘參加米蘭冬奧會火炬?zhèn)鬟f
- ·比亞迪、美的達(dá)成戰(zhàn)略合作:打造“人
- ·三只松鼠企業(yè)文化引熱議:員工都有“鼠名” CEO叫松鼠老爹
- ·星途聯(lián)賽S8城市嘉年華登陸長沙 打造今秋最潮電競社交盛宴
- ·SK海力士展示全球首個(gè)HBM4內(nèi)存:單顆36GB 帶寬飆升近3倍
- ·北汽高管:國內(nèi)豪華車市場因享界加入 已從三強(qiáng)林立變成四足鼎立
- ·外資唱多聲不斷!高盛:中國股票將延續(xù)“牛氣” AI股仍有上漲空間
- ·1.05mm行業(yè)最窄黑邊!榮耀500全系標(biāo)配綠洲護(hù)眼屏
- ·英特爾股價(jià)大漲10%!與蘋果重歸于好:將為M系列芯片代工
- ·AMD顯卡至少漲價(jià)10%!
