亚洲精品三,久久久久欧美,日本九九热,久久久鲁,天堂一区,天堂精品久久,亚洲久久

國內(nèi)唯一 阿里千問斬獲NeurIPS 2025最佳論文獎

11月27日,國內(nèi)人工智能領(lǐng)域頂級會議NeurIPS 2025公布了論文獎,唯阿問斬阿里通義千問團(tuán)隊在注意力機(jī)制上的千論文研究成果從全球5524篇論文中脫穎而出,被評為最佳論文,最佳是國內(nèi)唯一獲得該獎項的中國團(tuán)隊。該論文首次在業(yè)內(nèi)揭秘了注意力門控對大模型性能和訓(xùn)練的唯阿問斬影響,據(jù)悉,千論文該研究成果已應(yīng)用于Qwen3-Next模型,最佳并顯著提升模型的國內(nèi)性能與魯棒性。

阿里通義千問研究成果被評為NeurIPS 2025最佳論文

門控是唯阿問斬大模型應(yīng)用最廣泛的技術(shù)之一,它可以作為模型的千論文“智能降噪耳機(jī)”,幫助模型過濾無效信息從而提升模型性能。最佳近年來,國內(nèi)AlphaFold2、唯阿問斬Forgetting Transformer等學(xué)術(shù)界和工業(yè)界模型開始探索將門控和注意力機(jī)制結(jié)合,千論文但都對門控在注意力機(jī)制中有效的原因缺乏探索,也沒有大規(guī)模實踐的經(jīng)驗。

此次,通義千問團(tuán)隊通過在1.7B稠密模型(Dense)與15B混合專家模型(MoE)上訓(xùn)練超過 3.5 萬億 token,并對比 30 余組控制實驗,首次清晰揭秘了其背后的原理,并展現(xiàn)了在注意力中使用門控形式最有效的方式及擴(kuò)展成功實踐。

注意力頭是?注意力機(jī)制中的基本計算單元。實驗結(jié)果顯示,對各注意力頭的輸出進(jìn)行門控,是提升模型性能最有效的方式。使用該方式,在引入額外1%參數(shù)、計算開銷增加低于2%的情況下,可以實現(xiàn)0.2以上的困惑度下降、MMLU基準(zhǔn)評測2個點的提升。研究還發(fā)現(xiàn),該技術(shù)還能在更大規(guī)模的模型訓(xùn)練上實現(xiàn)更好的性能。

使用論文方法,在引入額外1%參數(shù)、計算開銷增加低于2%的情況下,可以實現(xiàn)0.2以上的困惑度下降、MMLU基準(zhǔn)評測2個點的提升

更深入的分析發(fā)現(xiàn),注意力門控還解決了大模型長期存在的兩大問題:注意力池(Attention Sink),即少量特殊token計算中產(chǎn)生很大的輸出值、占據(jù)很高的注意力分?jǐn)?shù);巨量激活(Massive Activation),即模型激活中出現(xiàn)大于中位數(shù)數(shù)千倍的離群值。上述兩個現(xiàn)象都容易在BF16等低精度訓(xùn)練中引發(fā)數(shù)值誤差,影響訓(xùn)練穩(wěn)定與低精度部署。該研究顯示,門控注意力將首token的注意力占比從 46.7%降至4.8%,同時將最大激活值從1053降至94。

目前,該技術(shù)方案、實驗?zāi)P图爱a(chǎn)品級模型均已開源。NeurIPS評審委員會表示:“我們認(rèn)為該方法將被廣泛采用,這項工作將極大推動社區(qū)對大語言模型中注意力機(jī)制的理解。”

通義千問團(tuán)隊表示:“對門控機(jī)制、模型機(jī)制等的深入理解,不僅為大語言模型架構(gòu)設(shè)計提供了新思路,也為構(gòu)建更穩(wěn)定、更高效、更可控的大模型奠定了基礎(chǔ)。”

據(jù)悉,目前阿里千問已開源300多款模型,涵蓋全模態(tài)、全尺寸,全球下載量突破7億次,衍生模型超過18萬個,位居全球第一。

推薦內(nèi)容
舟曲县| 吐鲁番市| 五莲县| 闽清县| 虹口区| 鞍山市| 德兴市| 汤阴县| 旬邑县| 吉安市| 晋宁县| 阳信县| 枣强县| 石楼县| 喀喇沁旗| 固始县| 宜兰县| 富川| 盈江县| 秦皇岛市| 浪卡子县| 米易县| 阜阳市| 视频| 奉节县| 阳新县| 营口市| 马龙县| 阳信县| 休宁县| 汽车| 都兰县| 页游| 仁怀市| 襄垣县| 武城县| 龙井市| 新昌县| 平顺县| 乐清市| 永州市|