SuperCLUE最新評(píng)測(cè):360zhinao3
近日,新評(píng)中文精確指令遵循測(cè)評(píng)基準(zhǔn)(SuperCLUE-CPIF)正式發(fā)布,新評(píng)360zhinao3-o1.5以78.97分位居國(guó)產(chǎn)大模型第一,新評(píng)在任務(wù)類(lèi)型、新評(píng)指令數(shù)量?jī)深?lèi)劃分中均為國(guó)內(nèi)榜首,新評(píng)其在精確指令遵循上的新評(píng)卓越表現(xiàn),正是新評(píng)AI技術(shù)提升“可用性”和“實(shí)用性”、從實(shí)驗(yàn)室走向大規(guī)模產(chǎn)業(yè)應(yīng)用的新評(píng)關(guān)鍵一步。
本次測(cè)評(píng)涵蓋 GPT-5.1(high)、新評(píng)Gemini-3-Pro-Preview、新評(píng)GPT-5(high)、新評(píng)DeepSeek-V3.2-Exp-Thinking、新評(píng)Claude-Sonnet-4.5-Reasoning等共15個(gè)國(guó)內(nèi)外模型參與。新評(píng)基于實(shí)際生產(chǎn)環(huán)境特點(diǎn),新評(píng)SuperCLUE-CPIF 重點(diǎn)評(píng)估大型語(yǔ)言模型(LLM)在中文環(huán)境下精確遵循復(fù)雜、新評(píng)多約束指令的能力。測(cè)評(píng)結(jié)果顯示,國(guó)產(chǎn)主流大模型中,360zhinao3-o1.5以78.97分位居國(guó)產(chǎn)大模型第一,ERNIE-X1.1和DeepSeek-V3.2-Exp-Thinking 分別以75.90分和74.36分位居國(guó)內(nèi)二、三。
(圖說(shuō):SuperCLUE-CPIF 測(cè)評(píng)截圖)
360zhinao3-o1.5指令遵循訓(xùn)練部分的工作已經(jīng)發(fā)布在論文Light-IF系列上。該模型直面現(xiàn)有大語(yǔ)言模型在處理交織多重約束的復(fù)雜指令時(shí)普遍存在的“懶惰推理”現(xiàn)象,通過(guò)自動(dòng)化指令構(gòu)建與難度感知強(qiáng)化學(xué)習(xí)兩大核心技術(shù),驅(qū)動(dòng)模型從被動(dòng)執(zhí)行向“主動(dòng)檢查-修改-再檢查”的演進(jìn),顯著提升了在復(fù)雜指令下的精準(zhǔn)遵循度。
(圖說(shuō):Light-IF系列模型論文發(fā)表)
另外,360zhinao3-o1.5的訓(xùn)練模型Light-IF論文曾被頂會(huì)AAAI 2026成功收錄。據(jù)悉,AAAI 2025共收到12957篇有效投稿,錄用3032篇,錄取率為23.4%,其中Oral論文占比4.6%。而AAAI 2026的投稿量進(jìn)一步飆升至23680篇,僅錄用4167篇,錄取率降至17.6%,Oral錄用率更是進(jìn)一步降低。Light-IF能在如此激烈的競(jìng)爭(zhēng)中脫穎而出,可見(jiàn)其在精準(zhǔn)指令遵循上的突破性。值得一提的是,Light-IF系列模型已陸續(xù)在Hugging Face開(kāi)源,供全球開(kāi)發(fā)者使用、對(duì)比與復(fù)現(xiàn)。
將小參數(shù)模型的能力推向極致,是360智腦團(tuán)隊(duì)持續(xù)深耕的技術(shù)路徑。此前,360與北京大學(xué)聯(lián)合研發(fā)的Tiny-R1-32B模型,僅以5%的參數(shù)量便在數(shù)學(xué)等領(lǐng)域逼近了千億級(jí)模型的性能,是一次在模型優(yōu)化與融合上的深厚積累。這種對(duì)“小而精”垂類(lèi)模型的持續(xù)打磨,為AI智能體(Agent)的爆發(fā)奠定了堅(jiān)實(shí)基礎(chǔ)。
-
俞敏洪全員信再向員工道歉:老板也在拼命努力 并承擔(dān)更大風(fēng)險(xiǎn)未來(lái)三天可能出現(xiàn)地磁暴!有哪些影響?又被逼上絕路的中國(guó)足球,還沒(méi)到放棄的時(shí)候西藏“奔跑吧·少年”三大球進(jìn)校園排球項(xiàng)目活動(dòng)在拉薩啟動(dòng)最強(qiáng)Mate!華為Mate 80系列下周亮相火車(chē)票最低4折!1300余趟列車(chē)淡季打折網(wǎng)友花6000元買(mǎi)iPhone 17遭騎手拿貨跑路:微信被拉黑 結(jié)局來(lái)了未來(lái)三天可能出現(xiàn)地磁暴!有哪些影響?連續(xù)5年!海爾客服再次入選“中國(guó)服務(wù)品牌100強(qiáng)”國(guó)家衛(wèi)星海洋應(yīng)用中心發(fā)布AI海洋大模型“瞰?!?/a>
下一篇:iPhone 18 Pro渲染圖來(lái)了:酒紅色機(jī)身+小號(hào)靈動(dòng)島 最美iPhone
- ·小米最強(qiáng)機(jī)皇快來(lái)了!小米17 Ultra看點(diǎn)匯總
- ·扎根中國(guó),美企在進(jìn)博會(huì)作出長(zhǎng)期承諾
- ·國(guó)家衛(wèi)星海洋應(yīng)用中心發(fā)布AI海洋大模型“瞰?!?/a>
- ·金色沙排掀熱潮——十五運(yùn)會(huì)香港賽區(qū)首個(gè)項(xiàng)目開(kāi)賽
- ·小米舉辦小米17和澎湃OS3慶功會(huì):共18道菜
- ·2025福布斯中國(guó)內(nèi)地富豪榜出爐:中國(guó)瓶裝水之王鐘睒睒連續(xù)5年登頂
- ·湖南衛(wèi)健委通報(bào)“省人民醫(yī)院祖某某、曾某生活作風(fēng)問(wèn)題”:情況基本屬實(shí)
- ·健身秧歌受熱捧 其中蘊(yùn)含哪些科學(xué)理念?
- ·小米之家重返法國(guó)!巴黎首店正式開(kāi)業(yè)
- ·盧偉冰德國(guó)不限速高速試駕小米SU7!最高飆至260km/h 依然非常穩(wěn)
- ·李云飛:中國(guó)電動(dòng)大巴沒(méi)發(fā)生過(guò)惡性燃燒事件 比亞迪將堅(jiān)持磷酸鐵鋰路線
- ·健身秧歌受熱捧 其中蘊(yùn)含哪些科學(xué)理念?
- ·復(fù)旦教授邵宇:AI是當(dāng)代最大泡沫不是貶義 科技泡沫是最好的
- ·男子網(wǎng)暴小米汽車(chē)被刑拘!人民日?qǐng)?bào)呼吁打擊網(wǎng)絡(luò)“黑嘴”:打得一拳開(kāi) 免得百拳來(lái)
- ·中新健康丨睡覺(jué)開(kāi)小夜燈,可能影響心率
- ·退貨亂象倒逼商家奇招,巨型吊牌能否整治“穿完就退”
- ·小孩集體曬被子被拍下 網(wǎng)友:論中國(guó)小孩對(duì)曬被子的執(zhí)念
- ·華碩緊急致歉 騰訊回應(yīng):接受道歉!
- ·十五運(yùn)會(huì)第四批門(mén)票將于10月30日開(kāi)售
- ·今日立冬 你家的暖氣熱了嗎?幾招助你溫暖舒心過(guò)冬
- ·印度國(guó)產(chǎn)光輝戰(zhàn)機(jī)在迪拜航展墜毀:印高官稱美國(guó)在通用發(fā)動(dòng)機(jī)上動(dòng)手腳
- ·科技創(chuàng)新賦能 十五運(yùn)會(huì)深圳賽區(qū)場(chǎng)館煥新升級(jí)
- ·2025年世界花樣輪滑錦標(biāo)賽在北京收官
- ·華為自研P1電機(jī)實(shí)物首次曝光: 發(fā)電功率密度高于行業(yè)10% 150km/h高速巡航不虧電
- ·斷碼清倉(cāng) 杉杉奧萊男款秋季休閑褲 限時(shí)僅39元
- ·AI是優(yōu)秀的“作者”,寫(xiě)的論文很優(yōu)質(zhì)?丨中新真探
- ·谷歌AI超級(jí)大餅:同成本下1000倍性能提升、每半年翻倍
- ·華為Mate70 Air首次可選CPU:麒麟9020A、麒麟9020B有何區(qū)別 官方客服回應(yīng)
- ·全球最小航空公司:只有一架波音737 飛了19年
- ·華為自研P1電機(jī)實(shí)物首次曝光: 發(fā)電功率密度高于行業(yè)10% 150km/h高速巡航不虧電
- ·微軟高管已不食人間煙火:Win11的AI功能已與用戶脫節(jié)
- ·深藍(lán)汽車(chē)壓到地磚 連人帶車(chē)被彈飛!網(wǎng)友:電池爛了都沒(méi)起火
- ·中越跨境生態(tài)廊道重塑 催熱觀鳥(niǎo)潮
- ·2025七彩云南格蘭芬多自行車(chē)節(jié)雙人計(jì)時(shí)賽首秀亮眼
- ·(粵港澳全運(yùn)會(huì))不止于速度:中國(guó)田徑的多元發(fā)展
- ·“低GI”成食品熱門(mén)標(biāo)簽,是“智商稅”嗎?
