當(dāng)前位置：首頁(yè) > 娛樂(lè) > 11月中文大模型基準(zhǔn)測(cè)評(píng)出爐：GPT 5.1奪冠、DeepSeek開(kāi)源第一正文

11月中文大模型基準(zhǔn)測(cè)評(píng)出爐：GPT 5.1奪冠、DeepSeek開(kāi)源第一

時(shí)間：2025-11-29 23:51:36 來(lái)源：企業(yè)錄(www.qy6.com)-公司信息發(fā)布,網(wǎng)上買賣交易門戶

11月28日消息，月中源第SuperCLUE公布了2025年11月中文大模型基準(zhǔn)測(cè)評(píng)結(jié)果。模型

本次測(cè)評(píng)圍繞數(shù)學(xué)推理、基準(zhǔn)科學(xué)推理、測(cè)評(píng)出爐代碼生成（含web開(kāi)發(fā)）、月中源第幻覺(jué)控制、模型精確指令遵循五大核心任務(wù)展開(kāi)，基準(zhǔn)題目總量為822道新題，測(cè)評(píng)出爐最終得分取各任務(wù)平均分。月中源第

本次共測(cè)評(píng)27個(gè)國(guó)內(nèi)外大模型同臺(tái)競(jìng)技，模型OpenAI的基準(zhǔn)GPT 5.1與國(guó)產(chǎn)模型DeepSeek分別斬獲綜合冠軍與開(kāi)源領(lǐng)域第一。

OpenAI的測(cè)評(píng)出爐GPT-5.1 (high) 以68.11的總分登頂，成為本月綜合表現(xiàn)最佳的月中源第大模型。

GPT-5.1 在數(shù)學(xué)推理（74.07）、模型代碼生成（76.30）等項(xiàng)表現(xiàn)突出，基準(zhǔn)幻覺(jué)控制得分 88.80，展現(xiàn)出強(qiáng)穩(wěn)定性。

Anthropic的Claude-Opus-4.5-Reasoning以62.57分緊隨其后，其幻覺(jué)控制得分高達(dá)90.33，在該項(xiàng)能力上領(lǐng)跑。

而在開(kāi)源模型中，深度求索的 DeepSeek-V3.2-Exp-Thinking以53.69分位列開(kāi)源陣營(yíng)第一。

用戶不買賬！微軟強(qiáng)推Copilot遭“被代表”質(zhì)疑

新榮耀獨(dú)立五周年！CEO李健發(fā)文：感謝用戶、團(tuán)隊(duì)、伙伴

Intel下代至強(qiáng)CPU取消8內(nèi)存通道版本！重心轉(zhuǎn)向16通道

小米盧偉冰：越來(lái)越多的Pro Max來(lái)了！

中巴射電天文技術(shù)聯(lián)合實(shí)驗(yàn)室啟動(dòng)

小米超級(jí)小愛(ài)AI大模型隨心修圖上線一句話搞定P圖

盛色推出新款24.5寸顯示器：FHD 260Hz屏到手僅659元