11月中文大模型基準測評出爐:GPT 5.1奪冠、DeepSeek開源第一
11月28日消息,月中源第SuperCLUE公布了2025年11月中文大模型基準測評結果。模型
本次測評圍繞數(shù)學推理、基準科學推理、測評出爐代碼生成(含web開發(fā))、月中源第幻覺控制、模型精確指令遵循五大核心任務展開,基準題目總量為822道新題,測評出爐最終得分取各任務平均分。月中源第
本次共測評27個國內(nèi)外大模型同臺競技,模型OpenAI的基準GPT 5.1與國產(chǎn)模型DeepSeek分別斬獲綜合冠軍與開源領域第一。
OpenAI的測評出爐GPT-5.1 (high) 以68.11的總分登頂,成為本月綜合表現(xiàn)最佳的月中源第大模型。
GPT-5.1 在數(shù)學推理(74.07)、模型代碼生成(76.30)等項表現(xiàn)突出,基準幻覺控制得分 88.80,展現(xiàn)出強穩(wěn)定性。
Anthropic的Claude-Opus-4.5-Reasoning以62.57分緊隨其后,其幻覺控制得分高達90.33,在該項能力上領跑。
而在開源模型中,深度求索的 DeepSeek-V3.2-Exp-Thinking以53.69分位列開源陣營第一。
-
SK海力士展示全球首個HBM4內(nèi)存:單顆36GB 帶寬飆升近3倍不止首發(fā)驍龍8 Gen5!李杰開直播爆料一加Ace 6T微壓快燉/隨時開蓋 德世朗6L鈦琺瑯微壓鍋139元2折狂促作業(yè)幫發(fā)布新一代學練機S50 匯頂科技賦能智能書寫新體驗王興:美團外賣業(yè)務虧損三季度達到峰值 預計第四季度仍將較大虧損老用戶暫時別想:AMD確認FSR Redstone僅適用于RX 9000!支撐新型電力系統(tǒng)高質(zhì)量發(fā)展 構網(wǎng)型儲能應用與發(fā)展論壇成功舉辦華為路由X3 Pro日照金山配置公布:行業(yè)首發(fā)透明天線、別墅穿墻信號滿格iPhone16 Pro Max主動散熱實測:A18 Pro比A19 Pro跑分還高!大爺坐輪椅快速路上狂飆:比汽車跑得都快
- ·中國南方多地干燥程度同期少見
- ·韓國“國民爺爺”李順載去世 曾出演《搞笑一家人》等熱播劇
- ·韓國“國民爺爺”李順載去世 曾出演《搞笑一家人》等熱播劇
- ·要求有獵槍會開飛機 79歲英國老貴族全球征婚:條件苛刻遭群嘲
- ·第33屆世界大冬會將在長春舉辦 將堅持節(jié)儉辦賽理念
- ·都長青苔了 印度人13年前弄丟一架飛機:被通知找到時一臉懵
- ·兩輛新能源車遙控泊車相撞 到底誰負全責:官方給答案
- ·支撐新型電力系統(tǒng)高質(zhì)量發(fā)展 構網(wǎng)型儲能應用與發(fā)展論壇成功舉辦
- ·國際冰雪體育大學聯(lián)盟成立
- ·還得靠馬斯克的SpaceX!波音星際客機下一次任務降級為純貨運
- ·雷軍斥資超1億港元增持股份后 小米集團漲超4%
- ·Flexus X實例登場:算力部署正當時 11.11上云一步到位
- ·俄羅斯將關閉波蘭駐伊爾庫茨克總領事館
- ·要求有獵槍會開飛機 79歲英國老貴族全球征婚:條件苛刻遭群嘲
- ·“國民好車”埃安UT super開啟全面交付
- ·中國首次應急發(fā)射!神舟二十二號飛船成功發(fā)射 無人狀態(tài) 滿載貨物上太空
- ·比亞迪召回部分秦PLUS DM
- ·價值170元:京東2次30分鐘標準洗車禮包29.9元(含內(nèi)飾擦拭除塵)
- ·日本東京一汽車撞上行人 事故已致10人受傷
- ·付費解鎖座椅加熱有人治了!紐約擬議法案限制車載訂閱服務
- ·世界最大壓縮空氣儲能電站完成透平機吊裝 核心部件100%國產(chǎn)化
- ·淘汰一大批!史上最嚴充電寶安全標準曝光:原有3C認證將全面失效
- ·全球第41名 iPhone Air DXO影像得分167:單攝性能接近17 Pro主攝
- ·打游戲的筆記本電腦推薦:三款酷睿Ultra 7 255HX機型解鎖無妥協(xié)電競體驗
- ·熱門純電轎車續(xù)航榜:奔馳CLA排第二 SU7第六
- ·全球頂級KOL也“追星”!科技博主在海信見證RGB
- ·Intel W890主板真容首次曝光!1TB DDR5、128條PCIe通道
- ·臺積電產(chǎn)能緊張 Marvell與聯(lián)發(fā)科考慮引入英特爾封裝
- ·AI組織再進化 森馬AI工作臺大森3.0正式上線
- ·Anthropic推出AI新模型Opus 4.5:編程表現(xiàn)超OpenAI接近頂尖工程師
- ·舊國標電動自行車下周起全面停售!新國標要求3C認證、超過25km/h停止動力
- ·10月國產(chǎn)新旗艦機激活設備:小米17 Pro、Find X9列前三
- ·全球第41名 iPhone Air DXO影像得分167:單攝性能接近17 Pro主攝
- ·支撐新型電力系統(tǒng)高質(zhì)量發(fā)展 構網(wǎng)型儲能應用與發(fā)展論壇成功舉辦
- ·這下真的能當電爐了 Intel將展示5000W功耗GPU技術
- ·全國首個獲批!廣汽昊鉑A800啟動L3級自動駕駛道路研發(fā)測試
