DeepSeek的一次小更新:暴打OpenAI 追上Gemini
壞消息,次打開源模型和閉源模型的小更新暴差距越來越大了。 好消息,次打DeepSeek 又出手了。小更新暴 12 月 1 日,次打DeepSeek 發(fā)布了兩款新模型 —— DeepSeek V3.2 和 DeepSeek-V3.2-Speciale。小更新暴 前者和 GPT-5 能打的次打有來有回,后面的小更新暴高性能版更是直接把 GPT 爆了,開始和閉源模型天花板 —— Gemini 打了個五五開。次打 還在IMO 2025(國際數學奧林匹克)、小更新暴CMO 2025(中國數學奧林匹克)等一系列比賽中拿下金牌。次打 這是小更新暴這家公司今年第九次發(fā)布模型,雖然大家期待的次打 R2 還沒有來。 所以,小更新暴DeepSeek 是次打怎么用更小的數據,更少的顯卡,做出能和國際巨頭來抗衡的模型? 我們翻開了他們的論文,想把這件事給大家講清楚。 為了做到這個目標,DeepSeek 又整了不少新招: 先是把咱們的老朋友 DSA —— 稀疏注意力給轉正了。 這東西在之前的 V3.2-EXP 版本里出現(xiàn)過,當時只是測了一下 DSA 會不會影響模型的性能,現(xiàn)在是真的把這玩意給放到了主力模型上。 大家平時和大模型聊天的時候會發(fā)現(xiàn),你在一個對話框里聊的越多,模型就越容易胡言亂語。 甚至聊的太多了,還會直接不讓你聊了。 這是因為大模型原生的注意力機制導致的問題,在這套老邏輯的影響下,每個 token 出來,都要和前面的每一個 token 互相算在一起做一次計算。 這就導致了句子增長一倍,模型的計算量就得增加到原來的四倍,如果邊長到原來的三倍,計算量就變成了原來的九倍,非常麻煩。 DeepSeek 想這樣不行啊,于是就給大模型里加了固定頁數的目錄(稀疏注意力),相當于幫模型劃重點了。 而在有了目錄之后,以后每次只需要計算這個 token 和這些目錄的關系就行了,相當于就是看書先讀目錄,看完目錄,對哪一章感興趣,再去仔細看這章的內容就好。 這樣一來,就能讓大模型讀長文的能力變的更強。 在下面這張圖里可以看到,隨著句子越來越長,傳統(tǒng)的 V3.1 的推理成本是越來越高。 但是用上了稀疏注意力的 3.2 則沒什么變化。。。 屬于是超級省錢冠軍了。 另一方面,DeepSeek 開始重視起了開源模型的后訓練工作。 大模型這一套從預訓練開始,到考試打分的過程,其實有點像是我們人類從小學開始,一路讀書讀到高考的過程。 前面的大規(guī)模預訓練,相當于從小學到高二,把所有課本、練習冊、卷子全過一遍,這一步大家都差不多,不管是閉源模型,還是開源模型,都在老老實實的念書。 但到了高考沖刺階段就不一樣了,在模型的后訓練階段,閉源模型一般都會請名師,猛刷題,開始搞起各種強化學習,最后讓模型來考一個不錯的成果。 但開源模型在這塊花的心思就比較少了,按照 DeepSeek 的說法,過去的開源模型在訓練后階段計算投入普遍偏低。 這就導致這些模型可能基礎能力是已經到位的了,但就是難題刷少了,結果導致考出來的成績不太好。 于是,DeepSeek 決定這次自己也要上名師輔導班,設計了一套新的強化學習協(xié)議,在預訓練結束后,花了超過總訓練算力的 10% 來給模型開小灶,把之前缺的這塊給補上。 同時還推出了個能思考超長時間的特殊版本 —— DeepSeek V3.2 Speciale。 這玩意的思路是這樣的: 過去的大模型因為上下文長度有限制,所以在訓練的時候都會做一些標注懲罰的工作,如果模型深度思考的內容太長了,那就會扣分。 而到了 DeepSeek V3.2 Speciale 這兒,所以 DeepSeek 干脆取消掉了這個扣分項,反而鼓勵模型想思考多久就思考多久,想怎么思考就怎么思考。 最終,讓這個全新的 DeepSeek V3.2 Speciale 成功的和前幾天爆火的 Gemini 3 打的有來有回。 此外DeepSeek 還很重視模型在智能體方面能力。 一方面,為了提高模型的基礎能力,DeepSeek 構建了一個虛擬環(huán)境,合成了成千上萬條數據來輔助訓練。 DeepSeek-V3.2 用 24667 個真實代碼環(huán)境任務、50275 個真實搜索任務、4417 個合成通用 agent 場景、5908 個真實的代碼解釋任務做后訓練。 另一方面,DeepSeek 還優(yōu)化了模型使用各種工具的流程。 以前幾代 DeepSeek 的一個典型毛病是:會把思考和用工具給分開。 模型一旦去調用外部工具,前面那段思考基本就算寫完收工了,等工具查完結果再回來,它往往又要重新鋪一遍思路。 這就導致一種很蠢的體驗——哪怕只是去查一下“今天幾月幾號” 這種小事,模型也會從頭開始重建整套推理鏈,非常浪費時間。。。 在 V3.2 這里,DeepSeek 忍不了了,直接把這套邏輯推翻重做。 現(xiàn)在的規(guī)則變成:在一整串工具調用的過程中,模型的“思考過程”會一直保留下來,只有當用戶發(fā)來一條新的提問時,才會重置這一輪推理;而工具的調用記錄和結果,會像聊天記錄一樣一直留在上下文里。 通過這修改模型架構,重視后訓練,強化 Agent 能力的三板斧,DeepSeek 才終于讓自己的新模型,有了能和世界頂尖開源模型再次一戰(zhàn)的能力。 當然,即使做了這么多改進,DeepSeek 的表現(xiàn)也算不上完美。 但托尼最喜歡 DeepSeek 的一點,就是他們愿意承認自己的不足。 而且還會直接在論文里寫出來。 比如這次論文就提到了,這次的 DeepSeek V3.2 Speciale 雖然能和谷歌的 Gemini 3 Pro 來打的五五開。 但是要回答相同的問題,DeepSeek 需要花費更多的 token。 我自己也測試了一下,從“人類的最終考試” 的題庫里隨便抽了道題目,同時丟給 Gemini 3 Pro 和 DeepSeek V3.2 Speciale 這兩個模型。 題目是: 蜂鳥類在足形目中獨特地擁有雙側成對的橢圓形骨,這是一種嵌入在膨脹的十字翼腱膜的尾狀骨中,嵌入壓低多粒骨的尾狀骨。這塊籽骨支撐著多少對對腱?請用數字回答。 結果發(fā)現(xiàn) Gemini 只要 4972 個 Tokens 就能把問題給答出來。 而到了 DeepSeek 這邊,則用了 8077 個 Tokens 才把問題給搞明白。 光看用量的話,DeepSeek 的的 Tokens 消耗量高了快六成,確實是有不小的差距。 但是話又說回來了。 DeepSeek 雖然消耗的 token 多,但是人家價格便宜啊。。。 還是剛才那個問題,我回頭仔細看了眼賬單。 DeepSeek 8000 多個 tokens,花了我 0.0032 美元。 但谷歌這邊,5000 個 tokens 不到,給我干掉了 0.06 刀?這塊要比 DeepSeek 高了有 20 倍了。 從這個角度上來看,怎么感覺還是 DeepSeek 更香一些。。。 最后,讓我們回到論文的開頭。 正如 DeepSeek 所言,最近半年來,開源模型和閉源模型的差距正在不斷加大。 但他們還是用自己的方式,在不斷追趕這份差距。 而 DeepSeek 的各種節(jié)省算力,節(jié)約數據的操作,其實讓我想到了上個月,一場關于 Ilya Sutskever 的訪談。 這位 OpenAI 曾經的靈魂人物認為,只靠一味的給模型堆參數,是沒有未來的。 AlexNet只用了兩塊GPU。Transformer剛出現(xiàn)時的實驗規(guī)模,大多在8~64塊GPU范圍內。按今天的標準看,那甚至相當于幾塊GPU的規(guī)模,ResNet也一樣。沒有哪篇論文靠龐大的集群才能完成。 比起算力的堆砌,對算法的研究也一樣重要。 這正是 DeepSeek 在做的事情。 從 V2 的 MoE,到 V3 的多頭潛在注意力(MLA),再到如今 DeepSeek Math V2 的自驗證機制,V3.2 的稀疏注意力(DSA)。 DeepSeek 展現(xiàn)給我們進步,從來都不是單一的,依靠堆砌參數規(guī)模所帶來的提升。 而是在想辦法,如何用有限的數據,來堆積出更多的智能。 巧婦狂作無米之炊 所以,R2 什么時候來呢?
- 最近發(fā)表
-
- 轎車違規(guī)掉頭被試制裝甲車撞了個正著:司機需負全部責任
- 賽力斯董事長:截至今年10月 問界車型累計銷售85萬臺
- 小米、華為中國唯二上榜!雷軍轉發(fā)比心
- 海南高速驚現(xiàn)5輛老年代步車:來過冬的 開導航直接上來了
- 溫暖毛絨內里:361°男子戶外跑鞋2折91元到手(門店379元)
- 從“小家電制造商”到“生活方式品牌” 小熊電器三季報中的進化密碼
- 雷曼“高清王冷屏大師”發(fā)布:AI低功耗冷屏系統(tǒng)破解LED顯示痛點
- 螞蟻gPass技術新進展:實現(xiàn)全球首個智能眼鏡內置虹膜核身支付功能
- 吉尼斯官方認證!日產N6 1.4萬公里長途實測:油耗2.9L/100km
- 賽力斯董事長:截至今年10月 問界車型累計銷售85萬臺
- 隨機閱讀
-
- 中東市場的“衛(wèi)士殺手”!極石汽車第20000輛量產下線
- 降價別想!三星、SK海力士和鎧俠計劃提高NAND價格 并削減產量
- 字節(jié)跳動開除大模型團隊一研究員 其系機器人領域大V 有8.6萬粉絲
- 索泰助力巔模王“愛樂酷”杯云南首屆模型比武大會圓滿收官
- DeepSeek V3.2與國外頂級AI有差距:算力受限 未來會解決
- 降價別想!三星、SK海力士和鎧俠計劃提高NAND價格 并削減產量
- 內存大幅漲價潮一觸即發(fā)!DRAM芯片價格已遠超模塊報價
- 性能最激進!三星Galaxy S26搭載雞血版驍龍8E5+最快內存
- 加熱餐箱科技升溫20℃ 京東外賣已經用上了
- 阿里首款自研旗艦雙顯AI眼鏡 夸克AI眼鏡S1 11月27日發(fā)布
- 中國光伏行業(yè)協(xié)會聲明:與惡意做空光伏斗爭到底
- 首個飛行汽車工廠落地廣州:具備“萬輛級”產能
- 小米高管疑集體遭遇短信轟炸:短時間內收到數十條驗證碼
- 降價別想!三星、SK海力士和鎧俠計劃提高NAND價格 并削減產量
- 中科曙光將出任中電標協(xié)數據存儲專委會當值會長單位
- 6000萬人次圍觀京東家電家居比價直播 連麥獎金總額超300萬元
- 以媒:特朗普向以色列發(fā)出警告
- 雙十一折疊屏換機首選!華為折疊家族全系熱銷:多形態(tài)滿足全場景需求
- 阿里首款自研旗艦雙顯AI眼鏡 夸克AI眼鏡S1 11月27日發(fā)布
- (粵港澳全運會)廣東奧林匹克體育中心創(chuàng)下全運會轉場新紀錄
- 搜索
-