Kimi最強開源思考模型 Kimi K2 Thinking發(fā)布:推理等超越GPT
11月7日消息,最強日前,開源月之暗面宣布發(fā)布Kimi K2 Thinking,思考這是模型Kimi 迄今能力最強的開源思考模型。 目前,布推該模型已上線kimi.com和最新版Kimi手機應用的最強常規(guī)對話模式。 據了解,開源Kimi K2 Thinking原生掌握“邊思考,思考邊使用工具”的模型能力,在人類最后的布推考試(Humanity's Last Exam)、自主網絡瀏覽能力(BrowseComp)、最強復雜信息收集推理(SEAL-0)等多項基準測試中表現達到SOTA水平,開源超越GPT-5。思考 在Agentic搜索、模型Agentic編程、布推寫作和綜合推理能力等方面也取得全面提升。 據介紹,該模型無需人類干預,即可自主實現高達300輪的工具調用和持續(xù)穩(wěn)定的多輪思考能力,從而幫助用戶解決更復雜的問題。 人類最后的考試是一項涵蓋100多個專業(yè)領域的終極封閉式學術測試。 在允許使用工具——搜索、Python、網絡瀏覽工具的同等情況下,Kimi K2 Thinking在這項基準評測中取得了44.9%的SOTA成績。 根據官方示例顯示,Kimi K2 Thinking經過5輪搜索和推理,結合每輪搜索到的新信息,層層深入,最終推理出了答案: 此外,在復雜搜索和瀏覽場景中,Kimi K2 Thinking模型也表現出色。 BrowseComp是由OpenAI發(fā)布的一個專門評估AI Agent網絡瀏覽能力的基準測試,這項測試的初衷是衡量AI Agent在信息過載環(huán)境中展現出的堅持性與創(chuàng)造力,即能否像人類研究員一樣“刨根問底”。 在這項極具挑戰(zhàn)的任務上,人類平均只能達到29.2%的成績。 Kimi K2 Thinking在這項基準測試中展現出極強的鉆研能力,以60.2%的成績成為新的SOTA模型。 在長程規(guī)劃和自主搜索能力的驅動下,Kimi K2 Thinking可借助多達上百輪的“思考→搜索→瀏覽網頁→思考→編程”動態(tài)循環(huán),持續(xù)地提出并完善假設、驗證證據、進行推理,并構建出邏輯一致的答案。 這種邊主動搜索邊持續(xù)思考的能力,使Kimi K2 Thinking能夠將模糊且開放式的問題分解為清晰、可執(zhí)行的子任務。 在官方示例中,Kimi K2 Thinking經過兩輪搜索和思考,先根據股票回購的已知信息找到了這家制造快速的公司,然后在美國證券交易委員會(SEC)的官網上找到了股票回購公告信息,得出了準確的答案:
- 最近發(fā)表
- 隨機閱讀
-
- 男子因拖欠工資發(fā)布欲跳樓視頻 上萬網友在線勸阻 當地:已救下
- 內存價格暴漲!廠商停止采購24GB內存:用不起了
- 虎牙2025年Q3財報:收入16.9億元 直播企穩(wěn)回升
- 畫面太社死!影視颶風Tim帶著“坦誠”版簡歷去相親角:被大媽吐槽學歷低
- 世界唯一夫妻合葬!衛(wèi)星俯瞰中國帝王陵寢的巔峰:唐乾陵
- 證監(jiān)會副主席李明:堅決防止市場大起大落、急漲急跌
- 網友當面向京東CEO許冉提建議 采納后被獎勵500元
- 高速上開車直接沖進綠化帶致車輛報廢 男子:當時在點歌
- 《GTA 6》再次延期
- 世界第一!曾毓群:全球超2000萬輛新能源汽車搭載寧德時代電池
- 寧德時代曾毓群:推動新能源產業(yè)加速邁入“全域增量時代”
- 補貼直給、型號齊全、服務可靠……超8成消費者買家電首選京東雙11
- 繼“巨型吊牌”后商家再想新招:衣服上掛密碼鎖 確認收貨再給密碼
- 高速上開車直接沖進綠化帶致車輛報廢 男子:當時在點歌
- 業(yè)內首款!紫光同芯5G手機eSIM芯片E9系列入庫中國電信
- 華為Mate 80下周開始預熱 11月25日發(fā)布:五款機型 標配麒麟9030
- 百萬一針的抗癌藥有望首次納入商保:主要用于白血病、淋巴瘤
- 下載速度飛起!百度網盤SVIP會員雙十一腰斬大促:162元/年
- 無錫一男子開車叼牙線棒被處罰 多方回應
- 被嘲像長筒襪 是割韭菜嗎!蘋果回應1899元手機包定價過高 是聯名款
- 搜索
-