商湯開源NEO多模態(tài)模型架構(gòu),實(shí)現(xiàn)視覺、語言深層統(tǒng)一

新浪科技訊 12月2日下午消息,商湯實(shí)現(xiàn)視覺深層商湯科技發(fā)布并開源了與南洋理工大學(xué) S-Lab合作研發(fā)的開源全新多模態(tài)模型架構(gòu)——NEO,宣布從底層原理出發(fā)打破傳統(tǒng)“模塊化”范式的模態(tài)模型桎梏,通過核心架構(gòu)層面的架構(gòu)多模態(tài)深層融合,實(shí)現(xiàn)視覺和語言的商湯實(shí)現(xiàn)視覺深層深層統(tǒng)一,并在性能、開源效率和通用性上帶來整體突破。模態(tài)模型
據(jù)悉,架構(gòu)在架構(gòu)創(chuàng)新的商湯實(shí)現(xiàn)視覺深層驅(qū)動(dòng)下,NEO展現(xiàn)了極高的開源數(shù)據(jù)效率——僅需業(yè)界同等性能模型1/10的數(shù)據(jù)量(3.9億圖像文本示例),便能開發(fā)出頂尖的模態(tài)模型視覺感知能力。無需依賴海量數(shù)據(jù)及額外視覺編碼器,架構(gòu)其簡潔的商湯實(shí)現(xiàn)視覺深層架構(gòu)便能在多項(xiàng)視覺理解任務(wù)中追平Qwen2-VL、InternVL3 等頂級(jí)模塊化旗艦?zāi)P?。開源
此外,模態(tài)模型NEO還具備性能卓越且均衡的優(yōu)勢(shì),在MMMU、MMB、MMStar、SEED-I、POPE等多項(xiàng)公開權(quán)威評(píng)測(cè)中,NEO架構(gòu)均斬獲高分,優(yōu)于其他原生VLM綜合性能,真正實(shí)現(xiàn)了原生架構(gòu)“精度無損”。
當(dāng)前,業(yè)內(nèi)主流的多模態(tài)模型大多遵循“視覺編碼器+投影器+語言模型”的模塊化范式。這種基于大語言模型(LLM)的擴(kuò)展方式,雖然實(shí)現(xiàn)了圖像輸入的兼容,但本質(zhì)上仍以語言為中心,圖像與語言的融合僅停留在數(shù)據(jù)層面。這種“拼湊”式的設(shè)計(jì)不僅學(xué)習(xí)效率低下,更限制了模型在復(fù)雜多模態(tài)場(chǎng)景下(比如涉及圖像細(xì)節(jié)捕捉或復(fù)雜空間結(jié)構(gòu)理解)的處理能力。
而NEO架構(gòu)則通過在注意力機(jī)制、位置編碼和語義映射三個(gè)關(guān)鍵維度的底層創(chuàng)新,讓模型天生具備了統(tǒng)一處理視覺與語言的能力。
具體而言,在原生圖塊嵌入(Native Patch Embedding)方面,這一架構(gòu)摒棄了離散的圖像tokenizer,通過獨(dú)創(chuàng)的Patch Embedding Layer (PEL)自底向上構(gòu)建從像素到詞元的連續(xù)映射。這種設(shè)計(jì)能更精細(xì)地捕捉圖像細(xì)節(jié),從根本上突破了主流模型的圖像建模瓶頸。
在原生多頭注意力 (Native Multi-Head Attention)方面,針對(duì)不同模態(tài)特點(diǎn),NEO在統(tǒng)一框架下實(shí)現(xiàn)了文本token的自回歸注意力和視覺token的雙向注意力并存。這種設(shè)計(jì)極大地提升了模型對(duì)空間結(jié)構(gòu)關(guān)聯(lián)的利用率,從而更好地支撐復(fù)雜的圖文混合理解與推理。(文猛)
海量資訊、精準(zhǔn)解讀,盡在新浪財(cái)經(jīng)APP 責(zé)任編輯:何俊熹
-
HKC領(lǐng)航M8 QD新加坡國家AI計(jì)劃倒向中國大模型 棄用Meta轉(zhuǎn)投阿里千問新加坡國家AI計(jì)劃倒向中國大模型 棄用Meta轉(zhuǎn)投阿里千問衛(wèi)星俯瞰中國最后一個(gè)通公路的縣:西藏墨脫馬斯克稱其能超越獵鷹 民營可回收火箭朱雀三號(hào)發(fā)射推遲:藍(lán)箭回應(yīng)專家回應(yīng)骨傳導(dǎo)耳機(jī)戴出頭暈失衡 這三類人群不建議佩戴安卓新病毒Sturnus來襲!偽裝成Chrome讀取屏幕內(nèi)容、密碼迪士尼超人氣續(xù)作 《瘋狂動(dòng)物城2》中國內(nèi)地上映 爛番茄新鮮度93%胖東來小方糖戒指爆火 售價(jià)169元即將售罄 顧客:為了好看買的 看不出和鉆戒的區(qū)別挑戰(zhàn)漠河極寒天氣!盧偉冰宣布2025年米家空調(diào)冬測(cè)開啟:涵蓋掛機(jī)、柜機(jī)、中央空調(diào)
- ·2025樂劃鎖屏內(nèi)容大賞正式開啟 40萬獎(jiǎng)金征集“推窗時(shí)刻”
- ·影像游戲雙在線!OPPO Reno15搭配天璣8450:次旗艦全能體驗(yàn)天花板
- ·傳字節(jié)旗下番茄系2024年收入超300億 回應(yīng):數(shù)據(jù)不實(shí)
- ·中國智能門鎖雙11冷清 線上銷量大跌25.8% 均價(jià)驟降442元
- ·安卓次旗艦性能榜出爐:聯(lián)發(fā)科天璣8系霸榜 高通僅一顆獨(dú)苗
- ·親民才是硬道理!7.1萬起售的五菱星光730上市12天交付破萬臺(tái)
- ·菊香濃郁:徽春堂金絲皇菊約50朵5.9元包郵
- ·微軟謎之操作!Windows 11更新大翻車:PC游戲性能大幅暴降50%
- ·英偉達(dá)斥資20億美元投資新思科技 獲得約2.6%的股權(quán)
- ·影像游戲雙在線!OPPO Reno15搭配天璣8450:次旗艦全能體驗(yàn)天花板
- ·明年執(zhí)行!遛狗不拴繩將從違規(guī)升級(jí)為違法 最高拘10天罰1千:網(wǎng)友怒贊
- ·江湖又見!原極氪汽車CBO關(guān)海濤重回榮耀任職
- ·“大空頭”再度開火:稱特斯拉市值被“荒謬地高估”
- ·《瘋狂動(dòng)物城2》口碑不及前作
- ·華為無懼!國家鋰電標(biāo)準(zhǔn)化工作組回應(yīng)史上最嚴(yán)充電寶新規(guī):未定稿
- ·你會(huì)選哪種 理想i6欣旺達(dá)電池版提車周期大幅減少:還送額外延保
- ·羅永浩:萬元國產(chǎn)Hi
- ·專家回應(yīng)骨傳導(dǎo)耳機(jī)戴出頭暈失衡 這三類人群不建議佩戴
- ·99元傳家鍋閑魚掛牌500元轉(zhuǎn)賣 創(chuàng)始人:利潤只有幾塊錢
- ·電飯煲這4個(gè)地方不洗 當(dāng)心吃“蟑螂蒸飯”!
- ·京東官宣:數(shù)字人直播免費(fèi)向所有商家開放!可7×24小時(shí)直播
- ·新簽100架 國內(nèi)全傾轉(zhuǎn)eVTOL“頭號(hào)玩家“華羽先翔再獲訂單
- ·全球存儲(chǔ)芯片缺貨:國際巨頭優(yōu)先保供北美策略下引發(fā)供應(yīng)鏈?zhǔn)Ш?/a>
- ·新簽100架 國內(nèi)全傾轉(zhuǎn)eVTOL“頭號(hào)玩家“華羽先翔再獲訂單
- ·英偉達(dá):20億美元認(rèn)購新思科技,將擴(kuò)大戰(zhàn)略合作
- ·傳字節(jié)旗下番茄系2024年收入超300億 回應(yīng):數(shù)據(jù)不實(shí)
- ·微信公眾號(hào)測(cè)試“付費(fèi)加熱”功能:可為文章付費(fèi)投流
- ·明年執(zhí)行!遛狗不拴繩將從違規(guī)升級(jí)為違法 最高拘10天罰1千:網(wǎng)友怒贊
- ·2026年“歡樂春節(jié)”吉祥物“吉祥馬”發(fā)布
- ·啄木鳥集團(tuán)旗艦店:加絨加厚休閑棉衣99元發(fā)車(贈(zèng)退貨寶)
- ·3米看100吋怕“頭暈” 認(rèn)準(zhǔn)好屏幕,看劇、打游戲都穩(wěn)
- ·七彩虹無線顯卡來了!iGame RTX 50 Ultra Z系列正式開售:首發(fā)2799元起
- ·性能提升10%!電腦主板一鍵D5內(nèi)存優(yōu)化開啟指南
- ·從“取景地”到“主辦地” 三亞與海影節(jié)“雙向奔赴”
- ·豆包手機(jī)普遍溢價(jià)超700元,驍龍8至尊版提供端側(cè)AI算力
- ·iPhone 17系列賣爆 蘋果將超越三星成為行業(yè)第一
