當(dāng)前位置：首頁 > 探索 > 商湯開源NEO多模態(tài)模型架構(gòu)，實(shí)現(xiàn)視覺、語言深層統(tǒng)一正文

商湯開源NEO多模態(tài)模型架構(gòu)，實(shí)現(xiàn)視覺、語言深層統(tǒng)一

時(shí)間：2025-12-02 21:34:42 來源：企業(yè)錄(www.qy6.com)-公司信息發(fā)布,網(wǎng)上買賣交易門戶

　　新浪科技訊 12月2日下午消息，商湯實(shí)現(xiàn)視覺深層商湯科技發(fā)布并開源了與南洋理工大學(xué) S-Lab合作研發(fā)的開源全新多模態(tài)模型架構(gòu)——NEO，宣布從底層原理出發(fā)打破傳統(tǒng)“模塊化”范式的模態(tài)模型桎梏，通過核心架構(gòu)層面的架構(gòu)多模態(tài)深層融合，實(shí)現(xiàn)視覺和語言的商湯實(shí)現(xiàn)視覺深層深層統(tǒng)一，并在性能、開源效率和通用性上帶來整體突破。模態(tài)模型

　　據(jù)悉，架構(gòu)在架構(gòu)創(chuàng)新的商湯實(shí)現(xiàn)視覺深層驅(qū)動(dòng)下，NEO展現(xiàn)了極高的開源數(shù)據(jù)效率——僅需業(yè)界同等性能模型1/10的數(shù)據(jù)量（3.9億圖像文本示例），便能開發(fā)出頂尖的模態(tài)模型視覺感知能力。無需依賴海量數(shù)據(jù)及額外視覺編碼器，架構(gòu)其簡潔的商湯實(shí)現(xiàn)視覺深層架構(gòu)便能在多項(xiàng)視覺理解任務(wù)中追平Qwen2-VL、InternVL3 等頂級(jí)模塊化旗艦?zāi)Ｐ?。開源

　　此外，模態(tài)模型NEO還具備性能卓越且均衡的優(yōu)勢(shì)，在MMMU、MMB、MMStar、SEED-I、POPE等多項(xiàng)公開權(quán)威評(píng)測(cè)中，NEO架構(gòu)均斬獲高分，優(yōu)于其他原生VLM綜合性能，真正實(shí)現(xiàn)了原生架構(gòu)“精度無損”。

　　當(dāng)前，業(yè)內(nèi)主流的多模態(tài)模型大多遵循“視覺編碼器+投影器+語言模型”的模塊化范式。這種基于大語言模型（LLM）的擴(kuò)展方式，雖然實(shí)現(xiàn)了圖像輸入的兼容，但本質(zhì)上仍以語言為中心，圖像與語言的融合僅停留在數(shù)據(jù)層面。這種“拼湊”式的設(shè)計(jì)不僅學(xué)習(xí)效率低下，更限制了模型在復(fù)雜多模態(tài)場(chǎng)景下（比如涉及圖像細(xì)節(jié)捕捉或復(fù)雜空間結(jié)構(gòu)理解）的處理能力。

　　而NEO架構(gòu)則通過在注意力機(jī)制、位置編碼和語義映射三個(gè)關(guān)鍵維度的底層創(chuàng)新，讓模型天生具備了統(tǒng)一處理視覺與語言的能力。

　　具體而言，在原生圖塊嵌入（Native Patch Embedding）方面，這一架構(gòu)摒棄了離散的圖像tokenizer，通過獨(dú)創(chuàng)的Patch Embedding Layer （PEL）自底向上構(gòu)建從像素到詞元的連續(xù)映射。這種設(shè)計(jì)能更精細(xì)地捕捉圖像細(xì)節(jié)，從根本上突破了主流模型的圖像建模瓶頸。

　　在原生多頭注意力（Native Multi-Head Attention）方面，針對(duì)不同模態(tài)特點(diǎn)，NEO在統(tǒng)一框架下實(shí)現(xiàn)了文本token的自回歸注意力和視覺token的雙向注意力并存。這種設(shè)計(jì)極大地提升了模型對(duì)空間結(jié)構(gòu)關(guān)聯(lián)的利用率，從而更好地支撐復(fù)雜的圖文混合理解與推理。（文猛）

海量資訊、精準(zhǔn)解讀，盡在新浪財(cái)經(jīng)APP

責(zé)任編輯：何俊熹

HKC領(lǐng)航M8 QD

新加坡國家AI計(jì)劃倒向中國大模型棄用Meta轉(zhuǎn)投阿里千問

衛(wèi)星俯瞰中國最后一個(gè)通公路的縣：西藏墨脫

馬斯克稱其能超越獵鷹民營可回收火箭朱雀三號(hào)發(fā)射推遲：藍(lán)箭回應(yīng)

專家回應(yīng)骨傳導(dǎo)耳機(jī)戴出頭暈失衡這三類人群不建議佩戴

安卓新病毒Sturnus來襲！偽裝成Chrome讀取屏幕內(nèi)容、密碼

迪士尼超人氣續(xù)作《瘋狂動(dòng)物城2》中國內(nèi)地上映爛番茄新鮮度93％

胖東來小方糖戒指爆火售價(jià)169元即將售罄顧客：為了好看買的看不出和鉆戒的區(qū)別

挑戰(zhàn)漠河極寒天氣！盧偉冰宣布2025年米家空調(diào)冬測(cè)開啟：涵蓋掛機(jī)、柜機(jī)、中央空調(diào)

上一篇：特朗普證實(shí)：已與馬杜羅通話
下一篇：讓AI擁有操作系統(tǒng)級(jí)權(quán)限！字節(jié)跳動(dòng)攜手中興通訊試水AI手機(jī)

相關(guān)內(nèi)容

·2025樂劃鎖屏內(nèi)容大賞正式開啟 40萬獎(jiǎng)金征集“推窗時(shí)刻”
·影像游戲雙在線！OPPO Reno15搭配天璣8450：次旗艦全能體驗(yàn)天花板
·傳字節(jié)旗下番茄系2024年收入超300億回應(yīng)：數(shù)據(jù)不實(shí)
·中國智能門鎖雙11冷清線上銷量大跌25.8% 均價(jià)驟降442元
·安卓次旗艦性能榜出爐：聯(lián)發(fā)科天璣8系霸榜高通僅一顆獨(dú)苗
·親民才是硬道理！7.1萬起售的五菱星光730上市12天交付破萬臺(tái)
·菊香濃郁：徽春堂金絲皇菊約50朵5.9元包郵
·微軟謎之操作！Windows 11更新大翻車：PC游戲性能大幅暴降50%
·英偉達(dá)斥資20億美元投資新思科技獲得約2.6%的股權(quán)
·影像游戲雙在線！OPPO Reno15搭配天璣8450：次旗艦全能體驗(yàn)天花板
·明年執(zhí)行！遛狗不拴繩將從違規(guī)升級(jí)為違法最高拘10天罰1千：網(wǎng)友怒贊
·江湖又見！原極氪汽車CBO關(guān)海濤重回榮耀任職
·“大空頭”再度開火：稱特斯拉市值被“荒謬地高估”
·《瘋狂動(dòng)物城2》口碑不及前作
·華為無懼！國家鋰電標(biāo)準(zhǔn)化工作組回應(yīng)史上最嚴(yán)充電寶新規(guī)：未定稿
·你會(huì)選哪種理想i6欣旺達(dá)電池版提車周期大幅減少：還送額外延保

亚洲精品三,久久久久欧美,日本九九热,久久久鲁,天堂一区,天堂精品久久,亚洲久久

商湯開源NEO多模態(tài)模型架構(gòu)，實(shí)現(xiàn)視覺、語言深層統(tǒng)一

商湯開源NEO多模態(tài)模型架構(gòu)，實(shí)現(xiàn)視覺、語言深層統(tǒng)一