亚洲精品三,久久久久欧美,日本九九热,久久久鲁,天堂一区,天堂精品久久,亚洲久久

商湯開源NEO多模態(tài)模型架構(gòu),實(shí)現(xiàn)視覺、語言深層統(tǒng)一

  新浪科技訊 12月2日下午消息,商湯實(shí)現(xiàn)視覺深層商湯科技發(fā)布并開源了與南洋理工大學(xué) S-Lab合作研發(fā)的開源全新多模態(tài)模型架構(gòu)——NEO,宣布從底層原理出發(fā)打破傳統(tǒng)“模塊化”范式的模態(tài)模型桎梏,通過核心架構(gòu)層面的架構(gòu)多模態(tài)深層融合,實(shí)現(xiàn)視覺和語言的商湯實(shí)現(xiàn)視覺深層深層統(tǒng)一,并在性能、開源效率和通用性上帶來整體突破。模態(tài)模型

  據(jù)悉,架構(gòu)在架構(gòu)創(chuàng)新的商湯實(shí)現(xiàn)視覺深層驅(qū)動(dòng)下,NEO展現(xiàn)了極高的開源數(shù)據(jù)效率——僅需業(yè)界同等性能模型1/10的數(shù)據(jù)量(3.9億圖像文本示例),便能開發(fā)出頂尖的模態(tài)模型視覺感知能力。無需依賴海量數(shù)據(jù)及額外視覺編碼器,架構(gòu)其簡潔的商湯實(shí)現(xiàn)視覺深層架構(gòu)便能在多項(xiàng)視覺理解任務(wù)中追平Qwen2-VL、InternVL3 等頂級(jí)模塊化旗艦?zāi)P?。開源

  此外,模態(tài)模型NEO還具備性能卓越且均衡的優(yōu)勢(shì),在MMMU、MMB、MMStar、SEED-I、POPE等多項(xiàng)公開權(quán)威評(píng)測(cè)中,NEO架構(gòu)均斬獲高分,優(yōu)于其他原生VLM綜合性能,真正實(shí)現(xiàn)了原生架構(gòu)“精度無損”。

  當(dāng)前,業(yè)內(nèi)主流的多模態(tài)模型大多遵循“視覺編碼器+投影器+語言模型”的模塊化范式。這種基于大語言模型(LLM)的擴(kuò)展方式,雖然實(shí)現(xiàn)了圖像輸入的兼容,但本質(zhì)上仍以語言為中心,圖像與語言的融合僅停留在數(shù)據(jù)層面。這種“拼湊”式的設(shè)計(jì)不僅學(xué)習(xí)效率低下,更限制了模型在復(fù)雜多模態(tài)場(chǎng)景下(比如涉及圖像細(xì)節(jié)捕捉或復(fù)雜空間結(jié)構(gòu)理解)的處理能力。

  而NEO架構(gòu)則通過在注意力機(jī)制、位置編碼和語義映射三個(gè)關(guān)鍵維度的底層創(chuàng)新,讓模型天生具備了統(tǒng)一處理視覺與語言的能力。

  具體而言,在原生圖塊嵌入(Native Patch Embedding)方面,這一架構(gòu)摒棄了離散的圖像tokenizer,通過獨(dú)創(chuàng)的Patch Embedding Layer (PEL)自底向上構(gòu)建從像素到詞元的連續(xù)映射。這種設(shè)計(jì)能更精細(xì)地捕捉圖像細(xì)節(jié),從根本上突破了主流模型的圖像建模瓶頸。

  在原生多頭注意力 (Native Multi-Head Attention)方面,針對(duì)不同模態(tài)特點(diǎn),NEO在統(tǒng)一框架下實(shí)現(xiàn)了文本token的自回歸注意力和視覺token的雙向注意力并存。這種設(shè)計(jì)極大地提升了模型對(duì)空間結(jié)構(gòu)關(guān)聯(lián)的利用率,從而更好地支撐復(fù)雜的圖文混合理解與推理。(文猛)

海量資訊、精準(zhǔn)解讀,盡在新浪財(cái)經(jīng)APP

責(zé)任編輯:何俊熹

推薦內(nèi)容
兰考县| 靖安县| 巧家县| 凤冈县| 岫岩| 湾仔区| 汉源县| 拉萨市| 吴旗县| 深泽县| 汪清县| 阳泉市| 常宁市| 吉安市| 沐川县| 通江县| 宁津县| 宽甸| 宜黄县| 沈丘县| 新津县| 抚顺县| 南和县| 荆门市| 巴中市| 南京市| 论坛| 延吉市| 台湾省| 隆尧县| 揭东县| 延庆县| 通辽市| 乾安县| 麟游县| 沾化县| 呼伦贝尔市| 从江县| 剑阁县| 延寿县| 达孜县|