超越英偉達(dá)、谷歌!騰訊KaLM
11月12日消息,英偉今日,達(dá)谷“騰訊開源”微信公眾號(hào)宣布,歌騰來自騰訊微信團(tuán)隊(duì)的英偉KaLM-Embedding開源模型再創(chuàng)全球新紀(jì)錄。
在最新發(fā)布的達(dá)谷MTEB多語言通用Embedding模型權(quán)威評(píng)測中,新一代通用Embedding模型KaLM-Embedding-Gemma3-12B-2511綜合成績?nèi)虻谝?。歌騰
據(jù)介紹,英偉在涵蓋全球1038種語言、達(dá)谷共計(jì)131項(xiàng)任務(wù)的歌騰權(quán)威多語言評(píng)測體系MTEB中,KaLM-Embedding-Gemma3-12B-2511綜合得分分別達(dá)到 72.32(Mean Task)與62.51(Mean TaskType),英偉斬獲全球第一。達(dá)谷
超越包括英偉達(dá)nvidia/llama-embed-nemotron-8b、歌騰阿里Qwen/Qwen3-Embedding-8B、英偉谷歌Google/gemini-embedding-001等國內(nèi)外主流開源與閉源競品。達(dá)谷
KaLM-Embedding-Gemma3-12B-2511核心亮點(diǎn)解析
模型規(guī)模:參數(shù)量提升至120億(12B),歌騰是當(dāng)前MTEB榜單上最大規(guī)模的Embedding模型之一,顯著增強(qiáng)了模型的表示能力與泛化性能。
跨語言能力:在多語言語義對齊方面實(shí)現(xiàn)顯著優(yōu)化,支持更精準(zhǔn)的跨語種語義理解與檢索任務(wù)。
數(shù)據(jù)質(zhì)量:基于經(jīng)過深度清洗與篩選的大規(guī)模高質(zhì)量語料進(jìn)行訓(xùn)練,有效提升語義表示的一致性與可靠性。
訓(xùn)練策略:采用多階段對比學(xué)習(xí)、Embedding蒸餾和模型參數(shù)融合等技術(shù),進(jìn)一步提升模型多維度能力表現(xiàn)與綜合性能。
維度嵌套:支持多種向量維度選擇,涵蓋3840、2048、1024、512、256、128及64等多個(gè)層級(jí),滿足不同場景下的高效應(yīng)用需求。