亚洲精品三,久久久久欧美,日本九九热,久久久鲁,天堂一区,天堂精品久久,亚洲久久

更懂你的AI伙伴!科大訊飛發(fā)布多模態(tài)超擬人交互

在2025年科大訊飛全球1024開發(fā)者節(jié)的更懂現(xiàn)場,數(shù)字人“小飛”正與三人暢聊。大訊TA會聽能看,伙互記得住對話人的伴科布多身份、歷史信息并給出貼心提醒,模態(tài)觀察細節(jié)之后能給出詳細的超擬信息介紹與位置導(dǎo)覽,甚至一鍵幫忙訂票;TA能說會道,人交高情商回復(fù)既自然又靈動,更懂還能用外語和外國朋友談天說地。大訊TA還化身為數(shù)字人林黛玉,伙互形象清麗、伴科布多語氣惟妙惟肖。模態(tài)

特別是超擬在多人聊天時,“小飛”還能理解和分辨到底是人交在和自己對話,還是更懂多人之間相互聊天,從而判斷是否接話和插話。

這一系列流暢、自然且充滿“人情味”的互動,標志著多模態(tài)超擬人交互技術(shù)已從概念探索邁入可用、好用的新階段。

這一前沿技術(shù)展示的背后,離不開堅實的技術(shù)積淀與產(chǎn)業(yè)共識的支撐。就在不久前,國際電信聯(lián)盟(ITU-T SG21)在瑞士日內(nèi)瓦召開全體會議,由科大訊飛與中國信通院共同參與編輯的兩項數(shù)字人國際標準——ITU-T F.748.63(基礎(chǔ)模型增強的數(shù)字人系統(tǒng)框架及通用技術(shù)要求)與ITU-T F.748.64(數(shù)字人服務(wù)平臺要求)——順利通過結(jié)項,計劃于2026年正式發(fā)布。這意味著,推動產(chǎn)業(yè)發(fā)展的技術(shù)實踐,正在凝聚成全球公認的規(guī)范。

一、技術(shù)內(nèi)核:多模態(tài)超擬人交互,讓“更懂你”

“小飛”所展現(xiàn)的驚艷體驗,源于其在感知、認知與表達三大層面的技術(shù)協(xié)同突破。

信息感知層面,系統(tǒng)具備了“耳聰目明”的能力。此次展示的多模態(tài)交互系統(tǒng)具備5米0dB遠場高噪語音識別能力,在嘈雜環(huán)境中也能精準識別,更加貼合真實的使用和交互場景?;诙嗄B(tài)語音增強技術(shù),系統(tǒng)能融合語音、人臉、姿態(tài)等信息,結(jié)合說話人站位鎖定多人對話中的目標,實現(xiàn)音頻與說話人的綁定,攻克了多人高噪場景下的識別難題。同時,訊飛創(chuàng)新性地提出說話人引導(dǎo)的注意力增強方案,實現(xiàn)對交互區(qū)域的細粒度視覺信息感知,讓視覺信息更加準確;進一步提出局部檢索增強技術(shù),通過視覺思維鏈提取局部關(guān)鍵區(qū)域,實現(xiàn)遠場條件下的局部物體檢索增強識別。

認知與理解層面,數(shù)字人開始“讀懂心意”。多人交互理解技術(shù)融合對話歷史、語音活動狀態(tài)等信息,加強了模型對多人復(fù)雜場景的理解能力,更好地把握和用戶的交互時機,以及交互意圖的精準判斷,實現(xiàn)了響應(yīng)速度和響應(yīng)質(zhì)量的平衡,既不“搶答”也不“亂答”。另外,多模態(tài)交互系統(tǒng)能夠?qū)崿F(xiàn)分鐘級情感解析、深度共情,讀懂對話人的真實心緒,回應(yīng)“心領(lǐng)神會”的默契瞬間。

表達與輸出層面,交互變得更有溫度。超擬人數(shù)字人能通過多模態(tài)前端定位說話人方位,像真人一樣能視線跟隨看向當前交互的對象,增強交互的真實感;數(shù)字人的回復(fù)也更加自然、共情,得益于多情感語音合成技術(shù)創(chuàng)新性研發(fā)了多輪上下文信息建模方案,能夠?qū)φZ音交互中的歷史多輪QA音頻和文本進行編碼、感知對話人的情感變化,再通過語音合成大模型的自適應(yīng)情感合成能力,讓數(shù)字人的回復(fù)合成聲音情緒語氣隨之變化,給出恰當?shù)那楦谢貞?yīng),在聲音的自然度、情感表達、節(jié)奏停頓等細節(jié)上表現(xiàn)更好,尤其是在多輪交互中的效果提升顯著。

值得一提的是,此次發(fā)布會上首發(fā)的個性化記憶能力也加入了超擬人交互系統(tǒng),通過分層式動態(tài)記憶體架構(gòu),實現(xiàn)了長短期協(xié)同的精準用戶記憶。結(jié)構(gòu)化推理方案的設(shè)計,確保了模型在個性化任務(wù)中進行嚴謹?shù)倪壿嬐评?;借助強化學習在對齊用戶個人偏好上持續(xù)優(yōu)化,實現(xiàn)了從“內(nèi)容個性化”到“溝通風格個性化”的進化,增強了多模態(tài)交互的個性化回復(fù)能力。

二、標準筑基:從技術(shù)實踐到國際規(guī)范制定

技術(shù)上的領(lǐng)跑為規(guī)則制定提供了關(guān)鍵依據(jù)。此次科大訊飛能夠主導(dǎo)國際標準的制定,離不開它在人工智能領(lǐng)域長期的技術(shù)積累和廣泛的產(chǎn)品應(yīng)用。

科大訊飛自主研發(fā)的星火大模型為數(shù)字人提供了深層的認知理解基礎(chǔ),而在語音、自然語言處理等領(lǐng)域的全棧式AI技術(shù)積累,則為實現(xiàn)自然流暢的人機交互奠定了基石。此前,科大訊飛的AI虛擬人交互平臺通過了中國信通院人工智能研究所組織的大模型數(shù)字人基礎(chǔ)能力分級測試,并獲得最高等級L5認證,也進一步證明了訊飛AI虛擬人交互平臺技術(shù)方案的先進性與成熟度。這些扎實且經(jīng)過市場檢驗的技術(shù)能力,為其參與國際標準討論與制定提供了重要依據(jù),也將中國的技術(shù)實踐融入了全球數(shù)字人產(chǎn)業(yè)發(fā)展的藍圖。

三、場景落地:雙平臺驅(qū)動產(chǎn)業(yè)智能應(yīng)用

技術(shù)的終極價值在于應(yīng)用。科大訊飛通過訊飛智作訊飛AI虛擬人交互平臺,將前沿技術(shù)轉(zhuǎn)化為可規(guī)模落地的產(chǎn)品與服務(wù)。

訊飛智作作為一站式虛擬人音視頻內(nèi)容生產(chǎn)平臺,不僅提供豐富多元的形象與聲音,還支持僅憑一張照片、一句話快速生成專屬數(shù)字人,目前已構(gòu)建超10萬數(shù)字分身,500萬的聲音復(fù)刻,廣泛賦能教培、金融、文旅、政企等多個業(yè)務(wù)領(lǐng)域。

訊飛AI虛擬人交互平臺則聚焦全棧式虛擬人多場景應(yīng)用服務(wù),讓數(shù)字IP不僅“動起來”,更能“交互起來”。平臺支持零代碼快速嵌入小程序、導(dǎo)游機等終端,更提供智能交互機、移動數(shù)字人、AI 虛擬人直播機等軟硬一體化方案,同時通過終端 SDK、服務(wù)端 API、公有云 API 及私有化部署等靈活接入方式,可適配 APP、Web、小程序等多種產(chǎn)品形態(tài)。

從多模態(tài)超擬人交互的技術(shù)突破,到參與國際標準制定的能力認證,再到雙平臺推動的產(chǎn)業(yè)賦能,科大訊飛在數(shù)字人領(lǐng)域形成了從技術(shù)到市場、從實踐到標準的閉環(huán)。未來,隨著“AI+行業(yè)”的持續(xù)深入,更智能、更自然的數(shù)字人有望在更多領(lǐng)域成為人類的智能伙伴。我們也將繼續(xù)在多模態(tài)超擬人交互技術(shù)上踏實前行、持續(xù)進階,不斷帶來新的驚喜。

#訊飛智作 #訊飛AI虛擬人交互平臺 #數(shù)字人 #多模態(tài)超擬人交互 #科大訊飛

推薦內(nèi)容
金沙县| 依兰县| 拜泉县| 辽阳县| 浮梁县| 曲周县| 开鲁县| 和顺县| 安多县| 巴东县| 图木舒克市| 安溪县| 治县。| 法库县| 中卫市| 江口县| 惠安县| 沙河市| 盱眙县| 平塘县| 鲜城| 松滋市| 双流县| 沐川县| 娄烦县| 定结县| 宁都县| 淮阳县| 甘孜县| 尉犁县| 榆林市| 收藏| 石棉县| 本溪市| 博湖县| 元氏县| 灵璧县| 宁远县| 青龙| 石林| 梅州市|