更懂你的AI伙伴!科大訊飛發(fā)布多模態(tài)超擬人交互
在2025年科大訊飛全球1024開發(fā)者節(jié)的更懂現(xiàn)場,數(shù)字人“小飛”正與三人暢聊。大訊TA會聽能看,伙互記得住對話人的伴科布多身份、歷史信息并給出貼心提醒,模態(tài)觀察細節(jié)之后能給出詳細的超擬信息介紹與位置導(dǎo)覽,甚至一鍵幫忙訂票;TA能說會道,人交高情商回復(fù)既自然又靈動,更懂還能用外語和外國朋友談天說地。大訊TA還化身為數(shù)字人林黛玉,伙互形象清麗、伴科布多語氣惟妙惟肖。模態(tài)
特別是超擬在多人聊天時,“小飛”還能理解和分辨到底是人交在和自己對話,還是更懂多人之間相互聊天,從而判斷是否接話和插話。
這一系列流暢、自然且充滿“人情味”的互動,標志著多模態(tài)超擬人交互技術(shù)已從概念探索邁入可用、好用的新階段。
這一前沿技術(shù)展示的背后,離不開堅實的技術(shù)積淀與產(chǎn)業(yè)共識的支撐。就在不久前,國際電信聯(lián)盟(ITU-T SG21)在瑞士日內(nèi)瓦召開全體會議,由科大訊飛與中國信通院共同參與編輯的兩項數(shù)字人國際標準——ITU-T F.748.63(基礎(chǔ)模型增強的數(shù)字人系統(tǒng)框架及通用技術(shù)要求)與ITU-T F.748.64(數(shù)字人服務(wù)平臺要求)——順利通過結(jié)項,計劃于2026年正式發(fā)布。這意味著,推動產(chǎn)業(yè)發(fā)展的技術(shù)實踐,正在凝聚成全球公認的規(guī)范。
一、技術(shù)內(nèi)核:多模態(tài)超擬人交互,讓“更懂你”
“小飛”所展現(xiàn)的驚艷體驗,源于其在感知、認知與表達三大層面的技術(shù)協(xié)同突破。
在信息感知層面,系統(tǒng)具備了“耳聰目明”的能力。此次展示的多模態(tài)交互系統(tǒng)具備5米0dB遠場高噪語音識別能力,在嘈雜環(huán)境中也能精準識別,更加貼合真實的使用和交互場景?;诙嗄B(tài)語音增強技術(shù),系統(tǒng)能融合語音、人臉、姿態(tài)等信息,結(jié)合說話人站位鎖定多人對話中的目標,實現(xiàn)音頻與說話人的綁定,攻克了多人高噪場景下的識別難題。同時,訊飛創(chuàng)新性地提出說話人引導(dǎo)的注意力增強方案,實現(xiàn)對交互區(qū)域的細粒度視覺信息感知,讓視覺信息更加準確;進一步提出局部檢索增強技術(shù),通過視覺思維鏈提取局部關(guān)鍵區(qū)域,實現(xiàn)遠場條件下的局部物體檢索增強識別。
在認知與理解層面,數(shù)字人開始“讀懂心意”。多人交互理解技術(shù)融合對話歷史、語音活動狀態(tài)等信息,加強了模型對多人復(fù)雜場景的理解能力,更好地把握和用戶的交互時機,以及交互意圖的精準判斷,實現(xiàn)了響應(yīng)速度和響應(yīng)質(zhì)量的平衡,既不“搶答”也不“亂答”。另外,多模態(tài)交互系統(tǒng)能夠?qū)崿F(xiàn)分鐘級情感解析、深度共情,讀懂對話人的真實心緒,回應(yīng)“心領(lǐng)神會”的默契瞬間。
在表達與輸出層面,交互變得更有溫度。超擬人數(shù)字人能通過多模態(tài)前端定位說話人方位,像真人一樣能視線跟隨看向當前交互的對象,增強交互的真實感;數(shù)字人的回復(fù)也更加自然、共情,得益于多情感語音合成技術(shù)創(chuàng)新性研發(fā)了多輪上下文信息建模方案,能夠?qū)φZ音交互中的歷史多輪QA音頻和文本進行編碼、感知對話人的情感變化,再通過語音合成大模型的自適應(yīng)情感合成能力,讓數(shù)字人的回復(fù)合成聲音情緒語氣隨之變化,給出恰當?shù)那楦谢貞?yīng),在聲音的自然度、情感表達、節(jié)奏停頓等細節(jié)上表現(xiàn)更好,尤其是在多輪交互中的效果提升顯著。
值得一提的是,此次發(fā)布會上首發(fā)的個性化記憶能力也加入了超擬人交互系統(tǒng),通過分層式動態(tài)記憶體架構(gòu),實現(xiàn)了長短期協(xié)同的精準用戶記憶。結(jié)構(gòu)化推理方案的設(shè)計,確保了模型在個性化任務(wù)中進行嚴謹?shù)倪壿嬐评?;借助強化學習在對齊用戶個人偏好上持續(xù)優(yōu)化,實現(xiàn)了從“內(nèi)容個性化”到“溝通風格個性化”的進化,增強了多模態(tài)交互的個性化回復(fù)能力。
二、標準筑基:從技術(shù)實踐到國際規(guī)范制定
技術(shù)上的領(lǐng)跑為規(guī)則制定提供了關(guān)鍵依據(jù)。此次科大訊飛能夠主導(dǎo)國際標準的制定,離不開它在人工智能領(lǐng)域長期的技術(shù)積累和廣泛的產(chǎn)品應(yīng)用。
科大訊飛自主研發(fā)的星火大模型為數(shù)字人提供了深層的認知理解基礎(chǔ),而在語音、自然語言處理等領(lǐng)域的全棧式AI技術(shù)積累,則為實現(xiàn)自然流暢的人機交互奠定了基石。此前,科大訊飛的AI虛擬人交互平臺通過了中國信通院人工智能研究所組織的大模型數(shù)字人基礎(chǔ)能力分級測試,并獲得最高等級L5認證,也進一步證明了訊飛AI虛擬人交互平臺技術(shù)方案的先進性與成熟度。這些扎實且經(jīng)過市場檢驗的技術(shù)能力,為其參與國際標準討論與制定提供了重要依據(jù),也將中國的技術(shù)實踐融入了全球數(shù)字人產(chǎn)業(yè)發(fā)展的藍圖。
三、場景落地:雙平臺驅(qū)動產(chǎn)業(yè)智能應(yīng)用
技術(shù)的終極價值在于應(yīng)用。科大訊飛通過訊飛智作與訊飛AI虛擬人交互平臺,將前沿技術(shù)轉(zhuǎn)化為可規(guī)模落地的產(chǎn)品與服務(wù)。
訊飛智作作為一站式虛擬人音視頻內(nèi)容生產(chǎn)平臺,不僅提供豐富多元的形象與聲音,還支持僅憑一張照片、一句話快速生成專屬數(shù)字人,目前已構(gòu)建超10萬數(shù)字分身,500萬的聲音復(fù)刻,廣泛賦能教培、金融、文旅、政企等多個業(yè)務(wù)領(lǐng)域。
訊飛AI虛擬人交互平臺則聚焦全棧式虛擬人多場景應(yīng)用服務(wù),讓數(shù)字IP不僅“動起來”,更能“交互起來”。平臺支持零代碼快速嵌入小程序、導(dǎo)游機等終端,更提供智能交互機、移動數(shù)字人、AI 虛擬人直播機等軟硬一體化方案,同時通過終端 SDK、服務(wù)端 API、公有云 API 及私有化部署等靈活接入方式,可適配 APP、Web、小程序等多種產(chǎn)品形態(tài)。
從多模態(tài)超擬人交互的技術(shù)突破,到參與國際標準制定的能力認證,再到雙平臺推動的產(chǎn)業(yè)賦能,科大訊飛在數(shù)字人領(lǐng)域形成了從技術(shù)到市場、從實踐到標準的閉環(huán)。未來,隨著“AI+行業(yè)”的持續(xù)深入,更智能、更自然的數(shù)字人有望在更多領(lǐng)域成為人類的智能伙伴。我們也將繼續(xù)在多模態(tài)超擬人交互技術(shù)上踏實前行、持續(xù)進階,不斷帶來新的驚喜。
#訊飛智作 #訊飛AI虛擬人交互平臺 #數(shù)字人 #多模態(tài)超擬人交互 #科大訊飛
-
德國大眾:在中國制造汽車 可將電動車開發(fā)成本減半聯(lián)想官微:Air別亂叫!moto X70 Air不到6mm/160g才是真Air首個、首座、首次!本周,中國硬核實力再刷屏張楚玲獲跆拳道世錦賽女子53公斤級銅牌韓國元老級演員李順載去世 曾出演《搞笑一家人》(經(jīng)濟觀察)中國“村超”“蘇超”破圈傳播 撬動地方經(jīng)濟臺當局以“設(shè)籍大陸”廢止50人戶籍 臺青斥其恐嚇愛國臺胞PC玩家徹底麻了!《GTA6》再延期PC版要等到2028年嗎Win11更新致游戲性能暴跌:N卡驅(qū)動猛漲50%性能 A/I還得等新能源綠牌用“UV燈”照射后能變白牌 網(wǎng)友:帥 但蜀黍不認
- ·李斌:有信心實現(xiàn)四季度盈利 蔚來高毛利車型訂單非常強勁
- ·“低GI”成食品熱門標簽,是“智商稅”嗎?
- ·全國常青保齡球友誼賽開賽
- ·(文化中國行)千年宋陵四季“走紅”背后:歷史和農(nóng)耕“活態(tài)”共生
- ·672輛純電公交因電池故障、衰減停運!東莞最大公交公司起訴賣家:賠4.31億
- ·AI是優(yōu)秀的“作者”,寫的論文很優(yōu)質(zhì)?丨中新真探
- ·直接下載:Windows 11/10正式版官方原版鏡像!(24H2)
- ·中新電競對話無畏——無非就是勝利或者失敗
- ·HUAWEI Mate系列全新發(fā)布!超能小藝實力破圈,有事輕松搞定
- ·OPPO第三季度逆襲增長:在中高端手機市場穩(wěn)居首位
- ·首個、首座、首次!本周,中國硬核實力再刷屏
- ·扎根中國,美企在進博會作出長期承諾
- ·就算明天王國爆炸了 今天也先躺平吧!超解壓《嘟嘟臉惡作劇》正式定檔12月18!
- ·中國將派出百余名運動員參加東京夏季聽障奧運會
- ·“低GI”成食品熱門標簽,是“智商稅”嗎?
- ·小薩馬蘭奇擔任形象大使 2025上海中心高塔競速挑戰(zhàn)賽將于11月開賽
- ·韓國男教練為女運動員裹毛毯引網(wǎng)友爭議 女方皺眉推開:太邪惡了
- ·廣交會遇上十五運會,大灣區(qū)燃動雙重活力
- ·華為Mate70 Air首次可選CPU:麒麟9020A、麒麟9020B有何區(qū)別 官方客服回應(yīng)
- ·未來三天可能出現(xiàn)地磁暴!有哪些影響?
- ·首款鴻蒙全場景獨家游戲《太吾繪卷》官宣!華為Mate X7定義跨端游戲新范式
- ·中日韓圍棋精英邀請賽貴陽開賽 16名頂尖職業(yè)棋手參賽
- ·就要改寫馬拉松歷史的他,離開了這個世界
- ·中越跨境生態(tài)廊道重塑 催熱觀鳥潮
- ·品質(zhì)不妥協(xié) 藍戟B580 Photon的誠意之作
- ·盧偉冰德國不限速高速試駕小米SU7!最高飆至260km/h 依然非常穩(wěn)
