更懂你的AI伙伴!科大訊飛發(fā)布多模態(tài)超擬人交互
在2025年科大訊飛全球1024開發(fā)者節(jié)的更懂現(xiàn)場,數(shù)字人“小飛”正與三人暢聊。大訊TA會(huì)聽能看,伙互記得住對話人的伴科布多身份、歷史信息并給出貼心提醒,模態(tài)觀察細(xì)節(jié)之后能給出詳細(xì)的超擬信息介紹與位置導(dǎo)覽,甚至一鍵幫忙訂票;TA能說會(huì)道,人交高情商回復(fù)既自然又靈動(dòng),更懂還能用外語和外國朋友談天說地。大訊TA還化身為數(shù)字人林黛玉,伙互形象清麗、伴科布多語氣惟妙惟肖。模態(tài)
特別是超擬在多人聊天時(shí),“小飛”還能理解和分辨到底是人交在和自己對話,還是更懂多人之間相互聊天,從而判斷是否接話和插話。
這一系列流暢、自然且充滿“人情味”的互動(dòng),標(biāo)志著多模態(tài)超擬人交互技術(shù)已從概念探索邁入可用、好用的新階段。
這一前沿技術(shù)展示的背后,離不開堅(jiān)實(shí)的技術(shù)積淀與產(chǎn)業(yè)共識(shí)的支撐。就在不久前,國際電信聯(lián)盟(ITU-T SG21)在瑞士日內(nèi)瓦召開全體會(huì)議,由科大訊飛與中國信通院共同參與編輯的兩項(xiàng)數(shù)字人國際標(biāo)準(zhǔn)——ITU-T F.748.63(基礎(chǔ)模型增強(qiáng)的數(shù)字人系統(tǒng)框架及通用技術(shù)要求)與ITU-T F.748.64(數(shù)字人服務(wù)平臺(tái)要求)——順利通過結(jié)項(xiàng),計(jì)劃于2026年正式發(fā)布。這意味著,推動(dòng)產(chǎn)業(yè)發(fā)展的技術(shù)實(shí)踐,正在凝聚成全球公認(rèn)的規(guī)范。
一、技術(shù)內(nèi)核:多模態(tài)超擬人交互,讓“更懂你”
“小飛”所展現(xiàn)的驚艷體驗(yàn),源于其在感知、認(rèn)知與表達(dá)三大層面的技術(shù)協(xié)同突破。
在信息感知層面,系統(tǒng)具備了“耳聰目明”的能力。此次展示的多模態(tài)交互系統(tǒng)具備5米0dB遠(yuǎn)場高噪語音識(shí)別能力,在嘈雜環(huán)境中也能精準(zhǔn)識(shí)別,更加貼合真實(shí)的使用和交互場景?;诙嗄B(tài)語音增強(qiáng)技術(shù),系統(tǒng)能融合語音、人臉、姿態(tài)等信息,結(jié)合說話人站位鎖定多人對話中的目標(biāo),實(shí)現(xiàn)音頻與說話人的綁定,攻克了多人高噪場景下的識(shí)別難題。同時(shí),訊飛創(chuàng)新性地提出說話人引導(dǎo)的注意力增強(qiáng)方案,實(shí)現(xiàn)對交互區(qū)域的細(xì)粒度視覺信息感知,讓視覺信息更加準(zhǔn)確;進(jìn)一步提出局部檢索增強(qiáng)技術(shù),通過視覺思維鏈提取局部關(guān)鍵區(qū)域,實(shí)現(xiàn)遠(yuǎn)場條件下的局部物體檢索增強(qiáng)識(shí)別。
在認(rèn)知與理解層面,數(shù)字人開始“讀懂心意”。多人交互理解技術(shù)融合對話歷史、語音活動(dòng)狀態(tài)等信息,加強(qiáng)了模型對多人復(fù)雜場景的理解能力,更好地把握和用戶的交互時(shí)機(jī),以及交互意圖的精準(zhǔn)判斷,實(shí)現(xiàn)了響應(yīng)速度和響應(yīng)質(zhì)量的平衡,既不“搶答”也不“亂答”。另外,多模態(tài)交互系統(tǒng)能夠?qū)崿F(xiàn)分鐘級(jí)情感解析、深度共情,讀懂對話人的真實(shí)心緒,回應(yīng)“心領(lǐng)神會(huì)”的默契瞬間。
在表達(dá)與輸出層面,交互變得更有溫度。超擬人數(shù)字人能通過多模態(tài)前端定位說話人方位,像真人一樣能視線跟隨看向當(dāng)前交互的對象,增強(qiáng)交互的真實(shí)感;數(shù)字人的回復(fù)也更加自然、共情,得益于多情感語音合成技術(shù)創(chuàng)新性研發(fā)了多輪上下文信息建模方案,能夠?qū)φZ音交互中的歷史多輪QA音頻和文本進(jìn)行編碼、感知對話人的情感變化,再通過語音合成大模型的自適應(yīng)情感合成能力,讓數(shù)字人的回復(fù)合成聲音情緒語氣隨之變化,給出恰當(dāng)?shù)那楦谢貞?yīng),在聲音的自然度、情感表達(dá)、節(jié)奏停頓等細(xì)節(jié)上表現(xiàn)更好,尤其是在多輪交互中的效果提升顯著。
值得一提的是,此次發(fā)布會(huì)上首發(fā)的個(gè)性化記憶能力也加入了超擬人交互系統(tǒng),通過分層式動(dòng)態(tài)記憶體架構(gòu),實(shí)現(xiàn)了長短期協(xié)同的精準(zhǔn)用戶記憶。結(jié)構(gòu)化推理方案的設(shè)計(jì),確保了模型在個(gè)性化任務(wù)中進(jìn)行嚴(yán)謹(jǐn)?shù)倪壿嬐评恚唤柚鷱?qiáng)化學(xué)習(xí)在對齊用戶個(gè)人偏好上持續(xù)優(yōu)化,實(shí)現(xiàn)了從“內(nèi)容個(gè)性化”到“溝通風(fēng)格個(gè)性化”的進(jìn)化,增強(qiáng)了多模態(tài)交互的個(gè)性化回復(fù)能力。
二、標(biāo)準(zhǔn)筑基:從技術(shù)實(shí)踐到國際規(guī)范制定
技術(shù)上的領(lǐng)跑為規(guī)則制定提供了關(guān)鍵依據(jù)。此次科大訊飛能夠主導(dǎo)國際標(biāo)準(zhǔn)的制定,離不開它在人工智能領(lǐng)域長期的技術(shù)積累和廣泛的產(chǎn)品應(yīng)用。
科大訊飛自主研發(fā)的星火大模型為數(shù)字人提供了深層的認(rèn)知理解基礎(chǔ),而在語音、自然語言處理等領(lǐng)域的全棧式AI技術(shù)積累,則為實(shí)現(xiàn)自然流暢的人機(jī)交互奠定了基石。此前,科大訊飛的AI虛擬人交互平臺(tái)通過了中國信通院人工智能研究所組織的大模型數(shù)字人基礎(chǔ)能力分級(jí)測試,并獲得最高等級(jí)L5認(rèn)證,也進(jìn)一步證明了訊飛AI虛擬人交互平臺(tái)技術(shù)方案的先進(jìn)性與成熟度。這些扎實(shí)且經(jīng)過市場檢驗(yàn)的技術(shù)能力,為其參與國際標(biāo)準(zhǔn)討論與制定提供了重要依據(jù),也將中國的技術(shù)實(shí)踐融入了全球數(shù)字人產(chǎn)業(yè)發(fā)展的藍(lán)圖。
三、場景落地:雙平臺(tái)驅(qū)動(dòng)產(chǎn)業(yè)智能應(yīng)用
技術(shù)的終極價(jià)值在于應(yīng)用??拼笥嶏w通過訊飛智作與訊飛AI虛擬人交互平臺(tái),將前沿技術(shù)轉(zhuǎn)化為可規(guī)模落地的產(chǎn)品與服務(wù)。
訊飛智作作為一站式虛擬人音視頻內(nèi)容生產(chǎn)平臺(tái),不僅提供豐富多元的形象與聲音,還支持僅憑一張照片、一句話快速生成專屬數(shù)字人,目前已構(gòu)建超10萬數(shù)字分身,500萬的聲音復(fù)刻,廣泛賦能教培、金融、文旅、政企等多個(gè)業(yè)務(wù)領(lǐng)域。
訊飛AI虛擬人交互平臺(tái)則聚焦全棧式虛擬人多場景應(yīng)用服務(wù),讓數(shù)字IP不僅“動(dòng)起來”,更能“交互起來”。平臺(tái)支持零代碼快速嵌入小程序、導(dǎo)游機(jī)等終端,更提供智能交互機(jī)、移動(dòng)數(shù)字人、AI 虛擬人直播機(jī)等軟硬一體化方案,同時(shí)通過終端 SDK、服務(wù)端 API、公有云 API 及私有化部署等靈活接入方式,可適配 APP、Web、小程序等多種產(chǎn)品形態(tài)。
從多模態(tài)超擬人交互的技術(shù)突破,到參與國際標(biāo)準(zhǔn)制定的能力認(rèn)證,再到雙平臺(tái)推動(dòng)的產(chǎn)業(yè)賦能,科大訊飛在數(shù)字人領(lǐng)域形成了從技術(shù)到市場、從實(shí)踐到標(biāo)準(zhǔn)的閉環(huán)。未來,隨著“AI+行業(yè)”的持續(xù)深入,更智能、更自然的數(shù)字人有望在更多領(lǐng)域成為人類的智能伙伴。我們也將繼續(xù)在多模態(tài)超擬人交互技術(shù)上踏實(shí)前行、持續(xù)進(jìn)階,不斷帶來新的驚喜。
#訊飛智作 #訊飛AI虛擬人交互平臺(tái) #數(shù)字人 #多模態(tài)超擬人交互 #科大訊飛
-
原神電競酒店被米哈游告了!商標(biāo)侵權(quán):判賠35萬元上海交大教授稱中國人工作時(shí)間太長:必須多放假、給足加班費(fèi)刺激消費(fèi)網(wǎng)友質(zhì)疑淘寶“雙11霸屏廣告” 杭州市監(jiān):已收到舉報(bào)展開調(diào)查國產(chǎn)最豪華直板機(jī)!華為Mate80 RS配備雙長焦、雙層OLED服務(wù)器嚴(yán)重跟不上訂單增速 阿里CEO:3年內(nèi)不太可能有AI泡沫蘋果iOS 26.1正式版發(fā)布:新增液態(tài)玻璃透明度調(diào)節(jié)、鬧鐘要滑動(dòng)關(guān)閉中國已進(jìn)入呼吸道傳染病高發(fā)季 醫(yī)生提醒:切勿盲目使用抗生素Q3中國筆記本線上排名:聯(lián)想銷量/額雙第一!機(jī)械革命極致性價(jià)比崛起星閃音頻 開啟“真無損”非凡音質(zhì)哈立德·埃納尼當(dāng)選聯(lián)合國教科文組織總干事
- ·蔡磊今年首次直播用眼控打字 坦言自己生命只剩3到5年
- ·蘋果iOS 26.1正式版發(fā)布:新增液態(tài)玻璃透明度調(diào)節(jié)、鬧鐘要滑動(dòng)關(guān)閉
- ·凈利暴跌56% 市值2000億國內(nèi)晶圓代工二哥華虹回應(yīng)
- ·31.8萬起 新款享界S9開售2小時(shí)小定突破3000臺(tái)
- ·比亞迪標(biāo)普CSA評分一年增長20分 位列全球第一梯隊(duì)
- ·華為最美路由!華為路由X3 Pro日照金山即將發(fā)布:子母套裝1999元
- ·冬天,適合重逢,更適合相擁
- ·《暗黑破壞神4》國服12月12日上線 官方發(fā)話嚴(yán)打外掛、腳本
- ·首款鴻蒙全場景獨(dú)家游戲《太吾繪卷》官宣!華為Mate X7定義跨端游戲新范式
- ·30歲小伙長期熬夜誘發(fā)腦膜炎:智力退回3歲 生活不能自理
- ·等了十年 失去的我一定要拿回來!中國第一款自研3nm旗艦小米15S Pro首發(fā)評測
- ·200TB以上的SSD被AI捧紅了 PLC閃存蠢蠢欲動(dòng):扶我試試
- ·松延動(dòng)力完成2億元新融資,宣布近一個(gè)月融資超5億元
- ·人這一輩子,一定要去一趟進(jìn)博會(huì)!
- ·荒野求生女選手冷美人熬走80人 男選手:她真厲害
- ·50000年前的野牛尸體解凍后 頸肉被做成燉菜分食:很美味!
- ·英偉達(dá)股票暴跌超6% 市值較最高點(diǎn)跌去1萬億美元
- ·年輕人的第一輛純電轎跑!零跑Lafa5預(yù)售:10.58萬起
- ·京東、美團(tuán)等8家平臺(tái)企業(yè) 被市監(jiān)總局指導(dǎo)發(fā)起食品安全管理公約
- ·上海交大教授稱中國人工作時(shí)間太長:必須多放假、給足加班費(fèi)刺激消費(fèi)
- ·HUAWEI Mate系列全新發(fā)布!超能小藝實(shí)力破圈,有事輕松搞定
- ·人這一輩子,一定要去一趟進(jìn)博會(huì)!
- ·博主稱找到讓新能源綠牌沒那么丑的方法 網(wǎng)友質(zhì)疑是否合法
- ·200TB以上的SSD被AI捧紅了 PLC閃存蠢蠢欲動(dòng):扶我試試
- ·俄土領(lǐng)導(dǎo)人通話重點(diǎn)討論烏克蘭問題
- ·無人機(jī)為何能突破禁飛區(qū) 官方揭開技術(shù)解鎖黑幕
- ·駐韓美軍一無人機(jī)在韓附近海域墜毀
- ·只用一半功耗 就贏了i5
- ·微軟明確Win10 3年擴(kuò)展支持細(xì)則:需每22天登錄一次在線ID
- ·中國抓拍到的星際來客到底什么來頭 專家解答
- ·韓國元老級(jí)演員李順載去世 曾出演《搞笑一家人》
- ·4盤RAID 0讀寫超1100MB/s!希捷酷狼Pro 30TB HAMR硬盤首發(fā)評測
- ·純血美國芯片 馬斯克暗示將建巨型工廠:考慮與Intel合作
- ·NVIDIA RTX 5050首發(fā)評測:DLSS4/AI/生產(chǎn)力全方面飛躍 完美替代RTX 3050
- ·韓國元老級(jí)演員李順載去世 曾出演《搞笑一家人》
- ·荒野求生女選手冷美人熬走80人 男選手:她真厲害
