靈初智能陳源培:騰訊云強大算力助力快速完成VLA模型訓練
11月21日,靈初練騰訊全球數(shù)字生態(tài)大會城市峰會落地無錫,智能助力靈初智能聯(lián)合創(chuàng)始人陳源培發(fā)表主題演講,陳源分享了具身智能在靈巧操作領(lǐng)域的培騰技術(shù)突破與應用前景,并重點介紹了與騰訊云在模型訓練、訊云型訓遠程遙操作等方面的算力深度合作成果。
陳源培指出,快速具身智能在靈巧操作領(lǐng)域的完成發(fā)展面臨模型、數(shù)據(jù)與場景三大核心挑戰(zhàn)。靈初練模型層面,智能助力需攻克復雜指令理解與實體運動控制的陳源融合問題;數(shù)據(jù)層面,存在訓練樣本規(guī)模不足導致訓練效率低下的培騰瓶頸;場景層面,則需克服真實環(huán)境中的訊云型訓不確定性,以實現(xiàn)技術(shù)的算力穩(wěn)定部署與規(guī)模化應用。
在模型構(gòu)建方面,快速靈初智能采用“分層端到端”VLA架構(gòu)作為核心技術(shù)路線。陳源培表示,這一架構(gòu)對云端算力的性能與穩(wěn)定性提出了極高要求。在模型訓練過程中,騰訊云提供了強大的異構(gòu)計算資源和全鏈路優(yōu)化支持,顯著加速了模型迭代進程,為技術(shù)從構(gòu)想走向原型提供了關(guān)鍵保障。
針對數(shù)據(jù)獲取與場景落地難題,雙方基于騰訊云的音視頻技術(shù),構(gòu)建了端到端的低時延遠程控制系統(tǒng)。“該方案不僅為復雜場景提供可靠的人工干預通道,更重要的是構(gòu)建了高質(zhì)量示范數(shù)據(jù)的采集通路,為模型的持續(xù)優(yōu)化與強化學習奠定堅實基礎(chǔ)。”陳源培強調(diào)。
展望未來,陳源培表示靈初智能將繼續(xù)深化與騰訊云的戰(zhàn)略合作,共同推進具身智能技術(shù)在物流、零售等場景的規(guī)?;涞?,加速智能機器人技術(shù)在產(chǎn)業(yè)端的應用進程。
以下為陳源培講話全文:
各位領(lǐng)導大家好,我是靈初的聯(lián)創(chuàng)陳源培。今天我給大家?guī)淼姆窒硎恰毒呱碇悄莒`巧操作的發(fā)展》。
我會從四個方面來介紹,第一個是具身智能的挑戰(zhàn)。在靈初看來具身智能主要由三個方面構(gòu)成,第一個場景,第二個數(shù)據(jù),第三個模型。
我先從場景說起,我們公司是專注于做雙臂雙手靈巧操作的公司,我們選的是輪式底盤,具身智能最大的價值代替人們勞動,提高生產(chǎn)力,最關(guān)鍵的是雙手操作,所以我們選擇了一雙手,這跟數(shù)據(jù)強相關(guān)。
對于具身來說,大概率還是用人類的數(shù)據(jù),現(xiàn)有的幾種數(shù)據(jù)模式,包括數(shù)據(jù)工廠和仿真數(shù)據(jù),都有各自的缺陷,仿真會有一些很難仿真的東西,比如軟體、流體,數(shù)據(jù)工廠雖然可以高質(zhì)量的采集數(shù)據(jù),但并不能采集世界上所有的數(shù)據(jù),我們走的是直接采集人類數(shù)據(jù),直接采集人手數(shù)據(jù),再用到機器人上,這個我后面會詳細介紹。
還有就是模型,我們公司是國內(nèi)最早提出分層端到端的公司,甚至早于國外的公司,這是源于我們團隊一開始的背景就是從大模型和強化學習來的,我們認為純粹的端到端是比較早期的,現(xiàn)在比較務實的方法是分層的做法,也逐漸成為了行業(yè)共識。這里面最難的點是什么?主要有兩個,第一個是在分層的時候,上層的大腦和小腦要怎么銜接,第二個就是如何通過強化學習,提高它的整體操作成功率和泛化性,這兩點我們公司都有自己的思考。
公司當時在仿真里面做靈巧手的訓練,這是非常雜亂的樂高堆,然后抓起來再放下來,包括各種各樣形狀的樂高,包括人工的打斷,都可以做的比較好。右邊也是從仿真到真機里面,具有六十多個靈巧操作的展示,這些都是我們公司很早的積累,就形成了現(xiàn)在這么一個分層端到端的VLA架構(gòu),上層有一個Planner,是大模型微調(diào)形成的,主要輸入的是圖片和語音,通過上層的COT自適應的輸出最適合下沉模型的Token,然后給到下層,下層的小腦模型再通過這些輸入,來輸出機器人具體的關(guān)節(jié)角度,整個過程中,它會有幾段,一開始先用預訓練數(shù)據(jù)來做訓練,后面會用真機強化的方式做最后成功率的提升。
剛剛說到了數(shù)據(jù),我們在數(shù)據(jù)的思考,可以看左邊這個數(shù)據(jù)金字塔,從最底層的互聯(lián)網(wǎng)仿真數(shù)據(jù),在冷啟動的時候會使用,真機數(shù)據(jù)是質(zhì)量最高的,但它的泛化能力有問題,所以我們更多采用中間的真實數(shù)據(jù),就是人可以戴著手套去采集。有兩個重要的點,第一個是現(xiàn)在硬件發(fā)展非???,現(xiàn)在硬件采集的數(shù)據(jù)三年后大概率不是這個硬件,所以數(shù)據(jù)怎么遷移是比較難的問題。第二個是必須有可移動式的數(shù)采方案。最右邊數(shù)據(jù)生成方式,我們怎么把人手數(shù)據(jù)真正在機器人上用起來,所以我們有一套相關(guān)的技術(shù)棧。
還有數(shù)采手套的采集方式,它無需機器人就可以做數(shù)采,它的好處有三點,一個是成本,不用機器人在旁邊做遙操,只需要手套的成本,是傳統(tǒng)遙操的1/10,第二是支持戶外的大規(guī)模數(shù)采,第三是有非常高的自由度。這是模型在物流場景的采集過程,最左邊是在人采集數(shù)據(jù)的基礎(chǔ)上加上一套遙操數(shù)據(jù),這是我們自研的一套遙操方案,右邊就可以通過真機強化學習來做最后的微調(diào),直到最右邊真實部署的時候,就可以達到比較高的成功率和節(jié)拍,這里展示了物流分揀場景的作業(yè)。
我們公司做的所有的動作,都是通過一個VLA模型,結(jié)合預訓練、后訓練、強化學習的技術(shù)來做的,這是當時在世界人工智能大會上的現(xiàn)場展示錄制,包含了商超打包的產(chǎn)品,有抓、掃碼、放置,最后有一個比較靈巧的對塑料袋進行打結(jié)。這里面最難的是最后一步掃碼,因為它需要識別出碼在哪里,在抓取的時候不抓到這個碼,以及最后掃的時候要定位的非常準確,必須通過大模型才能做到。這個打結(jié)也是一個比較全程的靈巧操作,需要比較精確的抓取,包括視覺和反饋,才能夠做的比較好。
這是一些難以操作的,像手機這類物品,需要把它撥到桌邊再抓取,然后再遞給別人,這一套傳統(tǒng)的方法都比較難做,也是通過我們的大腦模型來完成的。這是麻將機器人,可以自主發(fā)牌、抓牌、打牌,在展會上有很多觀眾朋友一起體驗了。所有的這些技術(shù)都是通過強學習后訓練做的,然后我們自己收集數(shù)據(jù),再通過大模型的后訓練技術(shù),把整個麻將的策略、識別和具身聯(lián)動,全部訓練到了一個模型里面,才能完成這么一件事。整個操作也是非常長程的操作,因為要打完一整局需要很多次的抓、放、抽牌,以及雙手之間的交換,包括碰牌和杠牌,這都是不能被預設好的。
然后是行業(yè)應用,剛剛說到了模型,我們更希望的不是純粹上來就收集一個仿真學,那樣難度太大,并且太陡峭,像自動駕駛的經(jīng)驗,上來就做L4并不是一個好選擇,所以我們更傾向的是在場景中做整個閉環(huán),我們雖然是一個細分場景,但非常有價值,我們把整個模型構(gòu)建起來之后,再拿這些數(shù)據(jù)回流回來,最后慢慢擴大這個模型,所以我們一個比較看好的場景就是物流,因為物流的場景碰到的物體會比較多,衣服倉、化妝品倉,物體是比較泛化的,包括零售,現(xiàn)在碰到的物體以后大概率是在家庭中也能碰到的物體,還有很重要的一點是可以出海。這是我們的兩個場景,一個是眾包,一個是貨到人揀選,都是有希望能夠做出來的。
商業(yè)主要有兩方面,第一個是數(shù)據(jù),數(shù)據(jù)這個東西除了國內(nèi),國外的需求也是非常多的,據(jù)我們了解的一些市場價格,包括國外的大廠也在頻繁的收數(shù)據(jù),我們認為數(shù)據(jù)的缺口非常大,但和他們交流下來,他們也不會要純粹數(shù)據(jù)中間商的數(shù)據(jù),按他們的說法,必須要懂模型,必須要證明這個數(shù)據(jù)可以訓練出來模型,包括我們自己,因為我們自己也做訓仿真學所以我們有自己的數(shù)據(jù),會有一部分的數(shù)據(jù)出海。第二個是物流,是我們比較看好也是短期能夠完成的場景,在海外也有非常多類似的客戶,像GXO、UPS等等,我們也是積極的在做。
然后就是和騰訊云的合作,非常感謝騰訊云跟我們整個模型團隊一直長期的支持,對于VLA模型訓練來說,第一點最離不開的就是整套云的算力,騰訊云在這個過程中不僅給我們算法團隊非常多的支持,而且還跟我們做深入的技術(shù)交流,構(gòu)建出一套對雙方都有用的技術(shù)積累和沉淀,為之后的具身或者整個智能體都有比較好的積累。
第二個合作空間就是遙操作,對我們公司來說,長期的落地,具身是一個從0到1的東西,最后落地的時候,大概率會像智駕一樣,早期的時候會有安全員在后面接管,這時候遠程遙操接管方案非常重要,因為騰訊云的音視頻流技術(shù)非常先進,所以遙操的延時會非常低,我們會跟騰訊云有非常多的合作,希望后面能夠繼續(xù)合作,共同把具身智能這個賽道推向一個新的高度。
謝謝大家。
- ·反擊大空頭!英偉達致信華爾街分析師 反駁會計丑聞等指控
- ·PingPong升級全球收單解決方案,海外游戲業(yè)務將進軍韓國市場
- ·仰望U9平替!騰勢Z紐北測試諜照曝光 還有軟頂敞篷版
- ·日本本州島東部海域發(fā)生4.9級地震
- ·星閃音頻 開啟“真無損”非凡音質(zhì)
- ·想買別等了!RTX 5060 Ti 16GB貨源告急:很快缺貨漲價
- ·廁評時代:全國必拉榜上都有哪幾家?guī)?/a>
- ·DDR5超頻世界紀錄再刷新:有史以來最高的13211MT/s!
- ·小米汽車:小米緊急轉(zhuǎn)向輔助功能 人駕和輔助駕駛下均在工作
- ·烏鎮(zhèn)峰會聚焦文化“新三樣”:數(shù)字內(nèi)容新引擎成焦點
- ·東西問丨韓峰:十五運會公路自行車賽何以“一次跨三境”?
- ·澳門武術(shù)代表隊主教練尤俊賢:在家門口比賽感到很親切
- ·絕不允許出現(xiàn)第二個梁孟松 臺積電正式起訴75歲技術(shù)大佬羅唯仁
- ·手握全球芯片命脈!臺積電宣布給全球近8萬員工每人發(fā)6000元紅包
- ·AG蟬聯(lián)KPL年總冠軍,賽事現(xiàn)場觀眾人數(shù)破世界紀錄
- ·十五運會賽事服務保障等工作準備就緒
- ·教你如何將網(wǎng)頁視頻變清晰 僅限N卡用戶且免費
- ·DDR5超頻世界紀錄再刷新:有史以來最高的13211MT/s!
- ·長城歐拉首款純電SUV來了!11月12日開啟預售 配備激光雷/最高續(xù)航580km
- ·PingPong升級全球收單解決方案,海外游戲業(yè)務將進軍韓國市場
- ·iPhone Pocket全球售罄:蘋果“一塊布”賣1299元
- ·青海省海北州政協(xié)黨組成員、副主席包正清接受審查調(diào)查
- ·新突破!全球首款人工神經(jīng)元1M1T1R問世
- ·國家統(tǒng)計局:10月份CPI由降轉(zhuǎn)漲 PPI降幅收窄
- ·李小龍揭秘華為Mate 80 Pro Max/RS側(cè)面開孔到底什么用:防漏音揚聲器
- ·第二十二屆粵港澳國際體育用品博覽會開幕
