2024年4月2日,越疆推出 X-Trainer AI 機器人操作平臺。越疆對外展示雙臂機器人協(xié)同刷盤子視頻,以及在4月22日對外展示機器人自主疊衣服視頻,本質(zhì)上都是神經(jīng)網(wǎng)絡端到端控制能力的技術體現(xiàn)。
在最新的疊衣服視頻中,越疆展示了AI 機器人操作平臺 X-Trainer的技術內(nèi)核,即雙臂遙操作模仿學習系統(tǒng)。借助該技術,機器人能夠加快模仿學習基礎量累計,結(jié)合強化學習后能快速實現(xiàn)機械臂訓練后的自主運行。
此前 Figure 最早推出的機器人制作咖啡視頻就被人猜測為模仿學習,特斯拉更是公開表示此前采取類似遙操作的訓練方式,以提升機器人抓取衣物動作軌跡的柔性。而斯坦福此前展示的家務機器人,也是試圖通過遙操作協(xié)同訓練,提升機器人在自主完成炒蝦、存放鍋具、呼叫電梯等復雜移動和操作任務時的成功率。
本次越疆進一步展示端到端能力并公開背后技術,機器人大講堂獨家采訪到了越疆聯(lián)合創(chuàng)始人郎需林,他對我們披露了越疆這套軟硬件系統(tǒng)背后的技術運行邏輯和具體參數(shù)情況。
技術框架內(nèi)核拆解
此類機器人的控制框架其實可以簡單分為大模型(上層)+神經(jīng)決策網(wǎng)絡NNP(中層)+全身控制WBC(下層)。如今,這種多層級架構(gòu)配合大模型賦能價值初顯,正為機器人帶來強大的感知及運動任務能力水平,讓機器人直接將看到的、聽到的信息,實現(xiàn)多模態(tài)融合并轉(zhuǎn)化為語言和行為結(jié)果,中間不需要經(jīng)過其他程序處理。
在這套機器人動作執(zhí)行的控制框架中,想要機器人實現(xiàn)低時滯、高魯棒性、高軌跡靈活性,就需要進行機器學習訓練持續(xù)優(yōu)化動作,而模仿學習的訓練關鍵來源于數(shù)據(jù),數(shù)據(jù)則來源于采集。這使得能夠收集雙臂運動數(shù)據(jù)的低成本全身遙操作系統(tǒng),正在得到越來越多科研和產(chǎn)業(yè)研發(fā)人員的認同以及使用。
成熟的遙操作軟硬件體系,一方面可以驗證現(xiàn)階段硬件能否端對端靈活完成各項軟件算法和任務規(guī)劃,另一方面可以更好收集端到端神經(jīng)網(wǎng)絡所需的訓練數(shù)據(jù),從而讓未來的機器人能夠自行執(zhí)行任務,為更多細分場景開拓帶來了新的可能性。
剝香蕉
切黃瓜
水果擺盤
打雞蛋
煎雞蛋
在越疆發(fā)布的視頻中,機器人根據(jù)語言命令自主刷盤子、疊衣服,背后同樣采用了視覺大語言模型+模仿學習神經(jīng)網(wǎng)絡的上層架構(gòu),其中的數(shù)據(jù)來源,則是借助遙操作系統(tǒng)訓練而來。
人們看到的視頻背后,首先由人類遠程控制機器人進行動作演示,使得機器人能夠根據(jù)動作快速模仿學習,大幅降低訓練時間,最終由雙臂機器人作為驗證平臺進行執(zhí)行,提升整個端到端訓練的質(zhì)量,最終實現(xiàn)行為克隆。
動作軌跡優(yōu)化秘訣
這種更強大的端對端響應能力,與X-Trainer 主從遙操作系統(tǒng)帶來的高質(zhì)量數(shù)據(jù)采集能力有較大關系。
一般而言,人工智能的強弱表現(xiàn),與數(shù)據(jù)量和數(shù)據(jù)質(zhì)量正相關,而二者都依托于數(shù)據(jù)采集能力。能否在短時間內(nèi)采集到更多的高質(zhì)量數(shù)據(jù)并快速訓練,是機器人實現(xiàn)高效動作執(zhí)行的基礎。
越疆聯(lián)合創(chuàng)始人郎需林透露,越疆采用了同構(gòu)型主從手設計,能直接復現(xiàn)記錄人類進行任務時的關節(jié)運動和軌跡,這使得X-Trainer 平臺模仿學習的數(shù)據(jù)采集,可通過熟練的示范操作中學習而來,大幅提升機器人的圖像采集質(zhì)量,從而使得關節(jié)映射的精度、準確度、抖動、柔順性等表現(xiàn)都非常優(yōu)質(zhì),應對一些干擾的能力強勁。
低時延是越疆 X-Trainer平臺的顯著優(yōu)勢之一。根據(jù)郎需林介紹,這是由于X-Trainer 平臺采用25Hz 頻率接收頂部和手部的三個攝像頭圖像并完成推理,通過高性能的在線運動規(guī)劃接口生成 250Hz 的雙臂運動,圖像到關節(jié)驅(qū)動響應非常高效。
根據(jù)公開信息,F(xiàn)igure 01 接收機載圖像網(wǎng)絡頻率為 10Hz,即100毫秒一張圖片,而X-Trainer 端到端高性能運動接口頻率是25Hz ,相當于40毫秒一張圖片,這意味著運行響應速度本質(zhì)上提升了150% ,強大的即時響應能力帶來更顯著的運行平穩(wěn)性。
從越疆發(fā)布的幾個視頻來看,無論是盤子上不規(guī)則污漬的擦凈,還是應對衣服折疊的過程中出現(xiàn)的不規(guī)則褶皺,機器人都能快速調(diào)整,高動態(tài)響應能力大幅提升了機器人的適應性。這背后源于越疆強大的模仿學習方式,更接近于人類視覺網(wǎng)絡的即時性反應,執(zhí)行路徑和方式是人腦驅(qū)動人手的動作機理,因此相較單獨的圖神經(jīng)網(wǎng)絡識別的質(zhì)量更高。
X-Trainer 之所以能夠做到高質(zhì)量的數(shù)據(jù)采集,據(jù)郎需林介紹,因為越疆在這套遙操作系統(tǒng)中,主手硬件上采取了高性能低摩擦的電機,并且在結(jié)構(gòu)的輕質(zhì)和傳動的摩擦力方面進行了大量的迭代和優(yōu)化,從而帶來了優(yōu)質(zhì)的柔順性和摩擦阻力,使得操作更為輕便,用戶疲勞感更弱,操作動作完成度也更高,大幅提升了機器人還原度,數(shù)據(jù)量和數(shù)據(jù)質(zhì)量。
這套遙操作的從手,則是采取了高精度的 Nova 雙臂,這個工業(yè)級的訓練平臺,讓數(shù)據(jù)采集與動作的精度大幅提升,保證了任務的效率和質(zhì)量,從而提供了保證了模仿學習的軌跡復現(xiàn),為訓練數(shù)據(jù)在各類場景落地提供了保證,最后才呈現(xiàn)出視頻里機器人驚人的執(zhí)行力效果。
高初值帶來強化學習新范式
據(jù)悉,X-Trainer 這種高性能模仿學習神經(jīng)網(wǎng)絡遷移實現(xiàn)到機器人平臺,完成端到端圖像到動作映射的算法,目前也具有一定泛化能力。
由于基于真實物理環(huán)境數(shù)據(jù)采集,這種模仿學習為強化學習提供了一個優(yōu)質(zhì)的訓練初值。不同于傳統(tǒng)強化學習需要經(jīng)過長時間訓練、糾偏、優(yōu)化,才能在隨機環(huán)境獲取較好初始值的方法,高性能模仿學習本質(zhì)上加速了強化學習初值的獲取速度。例如Figure 01此前神經(jīng)網(wǎng)絡的訓練時間為 10 小時,而X-Trainer 通過人類示范模仿學習,僅需2小時訓練即可自主刷盤子,并對實時干擾快速糾正。
這就是越疆在模仿學習的基礎上,通過物理引擎仿真以及環(huán)境建模,更快實現(xiàn)了初始軌跡的空間結(jié)構(gòu)位置信息獲取,再加上強化學習后,能夠疊加隨機物理真實信息紋理等參數(shù),從而實現(xiàn)多層級任務的學習,強化了算法在不同場景的泛化能力。
目前,機器人端到端任務執(zhí)行的算法框架已經(jīng)基本穩(wěn)定,但機器人從0-50基礎數(shù)據(jù)集的獲取依然耗費了研究者大量的時間。
模仿學習是一個機器人數(shù)據(jù)基礎框架和基礎能力獲取的加速器,可以說是機器人學習的基石。因為在此基礎上,軌跡數(shù)量更加豐富且精確,數(shù)據(jù)集獲取也更為容易,研發(fā)者能夠聚焦場景泛化能力,注重機器人從50~10000強化學習能力的訓練。
據(jù)悉,X-Trainer 系統(tǒng)包括兩只主手、兩只從手,每臺機械臂上有一個3D攝像頭和夾爪,頂部也有一個3D的攝像頭,越疆自研的高性能主從控制和雙臂協(xié)同框架,保證了高數(shù)據(jù)量傳輸,全棧式提升這套端到端框架的運行可靠性。
在具體場景上,這套系統(tǒng)除了有望助力科研院所相關算法科研驗證,快速將學術研究的成果與下游應用需求鏈接,還有望幫助工業(yè)場景企業(yè),加快對于3C電子、電池組裝等線束扎帶、柔性插拔等工藝的學習訓練效率,推動人形機器人的進化,真正做到從實驗室走向?qū)嶋H場景應用。
結(jié)語與未來
國際上,斯坦福等高校已針對模仿學習和強化學習能力展開了大量相應研究,國內(nèi)包括越疆等企業(yè)也找到了正確路徑。X-Trainer 這套系統(tǒng),非常有望幫助國內(nèi)更多科研機構(gòu)、應用企業(yè),加入數(shù)據(jù)基石建設的進程中,加速國內(nèi)人形機器人在多場景任務落地的可行性。
“我們正處于時代的風口浪尖,中國企業(yè)正嘗試克服種種困難去迎接這個時代的挑戰(zhàn),越疆希望用自己的努力,助力更多的人參與到中國機器人和具身智能的發(fā)展浪潮中,共建這個充滿想象力的未來。”郎需林對未來充滿信心。