上海首家人形機器人量產(chǎn)企業(yè)——智元機器人10日發(fā)布通用具身模型基座:智元啟元大模型(Genie Operator-1,簡稱GO-1)。
智元機器人是由“稚暉君”彭志輝創(chuàng)辦的人形機器人初創(chuàng)公司,也是上海首家實現(xiàn)人形機器人量產(chǎn)的企業(yè)。該企業(yè)2024年已下線1000臺人形機器人,并將在2025年實現(xiàn)數(shù)千臺的年產(chǎn)量。
智元機器人2024年已下線1000臺人形機器人,并將在2025年實現(xiàn)數(shù)千臺的年產(chǎn)量。中新網(wǎng)記者 湯彥俊 攝
智元具身研究中心常務(wù)主任任廣輝當日接受記者采訪時表示,GO-1大模型借助人類和多種機器人數(shù)據(jù),讓機器人獲得了革命性的學(xué)習(xí)能力,可泛化應(yīng)用到各類的環(huán)境和物品中,快速適應(yīng)新任務(wù)、學(xué)習(xí)新技能。同時,它還支持部署到不同的機器人本體,高效地完成落地,并在實際的使用中持續(xù)不斷地快速進化。
任廣輝介紹,GO-1大模型的特點可歸納為4個方面。首先是人類視頻學(xué)習(xí)。GO-1大模型可以結(jié)合互聯(lián)網(wǎng)視頻和真實人類示范進行學(xué)習(xí),增強模型對人類行為的理解。
第二是小樣本快速泛化。GO-1大模型具有強大的泛化能力,能夠在極少數(shù)據(jù)甚至零樣本下泛化到新場景、新任務(wù),不僅降低了具身模型的使用門檻,也大大了降低后訓(xùn)練成本。以“倒水”這一動作為例,如果人形機器人沒有搭載大模型,完成該動作的訓(xùn)練需要1萬至5萬條數(shù)據(jù)采集;搭載大模型后,完成該動作僅需1000條左右數(shù)據(jù)采集。
第三是“一腦多形”。作為通用機器人策略模型,GO-1大模型能夠在不同機器人形態(tài)之間遷移,快速適配到不同本體,類似“群體升智”。
第四是持續(xù)進化。任廣輝介紹,搭配一整套數(shù)據(jù)回流系統(tǒng),GO-1大模型可以從實際執(zhí)行遇到的問題數(shù)據(jù)中持續(xù)進化學(xué)習(xí),“越用越聰明”。
3月10日,智元機器人發(fā)布通用具身模型基座:智元啟元大模型(Genie Operator-1,簡稱GO-1)。智元機器人 供圖
如何達成這些?智元機器人合伙人、具身智能事業(yè)部總裁姚卯青介紹,這源于GO-1的Vision-Language-Latent-Action(ViLLA,即視覺-語言-隱式-動作)架構(gòu),該架構(gòu)由VLM(多模態(tài)大模型)+ MoE(混合專家)組成。
“VLM借助海量互聯(lián)網(wǎng)圖文數(shù)據(jù)獲得通用場景感知和語言理解能力,MoE中的Latent Planner(隱式規(guī)劃器)借助大量跨本體和人類操作數(shù)據(jù)獲得通用的動作理解能力,MoE中的Action Expert(動作專家)借助百萬真機數(shù)據(jù)獲得精細的動作執(zhí)行能力。”姚卯青介紹,通過三者環(huán)環(huán)相扣,讓GO-1可利用人類視頻學(xué)習(xí),完成小樣本快速泛化。
“例如,用戶給出指令告訴機器人要做的事情,比如‘掛衣服’,模型就可以根據(jù)看到的畫面,理解這句話對應(yīng)的任務(wù)要求。”任廣輝表示,該模型可根據(jù)之前訓(xùn)練時看過的掛衣服數(shù)據(jù),設(shè)想這個過程應(yīng)該包括哪些操作步驟,最后執(zhí)行這一連串的步驟,完成整個任務(wù)的操作。
距離人形機器人進入家庭“打工”還有多久?“我們目前發(fā)布的技術(shù)處于從G3到G4的過渡階段?!比螐V輝表示,人形機器人走進家庭創(chuàng)造價值,還需5年左右。(記者李姝徵)