創(chuàng)澤機(jī)器人 |
CHUANGZE ROBOT |
隨著自然語(yǔ)言處理技術(shù)的發(fā)展以及客戶(hù)需求的提高,當(dāng)機(jī)器人進(jìn)入以人為主的環(huán)境時(shí),必須學(xué)會(huì)理解人類(lèi)語(yǔ)言,完成指定任務(wù)。相較于傳統(tǒng)只對(duì)場(chǎng)景做出反應(yīng)的機(jī)器人操作方法,結(jié)合語(yǔ)義輸入,讓機(jī)器人理解人類(lèi)語(yǔ)言,根據(jù)場(chǎng)景和自然語(yǔ)言指令完成相應(yīng)任務(wù),能為人機(jī)協(xié)作帶來(lái)更大的便利性。然而,目前該方法具有如下限制:
(1)依賴(lài)手工編碼任務(wù)符號(hào)來(lái)實(shí)現(xiàn)語(yǔ)義表達(dá),限制了語(yǔ)義層面的泛化性。
(2)從指令中推斷動(dòng)作序列時(shí),需要密集的子目標(biāo)監(jiān)督。
(3)缺乏更深層次的以目標(biāo)為中心的推理方法,在解釋復(fù)雜指令時(shí)不連貫。
針對(duì)上述問(wèn)題,該文章提出了一種可感知視覺(jué)場(chǎng)景,同時(shí)處理語(yǔ)言輸入的端到端可訓(xùn)練的模型。該模型使用視覺(jué)輸入得到當(dāng)前場(chǎng)景中物體在初始狀態(tài)下的位置關(guān)系,以語(yǔ)義文字推理目標(biāo)狀態(tài)下對(duì)應(yīng)的位置關(guān)系,實(shí)現(xiàn)由自然語(yǔ)言引導(dǎo)機(jī)器人進(jìn)行技能操作。 相關(guān)成果以“Learning Neuro-symbolic Programs for Language Guided Robot Manipulation”為題發(fā)表于International Conference on Robotic and Automation (ICRA)會(huì)議中。
該文章提出了一種新型神經(jīng)符號(hào)模型,使用自然語(yǔ)言推理目標(biāo)場(chǎng)景,實(shí)現(xiàn)在給定初始場(chǎng)景和目標(biāo)場(chǎng)景的情況下即可學(xué)習(xí)執(zhí)行復(fù)雜的操作任務(wù),并展示了如何在不需要任何中間監(jiān)督的情況下,僅使用初始與目標(biāo)兩個(gè)場(chǎng)景作為監(jiān)督來(lái)獲取機(jī)器人操作動(dòng)作的密集表示。 實(shí)驗(yàn)表明,該文章的方法可通過(guò)端到端的訓(xùn)練而不需進(jìn)行任何子目標(biāo)監(jiān)督,即可展現(xiàn)出強(qiáng)大的指令理解能力,并對(duì)新場(chǎng)景和指令展現(xiàn)出強(qiáng)大的泛化能力,為將來(lái)基于自然語(yǔ)言的人機(jī)協(xié)作,機(jī)器人的語(yǔ)義指令集的拓展提供了新的參考思路。
1、模型結(jié)構(gòu)設(shè)計(jì)
該端到端模型的結(jié)構(gòu)如圖1所示,由視覺(jué)提取器、語(yǔ)言解釋器、視覺(jué)解釋器、動(dòng)作模擬器組成。輸入初始場(chǎng)景和基于自然語(yǔ)言的任務(wù)指令,模型輸出完成該指令所需的動(dòng)作參數(shù),以及預(yù)測(cè)完成任務(wù)后的最終場(chǎng)景。
視覺(jué)提取器相當(dāng)于一個(gè)目標(biāo)檢測(cè)模型,用于識(shí)別初始場(chǎng)景下的物體信息。以圖11為例,輸入桌面初始狀態(tài)的圖像,視覺(jué)提取器輸出各個(gè)物體的外接框、顏色信息及物體名稱(chēng),并由外接框在桌面上的相對(duì)位置推斷物體的位置信息。
語(yǔ)言解釋器用于處理自然語(yǔ)言指令推理任務(wù)中隱含的操作動(dòng)作。例如圖中“移動(dòng)綠色骰子后面的紅色骰子至紅色方塊的右邊”這句指令,語(yǔ)言解釋器經(jīng)過(guò)推理會(huì)得到完成該任務(wù)需要進(jìn)行“移動(dòng)”動(dòng)作,移動(dòng)的物體是“位于綠色骰子后面的紅色骰子”,目標(biāo)是“紅色方塊右邊”,并可屏蔽“綠色方塊”和“藍(lán)色骰子”這些與完成任務(wù)無(wú)關(guān)的信息。推理完畢后,以專(zhuān)用指令集組合出推理結(jié)果。
專(zhuān)用指令集的結(jié)構(gòu)如圖2所示,分為“關(guān)鍵詞”和“操作詞”,前者用于描述物體信息,后者用于表示操作信息。
視覺(jué)解釋器結(jié)合前二者輸出的場(chǎng)景信息和任務(wù)指令集,輸出完成該任務(wù)所需的參數(shù)化表示,交由任務(wù)模擬器生成機(jī)器人所能執(zhí)行的動(dòng)作參數(shù),并預(yù)測(cè)完成任務(wù)后的場(chǎng)景情況。
以預(yù)測(cè)場(chǎng)景和數(shù)據(jù)集中提前設(shè)定好的目標(biāo)場(chǎng)景做差,設(shè)置損失函數(shù),即可實(shí)現(xiàn)端到端的訓(xùn)練過(guò)程。
機(jī)器人底盤(pán) Disinfection Robot 消毒機(jī)器人 講解機(jī)器人 迎賓機(jī)器人 移動(dòng)機(jī)器人底盤(pán) 商用機(jī)器人 智能垃圾站 智能服務(wù)機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 紫外線(xiàn)消毒機(jī)器人 消毒機(jī)器人價(jià)格 展廳機(jī)器人 服務(wù)機(jī)器人底盤(pán) 核酸采樣機(jī)器人 機(jī)器人代工廠 智能配送機(jī)器人 噴霧消毒機(jī)器人 圖書(shū)館機(jī)器人 導(dǎo)引機(jī)器人 移動(dòng)消毒機(jī)器人 導(dǎo)診機(jī)器人 迎賓接待機(jī)器人 前臺(tái)機(jī)器人 消殺機(jī)器人 導(dǎo)覽機(jī)器人 |