當(dāng)前位置：首頁 > 新聞資訊 > 機(jī)器人應(yīng)用 > 機(jī)器人示教學(xué)習(xí):學(xué)習(xí)低級(jí)技能運(yùn)動(dòng)基元軌跡運(yùn)動(dòng)技能

機(jī)器人示教學(xué)習(xí):學(xué)習(xí)低級(jí)技能運(yùn)動(dòng)基元軌跡運(yùn)動(dòng)技能

來源：CAAI認(rèn)知系統(tǒng)與信息處理專委會(huì) 編輯：創(chuàng)澤時(shí)間：2020/6/9 主題：其他 [加盟]

人們使用機(jī)器人的目的是節(jié)約人力和時(shí)間并高效完成任務(wù)。傳統(tǒng)的機(jī)器人需要預(yù)先編程來滿足特定任務(wù)，但如果任務(wù)發(fā)生變化，往往需要重新編程。而通過機(jī)器人的示教學(xué)習(xí)，它使機(jī)器人能夠自主地執(zhí)行新任務(wù)，允許用戶通過示教任務(wù)來教授機(jī)器人所需的技能，而無需繁瑣的重新編程。我們結(jié)合2020年ICIMIA 會(huì)議發(fā)表的《A Comprehensive Study onRobot Learning from Demonstration》文章，介紹了機(jī)器人示教學(xué)習(xí)LfD（Learning from Demonstration）的研究概況。

機(jī)器人可以通過采取行動(dòng)與所處環(huán)境交互，導(dǎo)致當(dāng)前狀態(tài)到新狀態(tài)的概率轉(zhuǎn)換。機(jī)器人活動(dòng)的環(huán)境可以被完全或部分觀察到。觀察性條件取決于示教數(shù)據(jù)采集方法的類型以及所選擇的教學(xué)方法。在[6]中，對(duì)環(huán)境描述的方法進(jìn)行了研究。定義明確的目標(biāo)可以清晰的評(píng)價(jià)任務(wù)表現(xiàn)，并改進(jìn)已學(xué)習(xí)的任務(wù)[7]。LfD目前沒有標(biāo)準(zhǔn)的評(píng)估參數(shù)或方法，這是因?yàn)榈侥壳盀橹筁fD框架缺乏通用性，沒有可以進(jìn)行比較的基準(zhǔn)。人類如何提供示教，基于與機(jī)器人的交互方式。

（1）低級(jí)技能

低級(jí)技能通常包括在三維空間中從一個(gè)點(diǎn)移動(dòng)到另一個(gè)點(diǎn)。它可以包括原始的動(dòng)作，如手勢(shì)、觸摸物體、挑選物體等，這種情況下獲得的示教數(shù)據(jù)是機(jī)器人關(guān)節(jié)的位置、速度和加速度。低級(jí)運(yùn)動(dòng)可記錄在關(guān)節(jié)空間、任務(wù)空間或扭矩空間[11]。然而，在某些情況下，任務(wù)目標(biāo)不能完全由關(guān)節(jié)位置來表示，應(yīng)提供任務(wù)框架方面的額外信息。例如，挑選一個(gè)在每次示教中可能位于不同位置的目標(biāo)對(duì)象。當(dāng)這種低級(jí)技能在機(jī)器人框架中學(xué)習(xí)時(shí)，軌跡可能沒有相似性，因此很難提取模型。但是，如果在任務(wù)框架中表示相同的對(duì)象，則可以得到相同對(duì)象的一般模型。一種常用的方法是跟蹤末端執(zhí)行器相對(duì)于目標(biāo)對(duì)象的笛卡爾坐標(biāo)位置[12]。

低級(jí)技能學(xué)習(xí)或建模的三種主要方法：

1）動(dòng)態(tài)運(yùn)動(dòng)基元(DMP)：DMP方法的中心思想是依賴于一個(gè)可靠的動(dòng)態(tài)系統(tǒng)，調(diào)整該系統(tǒng)的非線性項(xiàng)，實(shí)現(xiàn)預(yù)期的吸引子行為。

圖3 DMP方法:字母書寫技巧[50]的不變性

在圖3中，可以看出DMP的不變性性質(zhì)的重要性。藍(lán)線表示示教軌跡，紅線表示技能執(zhí)行軌跡。起點(diǎn)是相似的，但是，即使target_0和target_1表示的終點(diǎn)不同，它也能夠執(zhí)行低級(jí)技能。此外，還能根據(jù)示教的字母“a”生成“a”的一致放大版本。為了利用高度規(guī)則的結(jié)構(gòu)和潛在空間來簡(jiǎn)化DMP方法，提出了一個(gè)高斯過程的隱藏變量模型[13]。在[9]中，通過調(diào)整DMP方程中的起始參數(shù)和目標(biāo)參數(shù)，評(píng)估了一種泛化技能的方法，并在baxter機(jī)械臂上進(jìn)行了進(jìn)一步的論證。

2）高斯混合建模與回歸(GMM-GMR)：該方法依賴于統(tǒng)計(jì)監(jiān)督學(xué)習(xí)，由兩部分組成：a）使用高斯混合模型(GMM)對(duì)技能進(jìn)行編碼 b）利用高斯混合回歸(GMR)方法再現(xiàn)該技能。根據(jù)給定的示教，維度下降方法將數(shù)據(jù)投射到潛在空間中。這些方法可以執(zhí)行局部線性變換[14]或利用任何全局非線性方法[15]。在[16]中，使用GMM作為一種技能學(xué)習(xí)算法，對(duì)7個(gè)關(guān)節(jié)角度的示教數(shù)據(jù)進(jìn)行預(yù)處理，進(jìn)一步采用k均值聚類算法確定期望最大值（EM）算法的初始均值和協(xié)方差。通過運(yùn)行迭代算法提取一個(gè)GMM，并進(jìn)一步使用該GMM來執(zhí)行一項(xiàng)技能。在[17]中使用GMM-GMR對(duì)技能編碼的類似方法進(jìn)行了評(píng)估。

3）隱馬爾科夫模型（HMM）：此類模型基于概率方法。為了用隱馬爾可夫模型來建模低級(jí)技能，可以用隱藏狀態(tài)序列和所有的概率分布來表示該技能。HMM模型學(xué)習(xí)由兩部分組成：a）結(jié)構(gòu)學(xué)習(xí)b）參數(shù)學(xué)習(xí)。結(jié)構(gòu)學(xué)習(xí)處理識(shí)別隱藏狀態(tài)的數(shù)量。除此之外，它還涉及到確定這些隱藏狀態(tài)是如何相互聯(lián)系的。HMM模型學(xué)習(xí)的另一部分是參數(shù)學(xué)習(xí)，用于估計(jì)先驗(yàn)、轉(zhuǎn)移和觀察概率分布。HMM模型使用概率分布，以便從當(dāng)前狀態(tài)前進(jìn)到下一個(gè)狀態(tài)，從而生成一個(gè)序列。該序列可以提供給控制器，以產(chǎn)生平滑的控制信號(hào)。應(yīng)該注意的是，由于提供的示教并不是暫時(shí)一致的。所記錄的重復(fù)示教或者一批示教，其時(shí)間值不相同。即使是一個(gè)熟練的示教者也不可能提供完全相同的重復(fù)示教。因此，預(yù)處理步驟涉及動(dòng)態(tài)時(shí)間扭曲(DTW)技術(shù)，該技術(shù)測(cè)量多個(gè)示教的時(shí)間序列之間的相似性。