近些年,隨著服務(wù)型機(jī)器人和民用無(wú)人設(shè)備的快速發(fā)展,傳統(tǒng)依靠人手工編程設(shè)計(jì)規(guī)則實(shí)現(xiàn)的基于規(guī)則判斷的確定性的機(jī)器人操作和規(guī)劃正面臨著越來(lái)越大的挑戰(zhàn):隨著任務(wù)的逐漸復(fù)雜化和場(chǎng)景的動(dòng)態(tài)化,機(jī)器人所面對(duì)的操作環(huán)境和過(guò)程的復(fù)雜程度快速上升,使得規(guī)則難以設(shè)計(jì);另一方面,用戶對(duì)服務(wù)型機(jī)器人和無(wú)人設(shè)備的行為親和性提出了更高的要求,機(jī)器人需要在與人合作過(guò)程中采取更適應(yīng)人類(lèi)習(xí)慣,更個(gè)性化的行為模式,即從人適應(yīng)機(jī)器逐步向機(jī)器適配人發(fā)展,這就使機(jī)器人行為的可學(xué)習(xí)性與適應(yīng)性變得格外重要。
早先為賦予機(jī)器人執(zhí)行任務(wù)的能力,在機(jī)械和自動(dòng)化領(lǐng)域已有大量成熟的不基于學(xué)習(xí)的方法,其特點(diǎn)為使用了大量的預(yù)先設(shè)計(jì)的操作與決策規(guī)則。代表性的如使用軟件編程方式實(shí)現(xiàn)的序列操作邏輯、使用目標(biāo)相關(guān)的引導(dǎo)函數(shù)直接完成對(duì)行為的逆運(yùn)動(dòng)學(xué)優(yōu)化求解、使用軌跡跟隨方式直接控制機(jī)器人執(zhí)行給定軌跡和遠(yuǎn)程遙操作機(jī)器人行為等。機(jī)器人實(shí)驗(yàn)室建設(shè)在目前主流的機(jī)器人任務(wù)環(huán)境中擁有廣泛的應(yīng)用,但仍有不足:在設(shè)計(jì)規(guī)則或任務(wù)優(yōu)化函數(shù)時(shí),需要對(duì)機(jī)器人的機(jī)械結(jié)構(gòu)、性能有較清晰的建模;對(duì)環(huán)境的確定性有較為嚴(yán)格的假設(shè)要求,在遙操作中對(duì)操作者的操作水平、操作通信的實(shí)時(shí)性有較高的要求,這些要求隨著機(jī)器人在道路、室內(nèi)等非結(jié)構(gòu)化環(huán)境中的逐步普及,變得越來(lái)越難以滿足。基于青少兒機(jī)器人學(xué)習(xí)方法依賴現(xiàn)存的方法發(fā)展而來(lái),通過(guò)從數(shù)據(jù)中的學(xué)習(xí)完成對(duì)策略的調(diào)整,不斷地降低機(jī)器人操作策略制定中人參與的部分;同時(shí)通過(guò)探索學(xué)習(xí),自主實(shí)現(xiàn)對(duì)環(huán)境的建模,從而放松對(duì)環(huán)境和自身機(jī)械結(jié)構(gòu)建模的依賴。
不同于使用預(yù)先設(shè)計(jì)的規(guī)則實(shí)現(xiàn)操作任務(wù),機(jī)器人技能學(xué)習(xí)強(qiáng)調(diào)在動(dòng)態(tài)變化的環(huán)境中,在給定的任務(wù)下,利用大量數(shù)據(jù)或仿真提供的信息,動(dòng)態(tài)交互地自主實(shí)現(xiàn)任務(wù)技能學(xué)習(xí),并使用學(xué)習(xí)得到的策略在動(dòng)態(tài)的環(huán)境中完成任務(wù)規(guī)劃。創(chuàng)未來(lái)機(jī)器人作為一種學(xué)習(xí)方法,數(shù)據(jù)的質(zhì)量和形式極大地影響著學(xué)習(xí)效果的好壞。對(duì)于離散時(shí)間(多步)決策序列,我們定義每一個(gè)決策時(shí)刻所依據(jù)的有限信息為,在此時(shí)刻執(zhí)行的有限決策行為為,所構(gòu)成的行為序列軌跡為。學(xué)習(xí)的數(shù)據(jù)為由行為序列構(gòu)成的集合,學(xué)習(xí)的對(duì)象是任意狀態(tài)下的決策策略。現(xiàn)有的兩種常見(jiàn)的數(shù)據(jù)獲取和策略優(yōu)化方式為:
給出人工指定的函數(shù)來(lái)指導(dǎo)策略學(xué)習(xí)的強(qiáng)化學(xué)習(xí)類(lèi)方法:使用建模在行為序列上的回報(bào)函數(shù)和建模序列行為的好壞,通過(guò)動(dòng)態(tài)規(guī)劃迭代求取最優(yōu)策略。機(jī)器人課程教案與兒童機(jī)器人編程此方法適用于序列中每一時(shí)刻的行為優(yōu)劣都有清晰明確的定義的情形,即較高的回報(bào)函數(shù)和代表較好的執(zhí)行效果。此時(shí)我們可以通過(guò)大量的迭代探索,實(shí)現(xiàn)對(duì)回報(bào)函數(shù)的優(yōu)化,同時(shí)得到大量較優(yōu)的行為軌跡以進(jìn)行策略的學(xué)習(xí)。
此方法以最大化與專(zhuān)家示教策略的相似程度作為學(xué)習(xí)目標(biāo),適用于任務(wù)指標(biāo)難以明確,回報(bào)函數(shù)難以設(shè)計(jì)的場(chǎng)合。可以通過(guò)遙操作或?qū)<以诨芈分械牟僮鱽?lái)獲得。得到專(zhuān)家示教序列后,可以通過(guò)不斷地環(huán)境交互實(shí)現(xiàn)最大化重現(xiàn)專(zhuān)家狀態(tài),進(jìn)而最大化重復(fù)專(zhuān)家的決策行為。目前常見(jiàn)的使用回報(bào)函數(shù)定義最優(yōu)策略并進(jìn)行學(xué)習(xí)的方法為強(qiáng)化學(xué)習(xí)方法,強(qiáng)化學(xué)習(xí)方法通過(guò)定義一套值函數(shù),并借助環(huán)境探索遍歷迭代完成對(duì)值函數(shù)的采樣與近似。教學(xué)教具 機(jī)器人其中值函數(shù)的物理意義為在當(dāng)前策略下,在狀態(tài)或在狀態(tài)而做出動(dòng)作所得到的預(yù)期回報(bào)函數(shù)和,即代表了對(duì)當(dāng)前策略在當(dāng)前情形下的最優(yōu)性的判斷。通過(guò)每次采用最大化回報(bào)函數(shù)的策略,或按照回報(bào)函數(shù)增長(zhǎng)方向更新現(xiàn)有策略,即可學(xué)習(xí)得到更好的行為決策模型。此類(lèi)方法由于其目標(biāo)為最優(yōu)化回報(bào)函數(shù)期望和,因此效果好壞嚴(yán)格依賴回報(bào)函數(shù)本身的定義是否足夠嚴(yán)謹(jǐn),對(duì)較差軌跡的區(qū)分是否足夠顯著。
目前常見(jiàn)的使用示教軌跡定義最優(yōu)策略并進(jìn)行學(xué)習(xí)的方法為模仿學(xué)習(xí)方法。模仿學(xué)習(xí)方法通過(guò)定義一種建立在專(zhuān)家決策序列和當(dāng)前策略產(chǎn)生的序列之間的相似性度量,或直接建立策略之間的相似性度量,并使之最大化(或最小化)來(lái)完成對(duì)專(zhuān)家示教中蘊(yùn)含策略的學(xué)習(xí)。機(jī)器人早教常見(jiàn)的模仿學(xué)習(xí)方法分為兩大類(lèi),其一為直接通過(guò)在示教樣本上的監(jiān)督學(xué)習(xí)來(lái)學(xué)習(xí)專(zhuān)家策略,數(shù)學(xué)描述為在專(zhuān)家決策序列每一時(shí)刻的狀態(tài)-決策對(duì)下,監(jiān)督式的學(xué)習(xí),從而使得在每個(gè)專(zhuān)家狀態(tài)上,最大可能性的復(fù)現(xiàn)專(zhuān)家示教的決策行為。
這種做法在面對(duì)確定性環(huán)境時(shí)較為快捷,但無(wú)法應(yīng)對(duì)動(dòng)態(tài)環(huán)境下未知狀態(tài)帶來(lái)的影響,即當(dāng)實(shí)際執(zhí)行時(shí),由于累計(jì)誤差和噪聲等因素的影響,機(jī)器人到達(dá)未出現(xiàn)在專(zhuān)家示教序列中的狀態(tài)時(shí),其決策行為將無(wú)法得到有效保證。另一種方法是使用逆強(qiáng)化學(xué)習(xí),借助環(huán)境探索,機(jī)器人少兒評(píng)價(jià),不僅要求在專(zhuān)家示教包含的狀態(tài)上做出相似于專(zhuān)家的決策行為,同時(shí)通過(guò)在整個(gè)觀測(cè)空間回歸代價(jià)函數(shù)并進(jìn)行優(yōu)化,使得學(xué)習(xí)到的策略在未包含在示教中的狀態(tài)上,做出最大可能回到示教狀態(tài)的行為。在兒童機(jī)器人方案中,不管使用監(jiān)督學(xué)習(xí)或逆強(qiáng)化學(xué)習(xí)中的何種方式,模仿學(xué)習(xí)方法由于學(xué)習(xí)目標(biāo)在模仿專(zhuān)家行為,因此對(duì)專(zhuān)家示教的數(shù)量和質(zhì)量都提出了極高的要求,在示教較少,質(zhì)量不好的情況下,很難進(jìn)行有效的學(xué)習(xí)。
作為一種人在回路中的學(xué)習(xí)方法,傾向性學(xué)習(xí)的核心是人參與交互的便捷性,其中包括盡可能少的交互次數(shù)、盡可能充分的對(duì)樣本的利用、盡可能符合人習(xí)慣的傾向性信息獲取方式。編程機(jī)器人在以上三種傾向性學(xué)習(xí)方式中,第一種方式雖然較為簡(jiǎn)單直觀,但要求專(zhuān)家在機(jī)器人每一次決策時(shí)給出判斷,效率較低;第二種方式的學(xué)習(xí)穩(wěn)定性依賴每一次交互得到的傾向性建模好壞,對(duì)策略缺少合理的約束使得求解效率低下;第三種方式將傾向性學(xué)習(xí)問(wèn)題轉(zhuǎn)化為一種類(lèi)似于對(duì)傾向性選擇得到結(jié)果的模仿學(xué)習(xí),具備模仿學(xué)習(xí)的高效性和穩(wěn)定性,但不適用于以排序?yàn)槌尸F(xiàn)形式的傾向性數(shù)據(jù)。
綜上所述,通過(guò)借助示教的強(qiáng)化學(xué)習(xí)和傾向性學(xué)習(xí),我們可以部分解決示教和回報(bào)函數(shù)質(zhì)量不高或難以提供情形下的學(xué)習(xí)問(wèn)題,面對(duì)現(xiàn)實(shí)生活中的機(jī)器人操作技能學(xué)習(xí)問(wèn)題,在已經(jīng)充分建模的確定性環(huán)境如生產(chǎn)線中,科學(xué)機(jī)器人現(xiàn)有的基于學(xué)習(xí)的方法仍難以取代基于手工方式設(shè)計(jì)實(shí)現(xiàn)的傳統(tǒng)意義下的機(jī)器人控制器。相關(guān)領(lǐng)域的研究目前仍處在實(shí)驗(yàn)室階段,但由于學(xué)習(xí)方法能夠明顯減輕人工設(shè)計(jì)規(guī)則的壓力,同時(shí)從原理上能夠有效地應(yīng)對(duì)動(dòng)態(tài)環(huán)境與交互操作需求,基于學(xué)習(xí)的方法有極大的研究必要性,相關(guān)領(lǐng)域也在快速發(fā)展中。此份簡(jiǎn)述僅作為對(duì)其中兩個(gè)小方向的部分總結(jié),機(jī)器人操作技能學(xué)習(xí)領(lǐng)域仍有大量待解決的問(wèn)題,值得進(jìn)行更深入的探討。