機器人“絕影”實現了可與四足動物相比擬的運動技能。 李智彬供圖
一只狗或者一只貓從來不用經過太多思考,就能依靠本能適應自然界的變化,在復雜地形中上躥下跳,靈活運動。但這一點對于同樣具有四足的智能機器人來說卻并不容易。如何讓機器人向自然界的動物看齊,是全球機器人專家們長期探索的課題。
近日,英國愛丁堡大學先進智能機器人實驗室與浙江大學朱秋國教授的機器人團隊合作,完成了一項針對四足機器人的新算法研究。這項研究成果被選為《科學—機器人》雜志的月度封面論文。
構建多專家學習體系結構
愛丁堡大學信息學院助理教授李智彬主導這一中英合作研究,也是論文的通訊作者。在接受《中國科學報》采訪時,他先解釋了傳統算法與論文中描述的新算法之間的區別。
在傳統方法中,算法工程師們往往只依據某個具體的人或物編程,這就意味著如果機器人遇到沒有被編入程序的場景,就非常難以應對。比如,在參與野外救援時,周遭環境復雜,讓機器人難以應付;或者有些機器人只是單項技能被訓練得十分得心應手,但無法自如實現模式轉換,“這也讓其實用性大打折扣”。
為了實現多功能運動,機器人需要適應前所未見的場景下的運動技能,為此該研究團隊提出了一種多專家學習體系結構(Multi-Expert Learning Architecture,縮寫為MELA)。“我們將原先單一技能的神經網絡群通過一個層級架構組合在一起,通過在線的動態激活來實現多種技能的動態融合。目前,在MELA上共設有8個深度神經網絡(DNN),由團隊中每個領域的專家分別負責一種特定的類型技能。”李智彬介紹道。此外,整個架構當中還有一個門控網絡程序,負責動態地調度整個神經網絡群。也就是在不同情況下,選擇性地、不同程度地激活各個DNN。如果遇到特殊情況,則會讓多個網絡共同配合以解決當前任務。
“就好像是足球隊中有多位運動員,各司其職。踢球時,每個運動員每時每刻所做的動作和參與程度不同,門控網絡就好比教練,告訴哪個運動員在哪個時間應該去做什么。”李智彬打了個比方。
在運行時,MELA不斷混合多個DNN,并動態合成新的DNN,以響應不斷變化的情況而產生自適應行為。李智彬表示,這種方法利用了受過訓練的專家技能和自適應策略的快速在線綜合的優勢,可以在不斷變化的任務中迅速響應。“使用一個統一的MELA框架,我們在一個真正的四足機器人上成功演示了多項技能運動。該四足機器人完全自主地實現了連貫的小跑、轉向和跌倒恢復,并展示了多專家學習生成行為的優點。這些行為可以適應之前無法預料的情況。”
實現可比擬四足動物的運動技能
在這項研究中,研究人員使用的四足機器人,即是被稱為中國版波士頓動力的 “絕影” 機器人。基于MELA深度學習框架,研究人員在真實機器人身上成功實現了可比擬四足動物的運動技能。
除此之外,李智彬表示,從生物學的角度來看,研究人員借鑒了生物學中的“層級架構”的運動控制方式,將“中樞神經系統的上層運動控制指令”與“脊柱神經系統、肌肉本身控制”作為相對獨立的層級,讓兩者分而治之,提高了學習的效率和速度;同時,從機器學習的角度來講,MELA深度學習構架使得各種運動技能可以通過“自動軟件流程+算力”來獲得,而整個過程中只需一個研究人員參與即可,無需一個多人團隊。從長期來看,這種機器智能是大勢所趨。
從機器人領域來看,MELA深度學習構架打破了傳統技術路線的“基于數學模型和控制理論方法”的局限性。“這項研究把機器人實際應用的范疇從已知環境拓展到了未知環境,極大地提高了機器人的自主智能和適應能力。”李智彬解釋道。
相較而言,波士頓動力四足機器人最新的控制方法,仍然停留于傳統的、相對成熟的機器人技術路線,即基于模型的帶約束的離線軌跡優化和基于模型的在線模型預測控制。
“這種控制方法的優點是在已知環境下通過人為給定環境中已知的物理參數,使得機器人生成特定的、人類想要的各種動作。不過,與止同時,局限性也十分明顯。”李智彬表示,當環境和機器人本身屬性發生變化(從已知變成未知)的時候,只能通過預先設計的控制器的抗干擾性能間接地、被動地去適應外界,而其控制方法在本質上是沒有主動適應能力的。
舉個例子,當機器人從正常的地面進入冰面,它無法主動調整步態來適應冰面的低摩擦路況,只能通過預先的步態控制來盡可能地保持平衡。李智彬認為,雖然從目前波士頓動力公開的視頻看,重復預先編程的動作或者通過操作員在后臺遙控操作,視覺效果十分驚艷,但實際應用上對于任務的成功率難以保障。“事實上,如果換成人或者四足動物的話,正常的表現應該是先穩定身體平衡,然后改變走路方式,而不是原地踏步或者亂邁步。”
另外,MELA深度學習架構還能在線幫助機器人適應硬件上的改變,這種改變可能是某只腳發生故障或者失去整條腿。而目前波士頓動力現有的控制方法還無法實現對這類狀況進行在線的適應性調整。
10年內或迎來井噴
論文中,MELA主要由8個深度神經網絡組成。李智彬表示,在目前架構中,子神經網絡的數量可以繼續增加,具體的數量可由任務的復雜程度,以及涉及到的技能種類來決定。“比如,讓機器人實現小跑轉彎、原地旋轉、摔倒后用各種方式起身繼續小跑等目標時,8個神經網絡的數量是比較合適的,如果少于8個,其控制的技能數量不足;若多于8個,則會出現‘人浮于事’的現象,還會降低學習的效率。”
在研究過程中,研究人員不斷試錯。在技術路線和解決方法未知的情況下,他們通過各種試驗進行嘗試,包括科學方法和思路、工程實現,以及編程、軟硬件調試等。這些嘗試中,各個環節的出錯概率過半。李智彬坦言,如要成功達成一定的研究目標,除了智力上的挑戰之外,能否避開錯誤路線并堅持到最后更為重要。
雖然試驗過程并不容易,但李智彬認為,人工智能和深度學習的前沿方法目前仍然在研究階段,每天都有新的突破。而且,當前大量研究聚焦在機器學習方向上,實現了比較明顯的量變的積累。此外,不同領域的機器學習研究中,各個獨立的研究工作呈現了“發現同一真理”的現象。
“如果把全球機器學習和機器人領域的研究作為一個整體的話,目前要在真實機器上實現‘和人可比擬的運動和操作’能力,其所需的要素基本上已經齊全。”李智彬說,“所以我們有理由相信,在未來的5年之內,只要少量的未解決的問題在學術圈或者公司得以突破,并且有機構能以足夠的財力、人力和物力能夠把相關研究成果通過工程方法融合在一起,井噴的階段很快就會到來。我們在2025年之前,肯定能夠看到少量的、代表性的實物概念性驗證。其對人類科技和文明發展的更廣泛的沖擊,會在10年以上的時間尺度上更清晰地體現。”(袁一雪)