11月27日,在2022全球人工智能技術大會上,由CAAI智能傳媒專委會、中國傳媒大學媒體融合與傳播國家重點實驗室、新浪AI媒體研究院聯合支持的“融合與發展”新智者·智能媒體專題論壇在線上舉行。CAAI智能傳媒專委會副主任,北京大學博雅特聘教授王亦洲以《主動跟蹤算法研究》為主題進行了分享。
圖注:王亦洲教授-“融合與發展”新智者·智能媒體專題論壇
以下為王亦洲演講實錄,內容經編輯略有刪減:
王亦洲:謝謝葉老師的介紹,各位專家下午好,我是來自北京大學的王亦洲,報告內容是主動跟蹤算法研究。解了一下聽眾范圍比較廣,可能更多介紹思路性的東西。今天我將主要介紹如何構建多智能體博弈機制,以實現魯棒的主動目標跟蹤。具體的,我將先簡要介紹博弈論、認知機制、主動目標跟蹤任務和虛擬環境等相關信息,然后將重點介紹四種多智能體博弈機制用于主動目標跟蹤。
首先,博弈現象非常普遍,小到我們的日常生活,大到經濟體或國家的經濟與政治活動。從博弈者之間的關系角度,博弈可以分為幾種,如對抗性博弈,比如常見的零和博弈,還有基于共同利益的合作博弈,但更多的是混合動機博弈。在這類博弈中,智能體短期和長期的interest可能不一致,個體和群體的利益可能也不一致。傳統的博弈策略集合是有限的,相對來說也是靜態的,這時候博弈相對簡單,但是如果是混合動機博弈,博弈會受到智能體心理狀態的影響,甚至可能采取不理智策略,這時候博弈分析變得更加復雜。所以研究混合動機博弈是多智能體系統現在的前沿研究方向,會涌現出很多有趣的交互智能現象,如合作、信任、欺騙、公平等。
2005年科學期刊列舉了125個我們面臨挑戰的科學問題,其中就有博弈論問題。用AI方法研究合作現象的演化是AI for science很有趣的切入點。我舉兩個例子:比如在囚徒困境中,由于囚徒無法信任對方,因此傾向于互相揭發,而不是保持沉默。最終導致納什均衡僅落在非合作點上的博弈模型,而不是群體意義上的帕累托最優。囚徒困境所反映出的深刻問題是,人類的個人理性有時能導致集體的非理性。
在獵鹿博弈中,每個人策略都是根據對手策略來相應地調整,但是如何形成commitment,這是個有趣的問題。獵鹿博弈是關于信任的博弈。按照經濟學,合作獵鹿的納什均衡比分頭抓打兔子的納什均衡具有帕累托優勢。獵鹿博弈和囚徒困境的區別在于,囚徒無法溝通信息,獵人可以溝通信息,博弈結果就會有所不同。區別于囚徒困境,獵鹿博弈有兩種純策略納什均衡:全合作或全背叛,而在囚徒困境中,盡管全合作是帕累托最優,但只有全背叛才能達到納什均衡。
上面兩個博弈例子還是比較簡單的,日常生活中我們的情況往往復雜很多。近幾年我們針對復雜博弈提出以下研究思路:首先要搭建一個比較復雜并具有一般性的環境,研究智能體在其中的博弈行為。進而將復雜的認知模型引入決策過程,研究交互智能現象的涌現機制。
下面我會簡單介紹一個認知模型-Theory of mind。人的交往過程中不是只從自己角度考慮問題,還要了解別人怎么想的,別人的信念是什么,他處于什么情緒狀態,對方想想要的是什么。有了這個機制,人們的交流就會更加高效。我們在自主跟蹤問題中就引入了這個認知機制。
近些年來,計算機視覺已經從被動的感知慢慢過度到主動視覺,而且正在向下一個階段自主學習發展。2005年G.Bekey給Autonomy下了一個通俗易懂的定義,系統在完成現實環境當中完成任務時會在相當長時間內不需要外界控制,這個系統我們可以說它具有自主性。
自主系統的標志性能力有:可以進行弱監督或無監督學習,可以不斷地獲得、總結、積累知識,可以探索環境和決策,,能夠獨立地完成這件事情。四是可以根據大任務或者無任務情況下自己去給自己布置任務,或者在大任務當中set子任務,根據環境變化調整自己的行為。所以我們一般說應該至少具備這四種基本能力,才有可能讓系統變得autonomous。在可控環境下要實現一個autonomous machine相對還是比較容易的,但如果在開放環境中把一個智能體放進去,讓它像一個新生兒一樣,自主地去了解這個世界,給自己設置任務去完成,不斷地成長,這是非常具有挑戰性任務。
下面回到研究主題,Autonomous Visual Tracking主動目標跟蹤就是讓機器人根據視覺觀測信息,主動控制相機運動, 使得目標始終以合適的大小出現在畫面的中心。它是一個比較基礎的功能,在很多真實系統中都有潛在的應用需求,比如移動機器人,無人機航拍,自動駕駛,智能監控中。我們把剛才講的社會博弈以及認知構架放到這個自主跟蹤系統上,讓它產生自主行為,這是一個非常有趣的科學問題。
這里可以看到一個例子,要真正實現主動目標跟蹤,其實會有很多不同的挑戰。比如,在錄制一些比較驚險刺激的特技鏡頭時,攝影師不僅要讓相機對準演員,還要同步適應復雜的地形環境,調動四肢跟隨演員移動,其技術難度可能要比演員表演特技還要高。并且這整個過程,從感知到動作都需要做到十分快速精準執行。然而,這對于現階段的機器人而言,幾乎是一件不可能的完成的任務。
那么,要真正實現復雜場景下的主動目標,我們的模型需要適應多樣的工作環境(包括不同的天氣、光照條件);還要克服障礙物遮擋(也就是避障),比如遇到障礙物的時候,要找到最短路徑繞過障礙物;也要克服動態干擾物的影響,避免混淆。因此,我們就考慮訓練一個端到端的模型,輸入圖像,直接輸出動作。感知和決策可以同步優化,互相適應,對應的中間表示也會更加緊湊。
要訓練這種端到端的感知-決策網絡,當前流行的有兩種方法,一種是模仿學習,一種是強化學習。模仿學習樣本效率會高一些,但是仍然需要收集專家數據進行訓練,而且不可避免的存在數據分布的偏差,模型的泛化性會比較差。對于跟蹤模型來說,模型的泛化能力是至關重要的。因此我們采用強化學習,我們只需要設計一個簡單的獎賞函數,機器人在環境中自主探索,就可以在試錯中學習技能。
但是,如果讓智能體在真實場景中交互試錯,他的代價是十分高昂的。因此,我們構建UnrealCV虛擬環境,用于機器人的自主學習。我們可以從中獲取高逼真的視覺觀測,精準的ground truth,以及進行實時的交互,包括多智能體的交互。這個項目已經開源了大家感興趣都可以用。
這是我們構建的虛擬環境,有室內和室外的。經常一些同學或同僚問在虛擬環境中做的東西到真實環境怎么樣,這個問題非常好。有些人認為,虛擬環境中的訓練的模型肯定不如真實環境。但是我認為此環境和彼環境沒有本質的區別。虛擬環境未必一定比真實環境簡單。比如,我們真實世界的重力加速度是9.8米每秒方左右,但是虛擬世界當中我悶可以讓重力加速度是任意的,可以是月球的,也可以是火星的。地球上十級臺風已經很大了,在真實環境中可能沒法做實驗。但是虛擬環境中,我們可以模擬二十級臺風。還有各種摩擦系數、光照條件、極端氣候等全都能夠模擬,你說虛擬環境一定是真實環境的子集嗎?重要的是,從一個環境中訓練的模型到另一個環境中都要進行遷移學習進行調整。從一個虛擬環境到另一個虛擬環境、從虛擬到真實,從真實到另一個真實都需要調整,方法其實是一樣的。所以不應該簡單地說:因為這個方法不是在真實環境中訓練的,就否定這個方法的價值,這種結論過于草率。
由于時間有限,下面我簡單介紹幾個主動跟蹤的問題和解決方法。首先我們做了一對一的主動跟蹤。它是一個零和博弈,逃跑者目的是要甩開跟蹤者。我們提出了一種非對稱博弈機制用于主動目標跟蹤的學習。也就是,在跟蹤器學習跟隨目標的同時,讓目標同步學習如何擺脫跟蹤。在這種競爭機制下,因為跟蹤器和目標的能力都是從零開始同步增長的,所以他們在每個訓練階段都能夠遇到一個能力相當的對手與之競爭,這就自然得構成了從易到難的課程,使得學習過程更加高效。這個機制是非對稱的,因為我們為逃跑者引入了心智模型,讓他猜測跟蹤者的跟蹤策略,從而訓練出聰明的逃跑者,最終得到更高明的跟蹤者。我們發現一些有趣的智能現象涌現出來,比如逃跑者為了甩開跟蹤者,學會了擬態行為。我們把在虛擬環境中訓練的跟蹤模型非常容易地transfer到真實環境當中,效果也很好。
另一個場景還是一跟一,但是多了干擾者,這個時候就復雜了針對視覺混淆干擾的影響,我們提出了一種多智能體混合博弈機制。該機制下,目標和干擾物組成了一個與跟蹤器競爭的合作團隊,通過主動制造具有迷惑性的外觀和行為使跟蹤器學習抗干擾的跟蹤策略。為了提高多智能體博弈學習的效率,進一步提出了一系列改進方法,包括面向干擾者的獎賞函數、跨模態師徒學習策略以及用于跟蹤器的循環注意力機制等。
在多跟一的模型中,我們主要采用的心理模型是從眾心理模型,因為物體走到某些角度時會block相機的view,這時被遮擋相機的動作要根據其他相機的pose決定。針對復雜場景下的單目標多相機跟蹤問題,受“羊群效應”啟發,提出了一種位姿輔助的多相機合作跟蹤系統。該系統中,設計了一種受羊群心態驅動的位姿控制器,可在視覺觀測受限情況下通過參考多數相機位姿狀態輸出與群體一致的動作(都指向同一區域),實現在復雜場景下的高效合作跟蹤。
最后一種更具有挑戰性的是多跟多的問題,智能體之間相互協調誰跟誰,把任務分進去之后各自完成各自的任務的思路。針對多相機多目標覆蓋問題,提出了一種面向目標分配的層次化多智能體協調機制。該協作機制主要分兩層,包括了一個集中式協調者和多個分布式執行者。協調者收集各個執行者的觀測信息,進行全局規劃,為每個執行者分配子目標任務。每個執行者通過采取一系列基本動作實現對指定目標集的覆蓋。為提升模型訓練效率和泛化能力,采用了一系列改進方法,包括了用自注意力感知模塊處理變長輸入輸出,面向目標分配的邊際貢獻近似估計,基于子目標的觀測過濾器等。謝謝大家。