自動駕駛算法邏輯框架中的三層特性——“多”重,“自”主,“深”化演進
復睿微電子·方濤博士
作者介紹:方濤博士,畢業于南京大學,日本京都大學博士后研究員。長期從事汽車行業算法研究。
復睿微電子:復睿微電子是世界500強企業復星集團出資設立的高新技術企業。復睿微電子植根于創新驅動的文化,通過技術創新改變人們的生活、工作、學習和娛樂方式。公司成立于2022年1月,目標成為世界領先的智能出行時代的大算力方案提供商,致力于為汽車電子、人工智能、通用計算等領域提供以高性能芯片為基礎的解決方案。目前主要從事汽車智能座艙、ADS/ADAS芯片研發,以領先的芯片設計能力和人工智能算法,通過底層技術賦能,推動汽車產業的創新發展,提升人們的出行體驗。在智能出?的時代,芯?是汽?的?腦。復星智能出?集團已經構建了完善的智能出??態,復睿微是整個?態的通??算 ?和??智能?算?的基礎平臺。復睿微以提升客戶體驗為使命,在后摩爾定律時代持續通過先進封裝、先進制程和解決?案提升算?,與合作伙伴共同?對汽?智能化的新時代。
前言:
自動駕駛,作為目前汽車產業整體集中發力的重要技術方向,是一項融合了傳感器,先進算法,軟件生態,芯片硬件,地圖導航,整車架構、信息安全、法律法規等多元素多維度,綜合性系統工程。在這之中,算法的開發和演進對于自動駕駛技術的發展起到至關重要的作用。目前的自動駕駛系統在工程實現上依然面臨各式各樣的挑戰,例如:極端惡劣的天氣條件,復雜多變的交通狀況,千奇百怪的corner case,以及與傳統智能硬件設備相比更為苛刻的功能安全等等。這也決定了整個算法的邏輯框架是復雜的,進化的,多粒度的。因此,我們以自底而上的方式,分析自動駕駛算法在邏輯框架的各個層面的特性,梳理對自動駕駛算法的理解以及對未來算法發展方向的展望。
“Multi-” 是自動駕駛算法的底層特性,來源于駕駛環境的復雜性。這一特性體現在:多傳感器輸入,多模態信息,多任務處理,多尺度分析,等等
1.多傳感器輸入
隨著自動駕駛等級從L1向L5的提升,對傳感器數量的需求也是與日俱增。以信號像素分辨率最大,語義最清晰的攝像頭為例,在L2等級的自動駕駛階段,攝像頭的數目一般不超過5個,而以L4為目標的車型上,攝像頭的數目一般在10個乃至15個以上。更多的傳感器可以讓車輛感知更多更精準的信息,而一部分的信息冗余也能為自動駕駛提供更好的功能安全保障。這就要求感知算法必須以極低的延遲處理來自多數據源的數據,以提供即時可靠的信息,保障行駛的安全順暢。
2.多模態信息
除了傳感器的數目眾多之外,傳感器的種類也是多種多樣。比如提供圖像信息的攝像頭,紅外傳感器,提供點云信息的激光雷達和毫米波雷達,提供距離信息的超聲波傳感器,提供位置信息的GNSS模塊,提供位姿信息的慣性傳感器等等。多樣的傳感器決定了輸入信號的多模態形式,也使得各種傳感器信息互補,冗余安全。例如,相比于可以提供高像素分辨,色彩信息的攝像頭,雷達傳感器雖然缺少語義信息,但卻可以提供極高精度的點云即深度信息,并且不受環境光照條件的影響。因此將各種傳感器,多種模態輸入的信息進行融合是感知算法中的重要模塊。主流的實現方向有前融合和后融合兩種。后融合算法在各模態信息進行特征提取的基礎之上進行融合,數據和算力的要求較低,但信息互補的效力也隨之降低。與之相對,前融合算法以不同傳感器的原始數據進行融合,能夠更好的保留冗余異構的多模信息,更好的達到以數據之間的互補來降低識別誤判的風險的效果。同時,高安全性,高魯棒性的前融合算法對算力也提出更高的挑戰。
3.多任務處理
車輛在行駛過程中需要同時對多任務進行處理,例如感知信號的識別,檢測,分割,融合,目標追蹤,行為預測,規劃決策等等。能否高效的,即時的處理多任務是保證車輛行駛安全的重要因素之一。基于多任務處理的算法設計核心思路是盡可能多的復用骨干網絡來提取特征以支持不同的下游任務。這樣做首先可以節省資源開銷,降低運算時延,其次由于各任務是基于相同的信息進行分析和處理,可以充分保證結果的一致性和連貫性。Tesla的九頭蛇網絡就是一種非常形象的多任務網絡架構。
4.多尺度分析
車輛行駛的環境是復雜多變的。從卡車,汽車,到單車,行人,乃至遠處的交通信號和路上的錐桶障礙,需要檢測和追蹤的目標的大小,以及目標顯示在傳感器上的尺度千差萬別。因此,多尺度分析的發展,對于自動駕駛的算法,尤其是感知模塊的算法會有相當顯著的提升。以特征金字塔網絡(FPN)和Swin Transformer等類似的多尺度特征分析網絡架構在自動駕駛系統的應用中提供高效的感知分析能力。
“Self-” 是自動駕駛算法的中間邏輯層的特性,來源于算法的終極目標—自動駕駛。這一特性體現在:自監督算法,自注意力機制,自適應大小的高效網絡設計空間,等等
1.自監督算法
有監督的深度學習算法在自動駕駛領域已經有了長足的發展和應用,而自監督或無監督的深度學習算法還有相當深厚的應用潛力有待挖掘。
深度學習的算法是數據驅動的,自動駕駛更是如此。有監督學習需要以大量的標注數據對深度模型進行訓練,標注數據的數量和質量極大程度上影響模型的訓練結果。而大量的優質標注數據則意味著極大的時間,人力成本。而自監督學習框架可以極大程度的減少學習過程對于標注樣本的依賴。譬如利用數據增廣產生的正樣本與其他數據的負樣本之間的度量對比,或部分內容掩蓋再預測的方式學習到信息數據的本質特征。再由自監督學習中得到的理解了數據本質的預訓練網絡應用于各項下游任務中。
除了判別式的自監督,生成式的自監督算法在自動駕駛領域也有不可忽視的地位。在小樣本數據的情況下,通過對抗生成網絡(GAN)的數據增強能使訓練獲得更好的學習效果。此外,更高的自動駕駛等級也意味著更高的系統安全性要求,而GAN網絡在數據安全的攻擊對抗算法中有著舉足輕重的作用。
強化學習是自動駕駛中規劃控制算法的重要研究方向。其中以行為克隆(Behavior cloning)為代表的有監督強化學習是目前較為主流的方案,期望以專家的行為模板為機器算法提供常識性的學習經驗。然而這樣的模仿學習需要大量的專家行為數據,而且模型的泛化能力也很差,很難應對復雜的道路狀況。就如同圍棋領域,沒有學習任何人類經驗的AlphaGo Zero在自我對弈了數百萬盤棋局之后,棋力已遠超參考人類棋譜的前輩Alpha Master。相信在自動駕駛的領域里,隨著交通法規的不斷細化完善,虛擬環境仿真能力的不斷增強,以及芯片算力的不斷提高,自監督的強化學習也將取代模仿學習成為規劃控制模塊研究的新方向。
2.自注意力機制
基于自注意力機制的Transformer算法從最初的NLP領域成功出圈到視覺領域后同樣取得了令人驚嘆的成績。卷積神經網絡(CNN)可以高效的對圖像進行特征提取是基于圖像信息局部性、平移不變性、權重共享和稀疏連接的歸納偏置。而CNN網絡感受野較小等局限性同樣來自于這樣的歸納偏置。相對應的,transformer的自注意力機制擁有強大的全局建模能力,從根本上規避了卷積網絡歸納偏置的缺陷,對于數據整體特征的理解更有優勢。除了應用于傳統視覺的識別,檢測,和分割等任務之外,自注意力機制的全局理解能力也能很有效的應用于多模態信息處理,例如多傳感器融合的算法中。
3.自適應大小的高效網絡設計空間
網絡設計空間是由Facebook AI團隊提出的網絡設計新范式。如果把每一各網絡結構看作某種空間上的一個點,那么所有可能的網絡所組成的點的集合就構成一個空間。按照一定設計規則和參數范圍所映射的子空間就構成一個網絡設計空間。這種新范式的設計目標是用通用性和普適性更高的規則尋找一個高性能,高泛化性的網絡設計空間,即一個網絡架構簇,而不再是尋找單一的網絡。文章中提出的Regnet就是用這種方法構建出的一套網絡設計空間。使用這種設計方式的優勢在于,用網絡設計空間的邏輯構建出的網絡簇可以兼顧網絡表現的整體一致性和網絡尺度的多樣性,當芯片算力提升,希望增加網絡模型的大小以優化算法表現時,用設計空間的更大網絡替換較小網絡就能實現目的。因為網絡空間的整體一致性使得設計空間中網絡間的泛化性增強,網絡架構的優化歷程可以由隨機性的搜索變成系統性的演進。
“Deep” 是整個自動駕駛邏輯框架最頂層的特性,是自動駕駛算法未來發展的方向。
在目前的工程實踐中,感知模塊中的傳統算法已逐漸被深度學習算法取代,而在信息融合,跟蹤預測等任務以及規劃控制模塊中,傳統算法還是發揮著重要作用。例如卡爾曼濾波算法在信息融合和跟蹤預測等任務中有相當活躍的表現,而在規劃模塊中,基于控制論和機器人學的算法也被廣泛應用于運動路徑規劃中。盡管如此,我們相信深度神經網絡的算法代替傳統算法幾乎是必然的趨勢。在深度學習已經涉及的所有科學技術領域,人們都無一例外的發現,只要提供足夠的算力,深度學習方法對比傳統算法在精度,普適性,泛化性上都取得壓倒性的優勢。隨著車載芯片算力的不斷提升,感知,融合,預測,規劃,控制等一個個任務模塊被深度學習算法取代,并最終有可能形成一個端到端的完整深度網絡模型,是未來自動駕駛發展的趨勢和方向。