周彥武
2021年5月26日,極狐阿爾法S 華為HI版正式下線,標志著華為進軍自動駕駛邁出關鍵一步,實現了量產。
圖片來源:互聯網
華為自動駕駛主要傳感器是800萬像素的立體雙目攝像頭和轉鏡式高線激光雷達。
圖片來源:互聯網
前風擋玻璃下有4顆攝像頭,兩側是立體雙目800萬像素攝像頭,中間是540萬像素100°水平FOV攝像頭,負責車前側。
圖片來源:互聯網
上圖可以看出華為800萬像素立體雙目的水平FOV是60°,但是對單個攝像頭是30°,這個比較窄的FOV保證了有效距離比較遠,探測車輛有效距離高達500米,小目標如行人或兒童乃至角錐是180米。立體雙目陣營的整車廠主要有奔馳、豐田、斯巴魯、捷豹路虎、本田,此外大眾和福特合資的Argo也是立體雙目路線。Tier1則有博世、大陸汽車、維寧爾、LG、電裝、大疆、日立和華為。
了解華為自動駕駛系統,同樣從專利入手,華為是申請專利最積極的公司。2021年4月底,華為一項自動駕駛領域專利正式公開,其中雖然沒有直接說立體雙目與激光雷達的融合,但仔細看,就是指立體雙目與激光雷達的融合。華為還有眾多立體雙目的專利,包括在線標定、自標定、立體匹配,還有立體雙目的L4級泊車。在立體雙目L4級泊車的專利里,華為還特別解釋了基線長短對測距精度的影響。
為什么要將立體雙目與激光雷達融合?激光雷達的缺點是其比較稀疏,即便是最強的Luminar激光雷達也難以和100萬像素的攝像頭比。再有就是不同物體激光反射率差別極大,同樣距離下,可能一輛白色車能探測到,一輛黑色車就探測不到。再比如交通指示牌,激光雷達對其反射回來的高強度回波非常敏感,容易在點云中形成“鬼影”和“膨脹”,這樣的點云是不可用的。還有空洞,“空洞”描述的是激光雷達對于近場低矮障礙物的探測在從遠到近過程中“時有時無”的丟失現象。障礙物原始點云“時有時無”會讓感知算法難以連續跟蹤,這容易導致智能駕駛的急剎車或頻繁“減速加速”頓挫。除了空洞,還有激光雷達行業內部的術語“吸點”,這就是在近距離跟車時,車牌是強反射目標,與車體的低反射目標容易混淆,測距不準,形成盲區,稱之為“吸點”。激光雷達數據的稀疏性與非結構化,導致傳統算法無法適應,深度學習這種測不準的黑盒子算法將激光雷達深度信息的高精度造成了衰減。攝像頭的缺點是必須有足夠的紋理特征,比如顏色完全一致的大貨車側面,平整的水泥路面等沒有紋理特征的目標,單目攝像頭會完全失效。立體雙目雖然此時仍可以探測到目標,但深度信息準確度也會下降。
立體雙目某種意義上也可看做一個激光雷達,其提供準確的深度信息,視差圖可以轉換為點云。因此立體雙目與激光雷達融合的效果,遠比其他種類的傳感器要好,單目通過深度學習可以估算深度,但準確度遠不能和測量模式的立體雙目比。
圖片來源:互聯網
華為專利里講的非常復雜,并且只字未提激光雷達,但顯然,能提供準確可靠的三維信息的只有激光雷達和立體雙目,自然是兩者間的融合。華為對立體雙目做了比較詳細的描述,即S601步驟,S601包括S6011圖像獲取,S6012標定相機獲取相機參數,S6013圖像數據立體校正,S6014圖像數據預處理,S6015立體匹配,立體匹配是立體雙目視覺的核心難點,華為專利里是這么寫的:通過極線約束及雙目相機與目標物體的距離估計出的視差搜索空間,從而減少匹配的搜索范圍;通過多重網格技術引進粗網格系列加速偏微分方程的收斂,提高匹配速度;通過細網格迭代,將殘差從最細網格依次限制到粗糙的網格中,運用像素的灰度、梯度及平滑度相結合的相似度判斷準則在粗網格搜索空間內尋找匹配點,得到視差值;將粗網格得到的視差值依次延拓到細網格,通過組合修正得到最終匹配點的視差值;按照以上步驟在整幅圖像數據上進行遍歷,直到得到完整連續的視差圖。S6016點云重建,通過雙目立體系統深度恢復原理,獲取圖像數據每個點的三維空間坐標,得到圖像數據對應的點云數據;對點云數據進行基于移動最小二乘法的平滑濾波,獲取平滑后的點云數據。
S602階段,利用激光雷達的點云數據用深度學習模型推理得出第一個三維信息立體框,業內一般叫3D BBX。S603和S604實際是一步,將2D深度學習推理后的信息(即語義分割)與立體雙目的深度信息融合獲得第二個三維信息立體框,最后將兩個三維信息融合。可以看做是2D圖像、立體雙目深度圖和激光雷達的三融合。
圖片來源:互聯網
傳感器融合是非常困難的,通常都是吃力不討好的,花費巨大,效果極有可能反而不如單一傳感器,這是因為相機通過將真實世界投影到相機平面來記錄信息,而點云則將幾何信息以原始坐標的形式存儲。就數據結構和類型而言,點云是不規則,無序和連續的,而圖像是規則,有序和離散的。這導致了圖像和點云處理算法方面的巨大差異。但立體雙目的視差圖可以轉換為點云,融合難度大大降低。
奔馳和豐田的自動駕駛上,是以雙目為核心,以低線束激光雷達輔助,是簡單的弱融合。而華為使用了3個高線束激光雷達,應該是強融合。
圖片來源:互聯網
激光雷達與視覺融合的發展時間線如上圖,當然這些都是實驗室級別的,沒有進入實用階段。有單級的如像素級或體素Voxel融合,有提取特征的特征級融合,也有多級融合。
圖片來源:互聯網
上圖是國內常用的自動駕駛傳感器融合技術框架
圖片來源:互聯網
上圖是國外常用的自動駕駛傳感器融合技術框架
兩者都離不開激光雷達鳥瞰圖,鳥瞰圖避免了透視遮擋,并保留了對象的方向信息和x,y坐標的原始信息。這些方向和x,y坐標信息對于3D對象檢測至關重要,且鳥瞰圖和其他視角之間的坐標轉換較為直接。絕大多數如Waymo或百度阿波羅科技類公司自動駕駛都是這樣設計的,這是業內大多數公司的選擇,是最成熟的算法,生態系統最完整,但這樣意味著少不了車頂的激光雷達,這對汽車造型提出極大挑戰,一直無法量產實用化。Waymo之類的廠家在這種算法上投入巨大,以至于無法轉移,否則之前數年的研發成果付之東流。
豐田或奔馳則是以雙目為核心,首先是立體雙目利用視差圖加柵格占有法找出可行駛空間。其次是光流預測自車移動軌跡與周邊車輛移動軌跡,最后才是用DNN的目標識別與追蹤,做語義分割,提高智能程度。激光雷達的作用主要是增強雙目的遠距離探測目標能力,豐田的激光雷達只有3線。
圖片來源:互聯網
這種方案,成本低,可靠性高,缺點是低速城市環境比較復雜,雙目的可行駛空間精度不夠,只適合高速路段。需要高線束激光雷達做增強。
華為的思路一開始就介于豐田和Waymo之間,三融合非常近似于第一種MV3D的算法,實際三融合勉強可以看做用立體雙目取代鳥瞰激光雷達,同時雙目也可以做單目用,單獨抽出一路做純2D圖像,最后立體雙目點云和激光雷達點云的三融合,也就是上文中的三融合。這樣高速與低速環境都能適應,也不使用頭頂激光雷達,車輛造型更好處理。缺點是在樹木特別密集道路可能會有卡頓。
華為專利里的自動駕駛系統,圖片來源:互聯網
華為自動駕駛接口系統,圖片來源:互聯網
華為自動駕駛運算系統,圖片來源:互聯網
復雜的三融合可能導致計算系統成本高,功耗高,實時性差,這僅是從專利推斷的,估計實用中的華為自動駕駛系統要簡化一些。