萬字分析汽車毫米波雷達點云技術-魔扣目錄

雷達點云的語義分割是雷達數據處理中的一項新的挑戰。我們演示了如何執行這項任務，并提供了關于人工標記的雷達反射的大型數據集。與之前將聚類反射產生的特征向量作為分類器的輸入不同的是，現在將整個雷達點云作為輸入，并獲得每個反射的類概率。因此，我們不再需要聚類算法和手動選擇特征。

1 介紹

在過去幾年中，圖像分析從單純的將圖像中的中心對象的分類，以及對象或對象部分的檢測轉移到單個組合任務：語義分割。語義實例分割通過區分物理上不同的對象的相同類標簽的像素來增強語義分割，使得除了按像素分類之外，還會對對象實例進行分組。

語義分割通常是由深度卷積神經網絡完成的，這些網絡通常表現為編碼器-解碼器結構。這些架構都依賴于規則的圖像結構，也就是具有等距像素的矩形網格。如果使用全卷積網絡，網格的尺寸，即圖像的寬度和高度，可能是變動的。矩形網格引起像素之間的距離和鄰域關系，這些關系被卷積核所利用，其空間擴展大于一個像素。因此，如果將攝像機用作傳感器，這些方法可以正常發揮作用。雷達和激光雷達傳感器是對攝像頭的補充，以保持功能安全。這些額外的傳感器不僅應該是互補，而且還是冗余的。因此，最好也能從雷達和激光雷達中獲得對周圍環境的高度語義理解。

在本文中，我們將對雷達數據進行語義分割，也就是說，我們為每一個測量到的反射點分配一個類別標簽。我們專注于動態對象，并針對研究六個不同的類別：汽車、卡車、行人、行人組、自行車和靜態對象。在應用恒虛警率（CFAR）算法之后獲得的雷達檢測結果構成了一個點云，其中點云P被定義為一組N∈N個點pi∈Rd，i = 1，…，N，其中點云中的點的順序無關緊要。對于每次反射，需要測量兩個空間坐標（徑向距離r和方位角φ），自我運動補償多普勒速度vˆr和雷達截面（RCS）σ。因此，必須在語義分割任務中處理4維點云。雷達反射的空間密度會急劇變化，因此大規模網格映射的方法在計算上是不可行的。所以，不能應用用于相機圖像的通常網絡結構。可以從圖1中讀出，不需要類似圖像的輸入的算法，是非常有必要的，圖中顯示了在200毫秒的時間內從四個雷達上收集的雷達探測數據。在該圖中，可以看到沒有測量的大區域以及具有大量反射的區域。整個場景的網格地圖具有大約2000個單獨的反射，必須覆蓋至少150米×200米的大空間區域，甚至在非常低的分辨率下，單元尺寸為1米×1米，網格中最多有6%的像素將具有非零值。

萬字分析汽車毫米波雷達點云技術-汽車開發者社區

圖1 雷達點云積累超過200毫秒。突出了三種不同車型的反射。僅顯示完整視野的摘錄

因此，我們使用Poin.NET ++作為我們分割算法的基礎。PointNet ++能夠直接在點云上工作，它最初設計用于處理來自激光掃描儀的3D空間數據。在本文中，我們修改了架構以處理兩個空間維度和另外兩個特征維度。

在之前的工作中，分類是在特征向量上進行的，而這些特征向量又是從聚類的雷達反射中獲得的。通過我們的新方法，我們避免了這兩個預處理步驟：將雷達目標分組到聚類，并且不再需要從這些聚類中生成預定義的特征向量。這些表明我們的新方法大大優于以前的方法。

本文的其余部分結構如下：在第二部分，我們評論了相關工作和該議題的其他方法。之后，我們更詳細地描述了我們的網絡結構，并解釋了我們的訓練和測試程序。在第四部分，我們展示了我們的成果，并將其與以前的方法進行了比較。最后，對我們的未來工作進行了展望。

2 相關工作

當相機用作傳感器并且大多數算法都針對圖像數據進行定制時，語義分割是一種流行的方法。全卷積網絡的引入激發了許多類似的和后來更先進的神經網絡結構，如SegNet，U-Net，R-CNN，以及其后續的Fast R-CNN，Faster R-CNN，和Mask R-CNN。為了將這些技術應用于雷達數據，必須進行一些預處理。網格圖提供了一種將空間非均勻雷達反射轉換為圖像數據的方法。測量的反射隨時間積分并插入地圖中的相應位置。用這種方法可以創建不同的地圖，例如占用網格地圖（描述網格占用的后驗概率），或者RCS地圖，（提供有關每個網格中反射的測量RCS值的信息）。這種方法對靜態物體很有效，因為只需要考慮自我運動（而不是額外的物體速度和軌跡），就可以在地圖中的正確位置插入不同時間的雷達反射。對于在此項工作中所考慮的動態物體，需要精確的擴展目標跟蹤算法，或者將物體的動態視為特征，以便動態物體在地圖中創建擴展的反射尾部。另一個困難是，對于稀疏數據，網格映射并不是有效的，因為需要潛在的大網格來顯示相對較少的測量。

據我們所知，以前沒有對移動物體的汽車雷達數據進行過語義分割。分類只在小數據集或大量的模擬數據上進行。

3 方法

A. 網絡結構

齊等人提供了PointNet和PointNet++方法來直接處理點云，因此不需要先前的映射步驟。他們對通過從室內場景的3D掃描的網格中采樣點獲得的3D點云執行語義分割。我們使用他們的架構作為我們方法的基礎。然而，我們在實驗中使用的雷達數據在以下方面與3D室內數據不同。首先，每個雷達反射點只包含兩個而不是三個空間坐標，但加上自我運動補償的多普勒速度和RCS值的兩個附加值，整個點云的每個點pi都是四維的。其次，我們的數據在密度和采樣率方面顯示出更大的差異。斯坦福大學的3D語義分析數據集的3D掃描提供了高密度的點云，其中可以看到辦公室內部的細節，而我們的雷達數據僅為每個對象提供少量反射，因此對于較小或較遠的物體，甚至連物體的輪廓都無法正確捕獲，見圖1。

在PointNet ++ 中定義了多尺度分組模塊（MSG）和特征傳播模塊（FP）。MSG模塊考慮了圍繞中心點的多種規模的鄰域，并在描述這些鄰域的中心點的位置處創建組合特征向量。該模塊包含三個步驟：選擇、分組和特征生成。首先，通過最遠點采樣選擇輸入點云的Nsample點以便均勻地采樣輸入點云。在分組步驟中，為每個被選中的Nsample點創建鄰域。在我們的網絡中，鄰域由位于中心點周圍的半徑r內的Nneigh點組成。只考慮雷達反射的兩個空間分量用于鄰域搜索。如果一個反射點在給定的搜索半徑內有Nneigh個以上的鄰域，則僅將找到的第一個 Nneigh 點用于進一步計算如果發現的反射點較少，則重復第一個鄰域以保證固定大小的數據結構。在每個MSG模塊中，創建多個具有不同r和Nneigh值的鄰域。在最后一步中，通過在具有形狀（Nsample, Nneigh, cin ）的鄰域張量上應用具有濾波器大小1×1的卷積層，為每個Nsample 點生成特征，其中cin是通道的數量。這將產生一個大小為（Nsample, Nneigh, cout)的張量，在這個張量上應用一個最終的最大集合層，以便只考慮具有針對相應濾波器的最高激活的鄰居的貢獻。

經過MSG模塊后，輸出點云中的點數比輸入點云中的小，因此，更深層中的點包含越來越多的抽象特征，這些特征提供了關于前幾層的領域點的信息。這個過程類似于用于圖像處理的卷積網絡，圖像尺寸在每一層都被縮小。在圖2中，顯示了空間位置以及雷達反射的自我運動補償的多普勒速度，并描述了在每個MSG模塊之后輸入點云的子采樣。在圖中未顯示為MSG 模塊中的每個點生成的高維特征向量。場景的攝像機圖像如圖3所示。

對于語義分割，子采樣點云的信息被傳播到全輸入點云。

萬字分析汽車毫米波雷達點云技術-汽車開發者社區

圖2 摘錄一個示例雷達點云。繪制空間坐標以及自我運動補償的多普勒速度。從左到右：輸入層處的點云和第一，第二和第三MSG 模塊之后的子采樣點云。數據累計超過500毫秒。該場景的攝像機圖像可以在圖3中找到。

萬字分析汽車毫米波雷達點云技術-汽車開發者社區

圖3 與圖2相同場景的攝像機圖像

這一任務由特征傳播模塊執行：k層MSG模塊之后是k層FP模塊，這些模塊將較少填充的點云的特征反復傳播到下一個較高層。對于密集點云中的每個點pi，計算出稀疏點云中三個最近鄰居的特征向量的加權平均值，并在將該特征向量通過一組卷積層后，分配給該點pi。從 MSG 模塊的相應級別跳過連接改善了特征的傳播。

我們的網絡結構如圖4所示，其中還定義了MSG 模塊的參數值。

B. 數據集

在本文中，我們僅使用由兩個不同的實驗車輛，即車輛A和車輛B，所收集的真實世界的數據。車輛A配備了四個77GHz的傳感器，分別安裝在車輛的兩個前角和側面。僅使用傳感器的近程模式，以便探測100米范圍內的目標。每個傳感器的視場角為±45°。

車輛B 配備了八個雷達傳感器，其規格與車輛A 的傳感器相同。這八個傳感器安裝在汽車的四個角上以及汽車的左前，右前，后左和右后側。

車輛A（B）的數據集包含了超過4.5小時（6.5分鐘）的駕駛測量，也就是說，收集了超過1億（500萬）的雷達反射，其中300萬（100 000）屬于6200（191）個不同的移動物體。所有屬于同一物體的反射都被手動分組，并使用以下類別中的標簽進行注釋：汽車、卡車、行人、行人組、自行車和靜態。表格 I 中顯示了六個類別的反射分布與我們以前的工作不同的是，雜點沒有被作為一個額外的類別來研究，而是被視為靜態，因為在這項工作中，我們的目標是僅從原始點云中檢測和分類真實的動態物體。我們以前的分類器不得不處理并非來自真實物體的聚類和特征向量，因此有必要對垃圾類和真實物體進行區分。這些錯誤創建的聚類和特征向量是由不完善的預處理步驟造成的，我們在此嘗試避免這些步驟。

表 I 六個類別的雷達反射分布

萬字分析汽車毫米波雷達點云技術-汽車開發者社區

C. 訓練和測試

在我們進行實際訓練之前，必須修復超參數。必須確定MSG模塊的數量、樣本點Nsample的數量、每個MSG模塊中的鄰域數量及其各自的半徑r，每個樣本點的鄰域點Nneigh數量，以及每個模塊中卷積層的數量和大小。通過檢查隨機選擇的驗證集上的合理配置并更改這些配置以進一步優化網絡性能來完成。由于參數空間的巨大規模和相應的計算成本，對參數空間進行完整的采樣是不可行的。

圖4描述了最終選擇的、性能最好的架構。

萬字分析汽車毫米波雷達點云技術-汽車開發者社區

圖4 我們網絡的結構。紅色箭頭表示跳過的連接，通過這些連接，從MSG模塊中提取的特征被傳遞到相應層的FP模塊中。三個MSG模塊的內核大小為[[32, 32, 64], [64, 64, 128]], [[32, 32, 64], [64, 64, 128]]和[[64, 64, 128], [64, 64, 128]] 。

為了評估，我們進行了五重交叉驗證。也就是說，數據集被分成五個集合折疊，每個折疊占20%的數據，每折疊用于測試一次，其余四個折疊作為訓練數據使用。

只有車輛A的數據被用于訓練。來自車輛B的測量數據僅用于檢查我們分類器的泛化能力。該網絡使用隨機梯度下降法和基于交叉熵的損失函數以及Adam優化方案進行訓練。我們使用了中公布的張量流源代碼的一部分。

由于靜態和動態數據之間的巨大不平衡（大約9700萬到300萬），靜態類的損失函數的權重被降低，這樣優化就不再把幾乎所有的點分配給靜態類。

訓練歷時30個周期，在此期間進行了數據增強：隨機噪聲被應用于每個特征維度，從而改變了反射的空間位置以及測量的RCS 值和自我運動補償的多普勒速度。速度特征僅針對動態對象的反射進行了修改。此外，為每個動態對象生成一個隨機數q∈[0,0.3]，并且在該時期中以概率q 省略該對象的每個反射，從而改變動態對象的形狀和密度。

網絡本身對單個反射的記錄時間沒有概念，但在訓練過程中，我們為網絡提供了長度為T=500毫秒的時間窗口，使得點云變得更加密集并且可以考慮每個對象更多的反射。在最早的測量時，不同時間段的反射被轉換成車輛坐標系。

點云的輸入大小固定為3072次反射。如果在500毫秒長時間窗口內測量到超過3072次反射，則去除靜態類別的反射，如果測量的反射少于3072次，則對一個反射重新取樣到所需的次數。由于網絡結構中的最大匯集層，這種過采樣并不會改變語義分割的結果。

在測試過程中，接下來的3072次反射通過網絡傳遞，按測量時間排序，因此不需要過采樣或欠采樣。

訓練是在配備了Nvidia GeForce GTX 1070 GPU的linux工作站上完成的。

4 結果

基于6×6混淆矩陣和宏觀平均F1分數（下文僅稱為F1分數）對我們的系統進行了評估。F1分數對應于精度和召回率的諧波平均值[24]。在宏觀平均中，在宏觀平均中，每個類別對總分的貢獻是相等的——與類別的計數無關——因為每個類別都計算一個單獨的F1分數，然后對這六個值進行平均。

A. 最佳性能架構

我們首先展示了使用我們性能最好的架構獲得的結果。我們僅使用來自車輛A 的數據進行五重交叉驗證。除了兩個空間坐標x和y（在車輛坐標系中）, 我們還用自我運動補償的多普勒速度和RCS值來豐富輸入點云。因此，我們提供了一個四維的點云作為輸入。

由此產生的混淆矩陣如圖5所示。

萬字分析汽車毫米波雷達點云技術-汽車開發者社區

圖5 用圖4中描述的網絡結構進行5重交叉驗證后的相對混淆矩陣。點云的輸入特征：x, y, vˆr , σ。

不足為奇的是，帶有靜態標簽的多數類顯示出最高的真陽值。然而，我們應該知道，區分屬于移動或非移動物體的反射，遠比在多普勒速度上設置一個閾值，并將速度低于該閾值的每個反射歸類為靜態反射要難得多。在現實場景中，許多不屬于運動物體的反射顯示出非零的自我運動補償的多普勒速度，這是由里程表誤差、傳感器偏差、時間同步誤差、鏡像效應或其他傳感器偽影引起的。此外，多普勒速度為零的反射不一定屬于靜態物體，因為旋轉的汽車車輪底部或行人的身體部位（沿行走方向垂直移動）也可能不顯示徑向速度。

汽車類的物體被分類為次優，再次是行人組。卡車類的對象經常與汽車混淆。有兩個原因可以解釋這種混淆：第一，在很遠的距離上，每個物體只能測量到很少的反射，因此很難推斷物體的空間范圍。其次，汽車和卡車實例之間的轉換相當順利的，因為，例如，大型SUV與小型卡車很難區分。

從圖中可以推斷出的另一個顯著行為是行人和行人組之間的高度混淆。這種行為可能是由我們的訓練數據引起的，因為對于人類注釋員來說，有時可以將附近兩個行人的反射指定給個人，從而創建兩個行人的實例，但有時這不容易，而且時間要求也太高。使所有反射都標記為行人組的單個實例。因此，除了復雜的任務本身之外，網絡還必須與地面真實數據的不一致性作斗爭。對于許多駕駛任務來說，了解某一區域是否有一個或兩個行人并不重要，這樣兩個等級就可以合并在一起，從而產生超過91%的真實陽性率。

由于數據集高度不平衡，只檢查歸一化為類計數的相對混淆矩陣可能會產生誤導。因此，我們也在圖6中展示了具有絕對值的混淆矩陣。這種可視化強調了許多假陽性動態對象是由網絡創建的（圖中的最后一行）。這種效果對于汽車類來說是最明顯的：只有68%的預測汽車反射屬于動態物體（參見圖6的第一列）。然而，對于汽車應用來說，動態物體的高假陽性率可能比高假陰性率更可取。降低靜態類的損失函數中的權重會導致更高的假陽性值，所以這個參數允許我們在假陽性和假陰性之間進行調整。

萬字分析汽車毫米波雷達點云技術-汽車開發者社區

圖6 用圖4中描述的網絡結構進行5重交叉驗證后的絕對混淆矩陣。點云的輸入特征：x, y, vˆr , σ。

應該注意的是，動態反射和靜態反射之間的混淆百分比（圖5中混淆矩陣的最后一列）并不代表被忽略的對象的百分比。如果動態物體只有一個反射被正確分類，但同一物體的其他反射被分類為靜態的，即使假陰性計數增加，該物體仍然被檢測到。

B. 輸入特征的變化

為了更深入地了解哪些信息對網絡有用，我們用三組不同的輸入特征 f1 = x, y, vˆr , f2 = x, y, σ , f3= x, y重復五重交叉驗證，并將結果與原始特征 f0 = x, y, vˆr, σ進行比較。在表II中，顯示了每個輸入配置的F1分數。從這個表中可以看出以下幾點。呈現給網絡的輸入特征越多，性能就越高。在輸入特征中加入每個反射的RCS值會使F1分數小幅增加（從0.7303到0.7425），而加入自我運動補償的多普勒速度則影響更大，使得分數幾乎增加了0.1。盡管多普勒速度作為一個特征，有一定的重要性，但有趣的是，對于輸入特征f2和f3，網絡的性能仍然遠遠高于隨機猜測。這意味著反射的空間環境對網絡來說是非常有表現力的特征，并為分類步驟奠定了基礎，然后再利用速度和RCS值的附加特征進行分類。

表 II 不同輸入特征的分類分數

萬字分析汽車毫米波雷達點云技術-汽車開發者社區

C. 測試車輛B的數據

到目前為止，只應用了車輛A的數據進行訓練和測試，現在，我們使用一個僅用車輛A的數據進行訓練的網絡，來預測車輛B所測得的反射的類別。這種設置的差異在于兩個方面。一方面，車輛B配備了8個而不是4個雷達傳感器，因此提供了車輛周圍的360°視野，不同于車輛A的主要是正面和側面的設置。另一方面，車輛A的數據是在德國城市和鄉村道路上收集的，而車輛B只在美國收集數據。不同的道路和街道設計以及平均較大的汽車對算法構成了挑戰。

在這些新數據上應用我們性能最好的網絡，其F1分數為0.46，明顯低于我們用五重交叉驗證得到的數值。如果測試車輛前部的四個傳感器與后部的四個傳感器獨立評估，則F1分數可增加到0.48。

由于車輛B的數據集與車輛A的數據集相比非常小，所以我們必須謹慎地解釋結果。然而，很明顯，改變傳感器的設置對分類器的性能有一定的影響。

D. 與以往方法的比較

在前面的工作中，我們使用DBSCAN進行聚類，并使用LSTM網絡進行分類，以生成特征向量序列的類標簽。此前，我們對在地面真實集群上生成的特征向量進行了性能測量。在本文中, 這種方法的評估是通過將特征向量的類標簽投影回集群的原始反射來完成的。

我們在同一個數據集上訓練LSTM網絡和我們的新方法，并在相同的測試集上評估這兩種方法。為了進行公平的比較，LSTM不是在地面真實聚類的特征向量上進行測試的，而是在點云上應用DBSCAN得到的聚類中產生的特征向量上進行。與我們當前的方法不同，如果特征向量來自不屬于真實對象的聚類，LSTM還學習將其分類為垃圾。如果LSTM拒絕這樣一個特征向量，我們就會在比較中把相關的點當作靜態的。

我們的新方法在這個選定的測試集上達到了0.734的F1分數，而DBSCAN+LSTM的方法只得到了0.597分。新方法創建的假陽性動態對象更少，并且在所有類中具有更高的真陽性計數。最吸引人的特點是，被錯誤地認為是靜態的反射物少了三倍，因此可能有更少的物體被忽略了。源自動態物體的反射與來自靜態類的反射的混淆不僅源于LSTM的不良分類結果，而且主要是由于聚類不足，使得LSTM無法對某些反射進行分類。

E. 可視化

在一個場景的前向傳遞過程中，可視化不同網絡層的輸出是很有用的。圖2顯示了一個示例場景在輸入級和三個MSG模塊之后的空間位置以及多普勒速度。

不同層的卷積核很難可視化，因為只執行1×1的卷積，因此不存在濾波器本身的有意義的圖像。然而，我們可以通過網絡傳遞不同的場景，并在最后一個卷積層之前收集網絡輸出。在這個輸出中，我們從每個類中隨機選擇1000個點，以及它們的128維特征向量，并通過t-SNE降維算法傳遞這個高維點云，得到一個二維點云。這在圖7中得到了體現，在圖7中可以觀察到可以看到汽車、卡車、自行車和靜態類別的四個不同的集群。根據圖5中的混淆矩陣，來自行人或行人組的反射沒有被很好地分開。汽車和自行車類的反射豐富了點云的中心，顯示了那些難以分類的點。最后，圖8顯示了與圖2相同的場景，但現在顯示的是預測類標簽，而不是多普勒速度。所有三個類別行人、卡車和汽車都被正確識別。然而，最右側行人后面的一些雜亂被錯誤地歸類為行人組，汽車后面的一些反射也被錯誤地標記到汽車類。盡管如此，場景的語義信息還是得到了很好的表達。

萬字分析汽車毫米波雷達點云技術-汽車開發者社區

圖7 我們網絡中倒數第二卷積層的128維特征向量的二維嵌入。用非線性t-SNE方法進行嵌入。

萬字分析汽車毫米波雷達點云技術-汽車開發者社區

圖8 對一個實例場景的每個反射的預測類別標簽。界限框是手動添加的，用于關聯點云和攝像機圖像。

5 結論和展望

本文以到PointNet++為分類算法，給出了雷達數據語義分割的結果。我們展示出了我們的新方法優于我們以前的方法，后者包括兩個現已過時的預處理步驟，即聚類和特征生成。此外，我們還證明了利用RCS 值和自我運動補償多普勒速度可以提高分類結果，其中多普勒速度對分類結果的影響更大。

在今后的工作中，我們將把重點放在兩個不同的方面。一方面，將時間信息整合到網絡中似乎是有益的。物體的時間演化是一種描述性特征，至少應該改善靜態和動態類實例之間的區別。實現這一目標的一個可能的方法是將一個遞歸的神經網絡結構集成到PointNet++。一個更簡單的方法是將測量時間戳作為一個額外的功能來呈現。另一方面，需要對語義實例分割進行擴展。目前，我們只為每個反射提供類別標簽，而不了解該反射所屬的對象實例的概念。因此，我們不知道一個場景中存在多少不同的對象，而只知道屬于一個對象類別的反射量。類感知聚類算法是從反射中生成實例的一種可能性，但是結合實例學習和類關聯可能會產生更高的總體性能。

文章轉載自公眾號：智能汽車開發者平臺