2023年11月28日,中電信人工智能科技有限公司(以下簡稱:電信AI公司)成立。它是中國電信開展大數據及人工智能業務的科技型、能力型、平臺型專業公司。2023年,電信AI公司在全球21場頂級AI競賽中屢獲殊榮,申請專利100余項。同時,該公司在CVPR、ACM MM、ICCV等權威會議和期刊上發表了30余篇論文,充分展現了國資央企在人工智能領域的實力和決心。
該公司注冊資本為30億元,前身為中國電信集團的大數據和AI中心。作為一家專注于人工智能技術研發和應用的公司,他們致力于核心技術的研究、前沿技術的探索以及產業空間的拓展,旨在成為百億級的人工智能服務提供商。在過去兩年里,該公司自主研發了星河AI算法倉賦能平臺、星云AI四級算力平臺以及星辰通用基礎大模型等一系列創新的成果。目前,公司員工規模超過800人,平均年齡僅31歲。其中,研發人員占比高達80%,且70%的員工來自國內外知名互聯網企業和AI領軍企業。為了加速大模型時代的研發進程,公司擁有超過2500塊等效于A100的訓練卡,并配備了300多名專職數據標注人員。此外,公司還與上海人工智能實驗室、西安交通大學、北京郵電大學、智源研究院等科研機構緊密合作,結合中國電信6000萬視聯網和數億用戶場景,共同推動人工智能技術的創新和應用。
本期介紹電信AI公司TeleAI團隊在CVPR 2023 AI CITY CHALLENGE頂會上取得的重大突破,獲得了Challenge Track 5: Detecting Violation of Helmet Rule for Motorcyclists賽道的冠軍。CVPR是計算機視覺領域的三大頂級會議之一,享有極高的業內聲譽。該冠軍技術不僅在學術界獲得了認可,還在城市治理實際業務中取得了顯著的應用效果,已經落地多個項目。本文將深入介紹該團隊在本次挑戰中所采用的算法思路和解決方案,為CV領域的研究和應用貢獻了有價值的經驗和實踐。
CVPR 2023 AI CITY CHALLENGE Track 5: Detecting Violation of Helmet Rule for Motorcyclists冠軍技術分享。
【賽事概覽與團隊背景】
AI City Challenge由英偉達、亞馬遜、馬里蘭大學等發起,自2017年起,每年舉辦一次。該挑戰賽主要集中在智能交通相關的車流統計、車輛重識別、跨攝像頭跟蹤、異常事件分析等應用場景,被譽為“智能交通視頻分析界的ImageNet競賽”。
由中國電信AI公司行人算法方向的成員組成的TeleAI團隊,參加了本次比賽。該團隊在計算機視覺技術這個研究方向深耕,積累了豐富的經驗。他們的技術成果已在城市治理、交通治安等多個業務領域中廣泛應用,持續服務海量的用戶。TeleAI團隊以本次CVPR 2023 AI CITY CHALLENGE的Detecting Violation of Helmet Rule for Motorcyclists賽道為契機,實現在智慧安防領域技術的自我突破。
1引言
檢測摩托車駕駛員和乘客未佩戴頭盔的違規行為是一項關鍵的計算機視覺任務,對于保障摩托車行駛過程中的生命安全具有重要意義。這一異常事件檢測問題可視為目標檢測任務,即識別圖像中摩托車駕駛員和乘客的位置以及判斷其是否佩戴頭盔。為解決這一問題,本文提出了Motorcycle Helmet Object Detection framework(MHOD)。
我們采用目標檢測網絡DETA來預測視頻中所有對象的位置和類別,并通過兩個模型的集成來提高準確性和魯棒性。鑒于乘客類別訓練數據的稀缺性,我們設計了基于目標跟蹤的乘客召回模塊(PRM),顯著提升了乘客類別的召回率。引入了類別細化模塊(CRM),結合視頻中的時間信息來校正類別。在AI City Challenge 2023 Track5中,我們提出的框架在挑戰的公共排行榜上取得了顯著的成績。
2 賽題介紹和難點
在不同的光照條件和攝像機角度下精確檢測是否佩戴頭盔是一項具有挑戰性的任務。在交通監控系統中,攝像頭通常安裝在相對較高的位置,導致視頻分辨率較低。此外,如圖1所示,光照、天氣、模糊等因素也會增加識別的難度。為了克服這些復雜場景并提高模型的魯棒性,我們采用了模型集成[4]的策略,詳細內容將在第3.2節中進行描述。
如表1所示,我們對訓練數據集中每個類別的目標數量進行了統計,發現存在嚴重的類別不平衡問題,尤其是在Passenger 2的數據相對較少。具體而言,Passenger 2僅出現在兩個視頻中,分別是005.mp4和091.mp4。我們在圖2中對樣本進行了可視化,觀察到在005.mp4中,Passenger 2是摩托車前面的一個小孩,這會使模型對該目標的識別變得非常困難。而在091.mp4中,Passenger 2位于摩托車后部,這種情況則相對符合我們的預期。
3 解決方案
3.1 概述
MHOD框架的概述如圖3所示,通常包括三個主要部分。我們采用集成技術來提高性能。在第二部分中,執行乘客召回模塊(PRM),旨在提高乘客類別的召回率。第三部分是類別細化模塊(CRM),致力于減少同一軌跡中類別的切換次數。所有這些模塊和組件將在接下來的章節中進行詳細描述。
3.2模型集成
由于視頻場景的復雜變異性和低分辨率,我們提出的框架采用不同初始化過程的模型集成以提高性能。本文使用的目標檢測方法基于Transformer的DETA算法[13]。相較于最近的方法[3, 18],DETA展示了一種更為簡單的替代訓練機制。這種替代機制在訓練效率方面具有顯著優勢,尤其是在短訓練周期內表現出色。我們從每個視頻幀中使用檢測模型獲取檢測到的對象的邊界框和相應的置信度:
其中,bi是相應的邊界框信息,fi是時間幀,v是視頻的幀長度。在獲取檢測結果后,我們得到一個邊界框b = (cls, xc, yc, w, h, s),其中cls是邊界框的類別ID,(xc, yc)是中心點的位置,(w, h)是邊界框的寬度和高度,s是置信度分數。我們進行非極大值抑制(nms)以過濾重疊的檢測框,這些框可能涉及相同的對象。因此,通過使用nms從兩個獨立模型提取的最終預測通常被表述如下:
其中,Z代表最終的預測。E1和E2都是在AI City Challenge數據集上微調的DETA模型。
3.3 Passenger Recall Module 模塊
基于表1中呈現的訓練集統計結果,Passenger 2的樣本數量極少。因此,我們采用后處理技術來優化Passenger 2的檢測邊界框。我們使用在COCO數據集[9]上預訓練的開源框架Detectron2 [17]來獲取人的邊界框集合P = {p1, p2, p3, · · · },其中p = {xc, yc, w, h, s, f}。從Z中獲取摩托車的邊界框集合M = {m1, m2, m3, · · · }。對于M中的每個mi,在滿足以下條件時,記錄與mi匹配的所有pj ∈ P:
其中,α是控制IoU大小的系數,iou(x, y)表示邊界框x和y之間的交并比(IoU)。使用SORT [2]來預測人的邊界框的軌跡,并記錄人的運動方向,之后根據連續幀之間的相關性計算每個邊界框的運動方向,Passenger 2是軌跡方向上的最后一個人的邊界框。此外我們在訓練集上訓練一個分類網絡,用于判斷Passenger 2是否佩戴頭盔。
3.4 Category Refine Module 模塊
在視頻中,我們發現隨著非機動車輛駛出攝像頭的視野,模型預測的標簽會隨著目標逐漸變小而改變。受到跟蹤思想的啟發,同一跟蹤 ID 的相應框在運動過程中類別不應該發生改變。SORT [2] 是一種典型的基于檢測的跟蹤方法。我們通過SORT獲得摩托車和行人的軌跡,計算該ID中所有幀的類別,當某個類別的頻率超過給定跟蹤ID的總檢測次數的50%時,我們將該ID上所有幀均改為該類別標簽。
4 實驗結果
4.1 評估指標
本次挑戰賽使用的評估指標是mAP,即所有目標類別上平均精度(Precision-Recall曲線下的面積)的均值。
4.2 實驗細節
模型在AI City Challenge數據集上經過8個epochs的微調,使用Adam優化器,學習率為5e-6,權重衰減為1e-4。在訓練過程中,圖像的短邊尺度從[720, 768, 816, 864, 912, 960, 1008, 1056, 1104, 1152, 1200]中隨機選擇,而長邊不超過2000像素。在測試階段,短邊被固定為1200像素。模型加載了在Objects365 [16]數據集上預訓練的參數。對于用于集成的兩個模型,它們在初始化階段的查詢方面有所不同,分別設置為300和900。
對于判斷是否戴頭盔的分類模型,采用了在ImageNet預訓練的ResNet-18 [8],并在AI City Challenge數據集上進行微調。輸入分辨率為256×192,訓練和測試數據集的比例為9:1。使用CosineAnealingLR的學習率衰減策略進行100個epochs的訓練,學習率為0.04,權重衰減為5e-4。
4.3 實驗結果
Table 2是消融實驗的結果。集成模型會比DETA的基線高17.14%。PRM模塊也會顯著提升算法效果。此外,我們對訓練集中的090.mp4進行了可視化,可以看到第12幀(圖5a)中id為42的對象預測類別是DHelmet,但在的第24幀(圖5b)中,它被預測為P1NoHelmet,使用CRM策略可以將該錯誤預測修正為DHelmet。
所提出的方法在AI City Challenge 2023的Track5驗證集上進行評估。如表3所示,我們的方法取得0.8340的分數。
5 結論
在本文中,我們提出了一種名為MHOD(Motorcycle Helmet Object Detection)的框架,旨在檢測騎摩托車者是否正確佩戴頭盔。MHOD模塊利用目標檢測網絡來預測視頻中所有目標的位置和類別。為了提高乘客類別的召回率,我們引入了乘客召回模塊(PRM)進行跟蹤細化,并通過類別細化模塊(CRM)來校正目標的類別。PRM是一個可擴展的模塊,主要針對Passenger 2進行召回,而未來可進一步發展適用于Passenger 1的策略,以提升框架的效果。我們在2023年AI City Challenge Track5的公共測試集上進行的實驗表明,我們的方法取得了0.8340的分數,證明了該方法的有效性。
我們的優異成績充分彰顯了團隊方法的卓越效能,成功地將實際業務中積淀的算法、技巧以及算法邏輯應用到國際競技舞臺,實現了電信AI公司在智慧安防、城市治理領域的巨大突破。電信AI公司一貫堅守“技術源自業務,服務于業務”的發展理念,將競賽視為檢驗和提升技術能力的至關重要平臺。積極參與競賽的過程中,我們持續優化和完善技術方案,為客戶提供更高質量的服務,同時也為整個團隊成員提供了珍貴的學習和成長機會。這一過程不僅不斷提升了我們的競爭實力,也推動著整個團隊在不斷挑戰中邁向更加輝煌的發展。
References
[2] Alex Bewley, Zongyuan Ge, Lionel Ott, Fabio Ramos, and Ben Upcroft. Simple online and realtime tracking. In 2016 IEEE International Conference on Image Processing (ICIP), pages 3464–3468, 2016. 2, 3, 4, 5
[3] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-toend object detection with transformers. In Computer Vision– ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part I 16, pages 213–229.Springer, 2020. 3
[4] A. Casado-Garc′?a and J. Heras. Ensemble methods for object detection, 2019. https://github.com/ancasag/ensembleObjectDetection. 1
[8] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. IEEE, 2016. 5
[9] Tsung-Yi Lin, Michael Maire, Serge Belongie, Lubomir Bourdev, Ross Girshick, James Hays, Pietro Perona, Deva Ramanan, C. Lawrence Zitnick, and Piotr Doll′ar. Microsoft coco: Common objects in context, 2015. 3
[13] Jeffrey Ouyang-Zhang, Jang Hyun Cho, Xingyi Zhou, and Philipp Kr¨ahenb¨uhl. Nms strikes back, 2022. 1, 3, 5
[16] Shuai Shao, Zeming Li, Tianyuan Zhang, Chao Peng, Gang Yu, Xiangyu Zhang, Jing Li, and Jian Sun. Objects365:A large-scale, high-quality dataset for object detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), October 2019. 5
[17] Yuxin Wu, Alexander Kirillov, Francisco Massa, Wan-Yen Lo, and Ross Girshick. Detectron2. https://github.com/facebookresearch/detectron2, 2019. 3, 5
[18] Hao Zhang, Feng Li, Shilong Liu, Lei Zhang, Hang Su, Jun Zhu, Lionel M. Ni, and Heung-Yeung Shum. Dino: Detr with improved denoising anchor boxes for end-to-end object detection, 2022. 3