隨著智能汽車不斷發(fā)展,消費者對車身娛樂系統(tǒng)的要求也不斷提高。盡管車身攝像頭數(shù)量越來越多,但依然面臨畫質(zhì)不佳、畫面畸變等問題。在前不久結(jié)束的LiveVideoStackCon2022音視頻技術(shù)大會上海站中,美攝科技AI算法團隊負責(zé)人侯康分享了最新推出的汽車圖像及視頻處理方案,詳細介紹了團隊在解決上述問題中的探索與實踐。
侯康首先介紹了車載攝像頭畸變校正處理。他提到,車內(nèi)拍攝與一般拍攝不同,車內(nèi)攝像頭一般放置在車的正中間,拍攝對象主要是人。而車內(nèi)前排的主駕和副駕分坐兩邊,后排分坐三個人,此時主駕、副駕和后排坐兩邊的人的點會出現(xiàn)嚴重扭曲,導(dǎo)致畫面不可使用。針對這種情況,美攝團隊開發(fā)出了一套基于人臉特征的畸變校正算法,校正時更多關(guān)注人臉及人體,從而實現(xiàn)車內(nèi)畫面校正。
隨后,他分享了美攝研發(fā)團隊在傳統(tǒng)方案基礎(chǔ)上研發(fā)的智能校色方案。方案首先對原始圖片的畫面像素進行統(tǒng)計得到統(tǒng)計值并對其進行處理,通過算法得到十幾項基本的調(diào)色參數(shù)(如亮度、曝光度、對比度、自然飽和度等),最后通過調(diào)節(jié)這些參數(shù)得到畫質(zhì)較好的圖片。此外,他們還開發(fā)了一種清晰度算法來增強畫面的局部色塊、特征,結(jié)合邊緣細節(jié)的增強可得到一個較柔和的增強后的畫面。
攝像頭防抖也是關(guān)鍵的一環(huán)。由于車輛行駛中拍攝到的場景復(fù)雜多變,此時若采用傳統(tǒng)算法檢測角點,根據(jù)角點匹配得到的單應(yīng)矩陣或仿射變換矩陣來調(diào)節(jié)畫面,可能無法消除抖動。而且當(dāng)畫面突變,如場景從開闊變?yōu)楠M窄時,甚至?xí)攵秳印榱私鉀Q這個問題,美攝研發(fā)團隊對局部進行防抖處理,借助AI算法判斷畫面中的靜止部分和運動部分,基于這些狀態(tài)判斷畫面抖動的具體參數(shù),然后再進行處理,即可得到穩(wěn)定的拍攝畫面。
接下來是方案核心內(nèi)容——汽車智能剪輯方案,這是目前美攝科技主推的一套方案,在一些大廠已經(jīng)落地。智能剪輯方案的大致思路是對采集到的視頻畫面進行多維度分析,根據(jù)分析結(jié)果將視頻結(jié)構(gòu)化,并為每一段打上標(biāo)簽,得到對于視頻的立體的理解。再根據(jù)客戶的要求,如定制的拍攝主題、拍攝思路等,定制檢測和匹配的規(guī)則,最終生成包裝完成的視頻。
整個框架主要分為三個部分。首先是AI檢測,除了檢測外,還會記錄汽車行駛過程中的重要信息,比如車速、GPS信息等,并將所有數(shù)據(jù)存儲到開發(fā)的數(shù)據(jù)庫里,以后想再使用相同視頻時,可直接在數(shù)據(jù)庫中提取相關(guān)內(nèi)容,無需再次檢測。剪輯的時候也可直接從數(shù)據(jù)庫中提取內(nèi)容。
在畫面智能分析內(nèi)容方面,美攝SDK可支持2000多種標(biāo)簽類型。畫面智能分析的難點不在于如何訓(xùn)練模型或得到好的結(jié)果,而是減小芯片的算力占用。汽車在行駛過程中除了拍攝還要執(zhí)行其他功能,因此后臺處理信息時需要保證小的算力占用。針對這個問題,美攝研發(fā)團隊對模型結(jié)構(gòu)和訓(xùn)練策略進行了優(yōu)化。目前方案中使用了七八個模型,但在運行過程中只占用了低于5%的CPU就可以完成檢測。
畫面信息之外,車輛信息也非常關(guān)鍵。車輛信息包括時速、轉(zhuǎn)向、時間、溫度、天氣預(yù)報和GPS信息等,這些信息本身是剪輯時所需的有效信息,也可以與AI檢測結(jié)果聯(lián)通,校正AI檢測結(jié)果。
在剪輯策略方面,美攝的方案結(jié)合了深度學(xué)習(xí)檢測和專家系統(tǒng),即后期為前期的檢測結(jié)果匹配一套剪輯的規(guī)則,通過分析用戶選擇的感興趣的視頻內(nèi)容,推薦與之相關(guān)的剪輯主題,再根據(jù)剪輯主題內(nèi)容提取出所選視頻中的重要片段對其進行包裝。
此外,侯康還向與會者介紹了車內(nèi)AR互動、智能語音助手、AI圖像識別等模塊。據(jù)了解,目前美攝智能汽車及圖像處理方案已應(yīng)用在IM智己汽車等多家頭部汽車品牌中,并已實現(xiàn)實車量產(chǎn)落地。下一步,美攝科技研發(fā)團隊將持續(xù)根據(jù)車輛運行場景對方案進行針對性優(yōu)化,與車企一道為用戶帶來更加高品質(zhì)的駕乘體驗。