導語:數據已經成為了一種生產要素。
上海世博中心,2021世界人工智能大會剛剛落幕。
作為人工智能的重要應用之一,自動駕駛也在這場一年一度的全球頂級會議期間大放異彩——
會議期間首次開展了面向大會觀眾基于開放道路的載人應用體驗,體驗路線總長 2.8 公里,共 12 個路口,途經世博中心。此外,特定區域自動駕駛應用展示也同步進行。
自動駕駛動態體驗線路
基于這些應用體驗,國內自動駕駛全產業鏈成就和最高技術水平得以展示,自動駕駛技術對于人們日常生活以及出行方式的改變可以窺見。
事實上,自動駕駛系統平穩運轉的背后,是一個大家都耳熟能詳的關鍵詞——數據。
"數據已經成為了一種生產要素,前提是要把人類世界的信息轉化為計算機可以識別的方式。"海天瑞聲的副總裁李科告訴新智駕。
想要打造真正安全可靠的量產自動駕駛產品、支持成千上萬輛同時交互的自動駕駛車輛,企業就必須想明白如何高效地收集以及有效利用海量數據。
那么,具體該怎么做呢?
智能駕駛的"幕后英雄"
盡管不像硬件一樣看得見摸得著,但無論是自動駕駛、輔助駕駛,還是智能座艙,這些被賦予智能屬性的駕駛體驗都離不開數據的驅動。
在李科看來,通過訓練數據生產的各個環節(設計、采集、加工、質檢),可以收獲很多有益于智能駕駛算法模型迭代的規律和結論。
- 譬如關于駕駛員踩剎車的圖像數據
這個動作通常代表著判斷和決策的結果,那么在這個動作之前發生了什么?在這個動作之后發生了什么?有沒有比較特殊的事情發生?
- 再譬如關于艙內語音交互的數據
語音交互時,哪些功能的啟動可能會對駕駛產生干擾?麥克風如何排列可以更好地滿足各個座位上的交互需求?回聲噪聲的情況如何、該怎樣解決?
于自動駕駛企業和主機廠而言,這些數據都值得重點關注,因為它們后續可能有助于強化 Corner Case 的處理能力、優化用戶的乘坐體驗。
而計算機視覺和智能語音訓練數據正是海天瑞聲從事了近二十年的領域,且已向微軟、亞馬遜、阿里等國內外 500 多家知名企業提供從方案設計、數據采集、加工處理到質檢交付的全流程數據服務。
其中,海天瑞聲在智能座艙的布局,最早可以追溯到 2005 年。這些歷程無疑為其積累了足夠多數據層面的 know-how,使得海天瑞聲可以基于自己的技術研發實力、經驗沉淀從數據角度去加速客戶的算法模型訓練及商業化落地,相應的也得到了越來越多智能駕駛客戶的青睞。
思之深,行之遠
事實上,除了數據采集、標注服務,一個實力雄厚、經驗豐富的數據合作伙伴最重要的是幫助玩家們較為準確地預估投入產出比,找到與整體業務目標契合的解決方案。
對此,李科也嘗試通過一個例子來幫助理解。
在訓練算法模型時,玩家們希望獲得某一場景中所有可能碰到的情況并以數據的形式給到機器去學習,在智能駕駛業務中,這不僅包括常規的多種路況環境(擁堵、城市街道、高速路段),天氣狀況諸如大霧、暴風雨雪天氣,不同光線條件例如白天、黑夜、清晨傍晚,還包括交通事故、違規行為等各種突發狀況。
智能駕駛艙外采集環境多樣、復雜
這就要求包括海天瑞聲在內的數據服務商能夠深刻理解客戶的業務場景,在設計方案過程中考慮到算法對樣本多樣性的需求,以及不同樣本數據的占比應該是怎樣的,同一類型場景的數據至少要達到多少才能滿足機器學習的需求,數據方案如何設計才能避免出現與模型的過擬合、欠擬合等諸多問題。
幫助客戶不在數據準備階段走彎路,加速模型訓練、產品落地和迭代是海天瑞聲堅守的初衷。
于磚瓦的技術壁壘
隨著智能駕駛更進一步發展,在可預見的未來里,玩家們對底層數據處理能力的要求會越來越高、對長尾場景數據的需求會越來越大、對高質量訓練數據的訴求會越來越強,智能駕駛的發展已成為不可逆轉的大趨勢,并且具備了進一步落地應用的充分條件。
然而這一領域鮮有高質量的一站式數據服務,整體的數據處理速度、精度、準度都還有待提升,尤其是 3D 點云數據。
因為遠見,海天瑞聲早已開始思考如何將自己在數據處理方面的先發優勢最大化發揮,去幫助玩家們解決痛點。據了解,目前海天瑞聲的技術已經能夠支持 3D 點云標注、3D 點云連續幀標注、3D 連續幀與 2D 聯合的標注、3D 語義分割等。
譬如,針對同一物體在不同空間中的數據處理,海天瑞聲前期會對其進行多個坐標系的建模和配準,然后經過校準后投影到同一個坐標系中,最終保障不同空間中的標注結果的統一。
對于 3D & 2D 的聯合標注,海天瑞聲能夠通過算法實現 3D 標注結果自動投影到 2D 平面,隨之自動生成對應目標的空間位置。
可以看到,得益于強勁的技術實力以及在數據服務領域耕耘的經驗,即便是在新興的且難度較大的 3D 點云數據處理方面,海天瑞聲也已經做得游刃有余。
在艙內場景,DMS 數據因為涉及到光線、多角度同步等不同要求,大大加劇了采集的難度。海天瑞聲則基于自研的多通道桌面車載錄音工具,配合不同采集設備,從采集端實現多通道同步,且支持靈活參數設置和實時語音質檢,在提高采集效率的同時還能夠實時監控采集質量。
艙內多通道采集示例
種種這些,都是海天瑞聲區別于業內其他數據服務商的根源,也是在經年累月的努力下為自己打造的深厚壁壘,使其得以領跑智能駕駛數據服務。
數據安全,立身之本
隨著行業的高速發展,千差萬別的需求背后,不變的是對數據合規及安全的要求。作為行業的領路人,海天瑞聲穩步前行的同時也持續加碼在合規及安全方面的建設。
其業內首創科學的項目管理體系,從資源的合規性、數據存儲安全及流轉等方面制定了詳盡的措施:
比如,所有項目采集前必須獲得被采集人的書面授權,否則需要重新配置資源以保障合規性;
同時,海天瑞聲還專門設立了進行數據安全及合規性審核的數據保護官(以下簡稱"DPO");并且通過完善的制度條例充分保障被采集人的權利,曾經有一位海外被采集人在項目結束后申請刪除個人數據信息并撤回相應授權,收到請求的DPO第一時間整理了相關資料后與客戶聯系,協商操作,最終在24小時內完成了被采集人的訴求;
2018年5月由歐盟出臺的《通用數據保護條例》,被稱為史上"最嚴數據保護法案",曾因為數據信息保護失職對英航開出了15.8億人民幣的天價罰單。值得一提的是,此法案一經出臺,就被海天瑞聲納入了項目及技術研發人員的"必修課",組織學習并進行考核;
…
除了制度上的嚴格規范,一向以技術嚴謹而著稱的海天瑞聲自然也有相應的"硬實力"去保障數據安全,即一體化數據處理平臺:
該平臺是海天瑞聲基于自身近20年數據服務經驗,并融合了數十項核心技術及專利打磨而成。平臺內上千個自研標注工具聯合打通,不僅可以用來處理復雜的交叉業務場景數據,更重要的是保證了數據從采集到脫敏、清洗、標注、質檢等全流程不出平臺即可完成,與平臺內嚴格的人員權限管理、實時監控等功能一起,充分保障了數據的安全可控。
此外,還支持私有部署、駐場標注等一系列高級別數據安全處理請求。
以上種種舉措,使得海天瑞聲很早就通過ISO/IEC 27001管理體系認證,并于日前獲得具有"最嚴苛資質審核"稱號的ISO/IEC 27701隱私保護標準認證。
數據的合規安全是客戶的重要訴求,也是海天瑞聲牢牢堅守的生命線。
行于未來之路
縱觀行業的發展,智能駕駛已經成為了全球大多數國家和地區都在推進的主旋律,這個市場的規模還將呈倍數增大。
對此,李科向新智駕表示,現在一些造車新勢力發展勢頭迅猛,這會進一步帶動艙外感知的數據需求,我們今年在持續發力艙內的同時,會側重艙外的布局。
事實上,無論艙內還是艙外,與這些場景結合的技術大多離不開智能語音、計算機視覺和自然語言理解——這些也是海天瑞聲一直在耕耘、也會堅持耕耘的方向。正如李科所介紹的,從 2005 年開始,海天瑞聲就開始在AI全核心領域進行深度的數據布局。
如今十六年過去,海天瑞聲已然立于數據服務行業的高山之巔。
全球語言學家團隊、 超過 160 語種方言服務能力、覆蓋全球近 1/2 國家及地區的本地化項目經驗、760 余個自有知識產權的訓練數據產品等,這些均是海天瑞聲長期以來堅持創新和自主研發的果實——不僅可以助其在火熱的智能駕駛賽道大展身手,加速海內外自動駕駛以及智能座艙的應用落地;也能夠作為海天瑞聲發展的核心代名詞,成為自身多項業務延續和拓展的重要基礎。
無論從何種角度來看,用戶驅動、需求驅動、實戰驅動都是推動海天瑞聲持續穩步前進的動能。也只有通過這些方式打造出來的產品,才接地氣、才具有真正的生命力。(來源:雷鋒網)