制作于公元前196年的羅塞塔石碑(Rosetta Stone),刻有古埃及國王托勒密五世登基的詔書。
石碑上用古希臘文、古埃及象形文以及當時埃及平民使用的通俗體文字刻了同樣的內容,這讓考古學家解讀出失傳千余年的埃及象形文的意義與結構,找到讀懂古埃及的密碼。
△羅塞塔石碑
在AI領域,為了讓機器讀懂人類世界,同樣有這么一塊「羅塞塔石碑」——數據標注。它的存在讓大規模訓練數據的機器學習成為可能。
1
—
數據——新的石油
所謂數據標注,指的是對未經處理的語音、圖片、文本、視頻等原始數據進行加工處理, 使其成為結構化數據讓機器可識別的過程。
在以深度學習為主的感知模型中,主流的深度學習訓練方法還是監督學習,用這種方法訓練,需要向模型「喂」海量的數據,且數據需要是「真值(Ground Truth)」數據,這些數據就來自于數據標注。
目前火爆全網的ChatGPT,做出來的關鍵并不在于算法,方法論大家都知道,但「喂養」ChatGPT的「數據」并不公開,這里的「數據」包括數據的獲得、清洗、分類、數據標簽平衡、反饋、區分帶噪音的數據等等,有很多細節。
從這不難看出,數據在AI發展過程中極為重要,業內甚至將數據稱為「新的石油」來形容它作為將人類智能轉化為機器智能原材料的重要性。
但放眼整個AI行業,數據的受關注度遠沒有AI三元素的的另外兩個元素——算法和算力來得高。
造成這個結果的最主要原因就是因為數據標注行業是一個勞動密集型的產業,「足夠廉價的勞動力」是數據標注公司的一大標簽。在新疆、河南、山西等勞動力較為低廉的地區,形成了數據標注的產業集群。
這樣的標簽與站在臺前的AI企業形成了強烈對比,自然很難得到重視。雖然國內數據標注規模化發展時間較早,但一直沒有找到明確發展方向與定位。
直到美國數據標注企業Scale AI,用5年時間(2016-2021)實現超73億美金的估值,國內數據標注行業才注入了一劑強心劑。
隨后,隨著特斯拉在2022 AI DAY上推出Auto Labelling標注平臺,并推出4D標注技術,這讓更多人知道了自動化標注的存在,也讓更多專業的數據標注企業走到臺前。
星塵數據就是其中一員。
2
—
從人力工廠到數據策略專家
曾經在大英博物館看到過羅塞塔石碑的星塵數據創始人、CEO章磊,很快就聯想到了自己所做的數據標注工作。因此,給星塵數據的標注平臺取名為Rosetta。
3月1日,星塵數據Rosetta3.0平臺正式上線。
△星塵數據創始人、CEO章磊
在交流過程中,章磊提出了標注行業認知天梯的概念,認為標注行業的初級認知是「人力工廠」,服務商用相對初級的標注工具、項目管理和海量人力就能干活,這也是外界對數據標注行業較為普遍的認知畫像。
但到了中級認知,對項目管理的難度和標注工具的復雜度會有一定認知,投入工具研發和項目管理成本,研發周期長,管理難度大,數據迭代效率低;而高級認知則更重視平臺的技術實力,使用高度自動化的標注平臺,且與數據服務商一起迭代數據閉環和數據策略。
在「高級認知」中,章磊特意強調了數據策略的重要性,這也是星塵數據的一項重要競爭力和產品,其中包括了數據增強、數據平衡、人機交互反饋、數據選擇以及主觀性數據處理。
傳統的數據標注流程中,算法人員制定數據標注規則,標注公司消化后再提供給標注團隊。然而,執行過程中,算法的思路并不能一次性達到最優;其次,數據標注人員僅僅是一個「干活兒的」角色,并不能幫助更好地迭代算法效果。此外,算法側時常會有一些不合理的規則導致成本飆升或難度大增導致難以執行。這就使得即便數據量足夠,也往往難以提高模型能力,成本還有所增加,完全是一種事倍功半的狀態。
章磊認為,目前標注行業的供給是低于行業需求的。
“過去我們缺的是數據量,但現在不缺量,缺的是真正有價值的數據。所以行業正逐漸從一般性的數據采集變成了數據挖掘,從海量數據中大海撈針,這是當前行業的一個挑戰。「數據策略」就是星塵應對挑戰的策略,同時也是我們與其他公司最大的一個不同——我們的定位是人工智能的數據策略專家。”
章磊表示,數據策略中涉及大量前沿技術,既包括算法中和數據相關的技術,如領域遷移、時空融合、數據增強、弱監督學習等等,也包括以數據為中心的反饋迭代技術,如主動學習、強化學習、數據檢索、Human-in-the-loop、數據安全、場景化數據生成、模型測試等。數據策略專家既要了解相關技術也要熟悉產品,以專業性來服務客戶。
“一個典型的例子是,客戶在感知算法中因為沒有做運動補償,需要對相機信號和雷達信號逐一進行人工確認。星塵的數據策略專家和算法溝通后,提出通過2DOD算法和3D映射聯合計算,通過IoU篩選候選樣本的方案,并將多個算法直接以人機交互的方式嵌入標注流程中,節省了50%以上的標注時間。” 章磊說明道。
3
—
打造數據標注界的Photoshop
目前企業在選擇數據標注服務時,往往有以下幾種模式:
首先是選擇開源工具進行數據標注。但開源工具往往只是一個Demo產品,屬于前端研發的小工具,缺乏用戶數據加工流程的打磨,中后端產品功能弱。另外,對于技術和人員要求高、專業度強、規模大、自動化高的需求都無法滿足。
同時,隨著各類傳感器和應用場景的不斷豐富,自動駕駛所需標注的數據類型呈現多樣化,開源工具很可能出現底層數據和底層架構不支持某種數據的情況。
第二種模式就是內部生產,這里還可以細分出人力是否外包兩種情況。在不外包的前提下,內部標注團隊人力成本較高,投入產出比很小。同時,由于不是收入部門,預算有限,技術迭代積極性就會較低,這將進一步拉低投入產出比,最終難以形成正向循環。所以我們看到京東、阿里、騰訊這些大廠都解散了標注部門。
而如果將人力外包,企業自己僅提供標注平臺和標注工具,會由于缺乏管理工具和手段,經常會面臨人工標注隨意度高、數據非標、出錯率高、返工率高等問題,同樣難以及時且高效地滿足需求。
正因為有了以上痛點,才有了星塵數據這樣專業第三方數據標注企業的生存空間,
“但星塵不是要解決100%的數據標注,而是解決那部分難的、行業前沿的、大規模的數據標注,這也是那些具有付費能力的大客戶最大的痛點。” 章磊說道。
作為解決客戶痛點的重要標注工具,Rosetta3.0基本可以和Photoshop、Sketch這些耳熟能詳的工具功能豐富程度、算法接入能力、交互等方面媲美。
上面這張圖,展示了Rosetta3.0平臺內部分4D重建點云,據章磊介紹,如果全部展示會有超過500萬個點。而市面上常規對空間描繪能力的細節程度是在30萬~80萬個點左右。“同時,我們還可以做到最長達2000幀的標注,正常500幀沒有任何壓力的一個連續幀。也就是說一秒鐘是10幀的話,星塵可以標一分鐘的視頻或者一分鐘的3D空間數據量。而同行業大約在50幀左右,我們是超越友商一個數量級的標注處理能力。”
在最后總結星塵數據到底是個怎樣的存在時,章磊說道:“我們是自帶工具、材料、裝修方案到客戶家里幫忙裝修。這種模式更加貼近中國的真實市場環境,首先數據是剛需,第二要處理數據必須要有金剛鉆,第三我們還能幫你設計,幫你架構,和你一起探討策略,最終以一整完整的服務和產品矩陣來共同完成這些事。”
這一套流程就是星塵數據的數據閉環。
據章磊介紹,星塵數據已經服務了50多家頭部的車廠和自動駕駛公司,其數據閉環體系,用自動化的方式減少了60%以上的數據處理量,能夠幫客戶的算法迭代周期從三個月縮短到兩周,客戶每兩周就可以更新一版模型。“我們能實時給客戶反饋,用戶也能實時把數據送標,基于我們的數據管理系統,客戶從數據落盤(數據寫入磁盤,自動駕駛領域主要指采集的數據從傳感器到硬盤或云上的過程)到數據處理、數據標注、數據送檢,到最后把數據‘喂’給算法,整個過程全部自動化” 。