新基建浪潮之下,各行各業都在積極擁抱AI,進行智能化轉型,以“AI+”為核心的科技策略,正在推動社會形態、經濟結構不斷發生變化。隨著AI技術的進一步發展,傳統家居、安防、駕駛、教育、商業、城市管理……都將被顛覆。
而在這一過程中,數據作為驅動AI向前快速飛奔的“燃料”,重要性日漸凸顯,大量的數據采集標注需求涌向市場。據艾瑞咨詢《2020年中國人工智能基礎數據服務白皮書》預測:到2025年,AI基礎數據服務市場規模將突破100億元。
在市場規模迅速擴大的同時,市場對數據的需求也在發生變化。
AI數據產業正在迎來變革
AI作為一項前沿應用技術,受到社會各界的廣泛關注,經過多年發展,如今AI面臨著一個現實而又緊迫的挑戰——商業化落地。
為了加快落地進程,AI算法企業需要解決兩個問題,一是提升算法的精確度,以保證在市場中的領先性;二是保障算法模型穩定度,從而實現在各類場景中的適用性。
而解決這兩個現實問題的最簡單辦法就是——數據,大量、高質量、場景化的數據。
目前,AI數據生產主要依賴于市場上林林總總的AI數據服務企業、外包團隊以及兼職個人,由于市場需求量大、準入門檻低,行業整體處于野蠻生長狀態,從拼人力逐漸過渡到了拼價格,但本質上數據質量卻沒有明顯提升。
在中國信息通信研究院發布《人工智能發展白皮書(2018年)》中也曾提到了“在數據層面,主要存在流通不暢、數據質量良莠不齊和關鍵數據集缺失等問題。尤其是數據標注主要通過外包形式,勞動力水平決定了產出的標注數據質量。”
而隨著AI的落地,對數據質量要求的逐漸提高,AI數據產業也正在迎來變革,原本粗放式的數據生產模式已經逐漸式微,景聯文科技這類AI品牌數據服務商開始興起。
自建標注團隊是行業發展必然
縱觀市場,AI數據生產主要有轉包模式、眾包模式、自建團隊模式三類。
早期眾包模式憑借著低廉的價格、大規模的人力資源從而占據著市場,但隨著行業發展,眾包模式的弊端初顯:直接和標注團隊對接,非常考驗需求方項目管理能力,并且由于標注人員素質等原因,無法執行復雜任務。
在眾包模式不能滿足市場的背景下,轉包模式出現了。轉包模式是由具備行業經驗的數據供應商承接項目,再將項目拆分轉包給標注團隊或個人執行,數據供應商扮演的是一個溝通管理的角色,通過協調需求方以及標注團隊,共同完成項目。
但轉包模式也并非沒有缺陷,由于供應商沒有自己的采集標注團隊,就容易出現層層轉包情況,數據倒手數次,安全性無法保證。
對于科技企業而言,數據意味著未來,數據隱私和安全是科技公司做決策首要前提,因此,也有部分數據供應商投入大量資金、人力組建自有標注團隊,并提供駐場、第三方部署等業務方案,解決了客戶后顧之憂。
景聯文科技CEO鄭曉薇解釋道:“傳統AI數據生產,無論是轉包還是眾包,本質上都是一種輕資產模式,這樣的優點是前期投入成本低,周轉率快,但弊端也就是對交付數據質量和服務態度難以把控。AI大規模落地在即,未來行業對數據的需求將從量轉向質的層面,因此,自建團隊模式是行業發展的必然。”
景聯文科技:自建標注團隊,生產高質量AI數據
景聯文作為市場上最早一批自建標注團隊的AI數據服務商,在業務開展之初,就砸下重金組建項目團隊,確保服務流程的規范與高效。
經過多年沉淀,目前景聯文在全國范圍內擁有5個標注基地,220名全職人工智能訓練師;上線了自有標注平臺,涵蓋了絕大多數主流標注工具,支持語義分割、拉框標注、多邊形標注、關鍵點標注、3D點云、2D3D融合標注、圖片分類、聲紋識別、ASR轉寫、韻律標注、NLP、文本分類、OCR轉寫、情緒判斷等多種標注業務;提供企業私有化部署、跨地區作業等定制服務。
談及自建標注團隊的初衷,鄭曉薇表示:“早期景聯文專注于指紋防偽算法,隨著業務的推進,公司有大批量指紋采集需求。考慮到指紋采集工作涉及到公眾隱私,因此公司決定內部培養專業團隊執行。”
一次偶然的機會,某科技大廠客戶在參觀了景聯文數據基地后,希望景聯文代為標注一批保密數據,由此景聯文正式踏入了AI基礎數據市場。短時間內,景聯文憑借著多年處理敏感數據的經驗,以及長期深耕To B市場的流程管理經驗積累,在行業迅速站穩腳跟。
截至目前,景聯文科技已與阿里巴巴、華為、vivo、美團、字節跳動、滴滴、陌陌、海康威視、大華、宇視、同濟大學、中國人民大學、工信部中國電子技術標準化研究院、公安部一所等多家企業、機構達成深入合作。
景聯文科技立足行業、放眼未來,從工具到團隊管理,全方位構建完整業務生態。在AI數據服務這條賽道上,景聯文還將繼續前進,為AI落地提供高質量、場景化的數據支持。