現在人工智能的發展可謂是如火如荼,在人工智能(AI)體系中,算力、算法和數據作為人工智能進化的三大元素,分別承擔著人工智能在基礎設施能力、工作指導方法和算法(進化)依據作用。算力是技術設施能力、算法是工作方法,而數據則是優化算法的依據。
在機器學習領域,訓練數據的準備是最重要且最耗時的任務之一。目前,一些研究認為,微調AI模型參數就能取得SOTA的時代已經過去,專注于提升訓練數據的質量,也許是更重要的工作。
來自谷歌AI的最新研究表明,要想在細分領域取得更好的模型效果,精準優質的數據十分重要,它在極大程度上決定了AI模型的性能。
吳恩達(英文名 Andrew Ng,人工智能和機器學習領域國際上最權威的學者之一)尤其看中數據的作用,他曾不止在一個場合說過:
“一個機器學習團隊80%的工作應該放在數據準備上,確保數據質量是最重要的工作,每個人都知道應該如此做,但沒人在乎。如果更多強調以數據為中心而不是以模型為中心,那么機器學習的發展會更快。”
今年10月,吳恩達還宣布了首屆以數據為中心的 AI 競賽(Data-Centric AI competition)落下帷幕。區別于傳統的以模型為中心的比賽(Model-Centric AI competition)不斷改進模型以提升準確率的方法,這項比賽通過給定模型的方式,要求參賽者通過不斷改進數據以獲得更好的成績。
以數據為中心的AI(data-centric AI)這一概念,簡單概括來說就是——想要提升模型的表現,我們要花費大精力保證訓練數據集的高質量。
那么如何保證“數據質量”呢?這里就引入了對于訓練數據的采集、清洗、信息抽取、標注等服務,以采集和標注為主。其中數據標注為人工智能人工智能技術提供了大量帶標簽的數據,供機器訓練和學習,保證了算法模型的有效性。簡單來說,數據采集決定了訓練數據的場景豐富度,而數據標注影響了訓練數據的精準度。
如何獲取機器學習訓練數據?
無論是個人或高校項目、還是商業AI項目,獲取訓練數據主要有三種形式,分別是開源數據集、自己構建數據集和專業訓練數據提供商。在需要大量訓練數據的的情況下,采購專業的訓練數據服務是推進項目的最優選擇。
目前,國內有一家代表企業:云測數據——正在為計算機視覺、語音識別、自然語言處理、知識圖譜等AI主流技術領域提供訓練數據,以幫助相關客戶來改善和提升機器學習模型表現。仔細了解之后我們發現其核心服務如下:
基礎數據集:圖像/語音/文本等在多場景下的數據集;
數據采集:數據場景實驗室用于AI應用場景的構建;
數據標注:視覺、語音、文本的全品類標注能力;
數據處理工具:數據標注平臺、數據集管理系統的技術支撐;
云測數據基于數據產品、數據處理工具與數據服務的三螺旋,為機器學習提供大規模訓練數據,為行業提供高效率、高質量、多維度、場景化的數據服務與策略。
不同階段對訓練數據的差異化需求
從不同階段的訓練數據需求來看,企業應用人工智能算法要經歷研發、訓練和落地三個階段,不同階段對于訓練數據服務也有差異化需求。
研發需求是新算法研發拓展時產生的數據需求,一般量級較大,初期多采用標準數據集產品訓練,中后期則需要專業的訓練數據定制采標服務;
訓練需求是通過標注數據對已有算法的準確率等能力進行優化,是市場中的主要需求,以定制化服務為主,對算法的準確性有較高要求;
落地場景的業務需求中算法較為成熟,涉及的訓練數據更貼合具體業務,如飛機保養中的涂料識別數據等,對于標注能力和供應商主動提出優化意見的服務意識有較強要求。
真正“有用”的AI模型,離不開訓練數據
時至今日,人工智能從業公司的算法模型經過多年的打磨,基本達到階段性成熟,隨著AI行業商業化發展,更具有前瞻性的數據集產品和高定制化數據服務需求成為了主流,可以說,真正“有用”的AI模型,離不開訓練數據。
說回前文提到的以數據為中心的 AI 競賽(Data-Centric AI competition).這次競賽共有489個參賽個人和團隊提交了2458個獨特的數據集。僅僅通過改進數據(而不是模型架構,這是硬標準),許多參賽者能夠將64.4%的基準性能提高20%以上,最佳性能組的獲獎者的成績在86.034%至86.405%之間。
這種限定框架內的巨大差別,足以說明在吳恩達等人的推動下以數據為中心(Data-centric)的AI進一步的系統化,并成為一個有具有巨大實用價值方法論。未來誰能夠更好地挖掘和使用訓練數據,就能在AI大潮中發現真正的“寶藏”。