作為新一輪科技革命和產(chǎn)業(yè)變革的核心驅(qū)動力,人工智能正在疊加釋放歷次科技革命和產(chǎn)業(yè)變革積蓄的巨大能量,快速催生新產(chǎn)品、新服務(wù)、新業(yè)態(tài),培育經(jīng)濟發(fā)展新動能。發(fā)展至今,人工智能經(jīng)歷了明顯的泡沫降溫,進入了技術(shù)成熟度曲線的低谷期。行業(yè)開始回歸理性,更多地關(guān)注人工智能如何落地產(chǎn)業(yè),推動企業(yè)的數(shù)字化轉(zhuǎn)型。
由于深度學習的研究方向,人力密集型的數(shù)據(jù)標注工作是推進人工智能技術(shù)落地的重要環(huán)節(jié)之一。龐大的前景下,數(shù)據(jù)采集與標注也可以分NLP(自然語音處理)、CV(計算機視覺)等幾個部分,隨著數(shù)據(jù)需求量的增大、對數(shù)據(jù)質(zhì)量要求的提高,其中的NLP越來越成為“硬骨頭”。就NLP來說,它實際上就是在極其豐富的人類語言之中和機器語言之間搭建無障礙溝通的橋梁。在新的 AI 技術(shù)發(fā)展下,越來越需要巨大的數(shù)據(jù)以支撐不同的場景。
一個成功的NLP應(yīng)用與其他應(yīng)用的差異化對比,更多的來自于精準大量的訓練數(shù)據(jù)。可以說,具有更高精準度的數(shù)據(jù)已成為當前訓練階段的主流需求。以機器人聽懂人說話的這一需求為例,NLP數(shù)據(jù)具復(fù)雜性,除了對意圖、領(lǐng)域、槽位等進行判斷和標注,多角度的泛化也必不可少,在這一過程中需要數(shù)據(jù)標注公司就需要對需求進行拆解、預(yù)判甚至提前給出建議。
在2020年國家級重大國際經(jīng)貿(mào)活動服貿(mào)會的成果發(fā)布環(huán)節(jié)上,數(shù)據(jù)標注領(lǐng)域的頭部企業(yè)云測數(shù)據(jù)首次對外展示了一項成果,其數(shù)據(jù)項目的最高交付精準度竟然達到了99.99%。這個決定AI產(chǎn)品落地水平的領(lǐng)域里,99.99%的精準度刷新了一個行業(yè)記錄,按照實際NLP項目的需要,NLP客戶可選擇的服務(wù)標準跨越到了一個新的時代。
在NLP技術(shù)應(yīng)用領(lǐng)域,專注于應(yīng)用場景落地、對數(shù)據(jù)質(zhì)量有更高要求的企業(yè),更需要云測數(shù)據(jù)這種高質(zhì)量、場景化的數(shù)據(jù)服務(wù)商,來助力企業(yè)將自己算法的精度推到一個新的高度。企業(yè)獲得實際場景中所需要的數(shù)據(jù),可規(guī)避數(shù)據(jù)雜亂帶來的諸如成本增加、產(chǎn)品周期增加等的負面影響,同時發(fā)揮優(yōu)質(zhì)數(shù)據(jù)融合應(yīng)用場景加速落地的優(yōu)勢,更好的幫助相關(guān)企業(yè)在NLP技術(shù)具體場景中的工作。
但是,正如云測數(shù)據(jù)總經(jīng)理賈宇航所言,“圖像采標有很強的規(guī)則性,按照規(guī)范化的指導文檔工作即可,但NLP數(shù)據(jù)對應(yīng)的是語言的豐富性,需要結(jié)合上下文等背景去理解和處理。”在高位提升這件事上,NLP數(shù)據(jù)更難。
以智能客服業(yè)務(wù)場景為例,當客服詢問用戶是否購買此商品時,各種用戶會給出不同回答:“我要和家人商量一下”;“我會考慮”;“我現(xiàn)在不方便,你一會兒再打過來”等等,背后的意圖有很多種,可能是暫不購買,暫不考慮,拒絕購買或者興趣較大。那么,NLP數(shù)據(jù)標注就需要對這些對話背后的意圖進行標注和分類。
云測數(shù)據(jù) “場景化、精準化” 的服務(wù)模式,跟的就是需求方復(fù)雜、精深而個性化的數(shù)據(jù)要求。在云測數(shù)據(jù),具體到NLP,在數(shù)據(jù)采集上可滿足特定人物(老人、婦女、小孩)、特定場景(家居、辦公、商業(yè)等)、不同方言的聲音/文本等類型的數(shù)據(jù)采集;在數(shù)據(jù)標注層面,以智能客服單個場景的意圖標注為例,就分為10-20個大類,上百個子類,根據(jù)業(yè)務(wù)需求可能還會有進一步的標注細分。
除了對NLP數(shù)據(jù)進行對話意圖、領(lǐng)域、槽位等進行判斷和標注,多角度的泛化也必不可少。也就是說,無論用戶說的是地方話還是普通話,有沒有出現(xiàn)口誤,還是以不同的句子表達同一個意思,AI都能夠讀懂句子并給出正確的回答,這就要求NLP數(shù)據(jù)標注員對句子進行泛化,以不同的描述方式重組或擴充句式、標簽等,以提升AI對話的準確度。
在技術(shù)層面,云測數(shù)據(jù)對軟硬件設(shè)施的持續(xù)投入,也是保持高還原應(yīng)用場景、高標注精準度的有力舉措。
云測數(shù)據(jù)自研的數(shù)據(jù)標注平臺會根據(jù)實際使用中的反饋,以每周甚至更快的頻率進行功能迭代,以技術(shù)結(jié)合更多的落地場景,不斷提升數(shù)據(jù)標注工具的技術(shù)含量。同時,云測數(shù)據(jù)也致力于通過工程化開發(fā)來減輕數(shù)據(jù)標注中的重復(fù)勞動,提升業(yè)務(wù)效率。
按賈宇航的話說,“我們以企業(yè)服務(wù)的方式,為標注的精準度負責”。
在云測數(shù)據(jù)服務(wù)的眾多企業(yè)中,既有各大頭部AI企業(yè),也有各個行業(yè)的龍頭企業(yè)。這些企業(yè)在追求更高的AI認知智能準確度的過程中,合作過各種各樣的數(shù)據(jù)服務(wù)商,最終找到了數(shù)據(jù)標注質(zhì)量非常高的云測數(shù)據(jù),并保持著長期良好的合作。
事實上,除了數(shù)據(jù)采標的質(zhì)量和安全,數(shù)據(jù)服務(wù)商的全品類服務(wù)能力,以及獨立第三方的身份,也是企業(yè)進行AI合作所考量的重要因素。像云測數(shù)據(jù)這樣的服務(wù)商,不涉及客戶業(yè)務(wù),只提供專業(yè)的數(shù)據(jù)服務(wù),讓企業(yè)客戶在合作時倍感放心。
如今,AI產(chǎn)業(yè)在政策紅利和藍海市場的雙重利好中迎來快速發(fā)展,其中NLP市場發(fā)展也進入了快車道。目前,自然語言處理已經(jīng)有了許多商業(yè)化應(yīng)用,如:機器翻譯、輿情監(jiān)測、自動摘要、問答機器人、客服機器人、電銷機器人、智能推薦等,在龐大的市場規(guī)模和市場需求下,高質(zhì)量的NLP數(shù)據(jù)服務(wù)也將成為AI商業(yè)化發(fā)展的必然趨勢。