來源:IT之家
AI 大模型是近年來人工智能領(lǐng)域的熱門話題,它們可以實現(xiàn)各種令人驚嘆的功能,如生成逼真的文本和圖像,或者與人類進行流暢的對話。但這些大模型的背后,卻有著一群默默無聞的數(shù)據(jù)標注員,他們每天為了給原始數(shù)據(jù)添加標簽而辛苦工作,為 AI 技術(shù)提供訓(xùn)練所需的海量數(shù)據(jù)。
圖源 Pixabay
數(shù)據(jù)標注員們的工作并不輕松,他們需要面對枯燥無味的任務(wù),低廉的收入,長期的不穩(wěn)定和隨時可能被取代的風(fēng)險。他們是 AI 技術(shù)發(fā)展的基石,卻很少得到關(guān)注和尊重。
據(jù)《Tech 星球》報道,數(shù)據(jù)標注員們采用最原始的計件制算工資,大部分從業(yè)者每個月的收入都不過 5000 元。他們中有些人是專科畢業(yè)生,有些人是寶媽,有些人是轉(zhuǎn)行者。他們在三四線城市的格子間里處理圖片、文字、語音等數(shù)據(jù),為互聯(lián)網(wǎng)大廠和車企提供服務(wù)。
IT 之家注意到,數(shù)據(jù)標注行業(yè)也經(jīng)歷了起伏。2017 年,AI 技術(shù)期望爆棚時,數(shù)據(jù)標注員們可以賺到高額收入,一個 2D 拉框就有 5 毛錢。但隨著行業(yè)競爭加劇和技術(shù)發(fā)展不順利,數(shù)據(jù)標注的單價越來越低,現(xiàn)在最低只有 4 分錢。
數(shù)據(jù)標注公司也面臨著巨大的壓力。他們需要具備一定的規(guī)模和資金儲備才能從源頭獲取訂單,并且要承擔回款周期長、員工流動性大、質(zhì)量和周期不穩(wěn)定等問題。海天瑞聲是目前數(shù)據(jù)標注行業(yè)內(nèi)首家主板上市公司,去年利潤率剛剛超過 10%,今年上半年就陷入了虧損。
更讓數(shù)據(jù)標注員們擔憂的是,他們可能很快就會被自己參與創(chuàng)造的 AI 所取代。國內(nèi)外都有一些公司正在開發(fā)可以自動標注數(shù)據(jù)的工具,利用市面上主流的大模型來對數(shù)據(jù)集進行標注。這些工具聲稱可以提高標注效率和降低成本,并且達到與人工相近甚至超過人工的準確率。
當然,并不是所有的數(shù)據(jù)標注都可以被 AI 取代。一些需要專業(yè)知識和邏輯分析能力的數(shù)據(jù)標注仍然需要人工參與,比如醫(yī)療、金融、自動駕駛等領(lǐng)域。但這也意味著行業(yè)的門檻將會不斷提高,對于數(shù)據(jù)標注員們而言,要想在這個行業(yè)生存下去,可能需要更多的學(xué)習(xí)和努力。