IT之家 10 月 9 日消息,AI 大模型是近年來人工智能領域的熱門話題,它們可以實現各種令人驚嘆的功能,如生成逼真的文本和圖像,或者與人類進行流暢的對話。但這些大模型的背后,卻有著一群默默無聞的數據標注員,他們每天為了給原始數據添加標簽而辛苦工作,為 AI 技術提供訓練所需的海量數據。
圖源 Pixabay
數據標注員們的工作并不輕松,他們需要面對枯燥無味的任務,低廉的收入,長期的不穩定和隨時可能被取代的風險。他們是 AI 技術發展的基石,卻很少得到關注和尊重。
據《Tech 星球》報道,數據標注員們采用最原始的計件制算工資,大部分從業者每個月的收入都不過 5000 元。他們中有些人是專科畢業生,有些人是寶媽,有些人是轉行者。他們在三四線城市的格子間里處理圖片、文字、語音等數據,為互聯網大廠和車企提供服務。
IT之家注意到,數據標注行業也經歷了起伏。2017 年,AI 技術期望爆棚時,數據標注員們可以賺到高額收入,一個 2D 拉框就有 5 毛錢。但隨著行業競爭加劇和技術發展不順利,數據標注的單價越來越低,現在最低只有 4 分錢。
數據標注公司也面臨著巨大的壓力。他們需要具備一定的規模和資金儲備才能從源頭獲取訂單,并且要承擔回款周期長、員工流動性大、質量和周期不穩定等問題。海天瑞聲是目前數據標注行業內首家主板上市公司,去年利潤率剛剛超過 10%,今年上半年就陷入了虧損。
更讓數據標注員們擔憂的是,他們可能很快就會被自己參與創造的 AI 所取代。國內外都有一些公司正在開發可以自動標注數據的工具,利用市面上主流的大模型來對數據集進行標注。這些工具聲稱可以提高標注效率和降低成本,并且達到與人工相近甚至超過人工的準確率。
當然,并不是所有的數據標注都可以被 AI 取代。一些需要專業知識和邏輯分析能力的數據標注仍然需要人工參與,比如醫療、金融、自動駕駛等領域。但這也意味著行業的門檻將會不斷提高,對于數據標注員們而言,要想在這個行業生存下去,可能需要更多的學習和努力。