日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

圖片來源:由無界 AI生成

在一家互聯網大廠做數據標注的小顏,時常在公司感到一種隔絕。

小顏的工位,跟產品經理、程序員們挨在一起,他們能享受相同的福利:同樣的工牌、蘋果電腦;隨時可以去健身房,或去太空艙睡一覺。

但小顏能察覺到,作為數據標注員的她和其他同事,分屬于“兩個世界”。

盡管大家是一個團隊,但每天的早會,沒人會喊上標注員,小顏只能偷偷摸摸在門外看。有一回,有人推來一車臺燈,是團隊正在做的AI產品樣機,程序員們圍了上去,很興奮,拿在手里把玩。標注員們則坐在工位忙自己的事,毫無波瀾。“他們不知道那個產品,就是靠標注的數據做出來的。”

入職時,小顏所在的公司正在開發一款教育類AI產品,需要標注大量數據以訓練AI。公司買來堆積如山的中小學習題冊,小顏的工作是拍下每一道題,然后在電腦上對這些題目拉框,做標注。

同樣是為AI工作,程序員清楚地意識到自己的工作價值,享受著算法不斷進步帶來的快感,但幾乎沒有標注員會覺得,正是自己的勞動創造了AI。

人工智能的進步離不開數據標注。近幾年自動駕駛的發展,帶動了數據標注的市場。據德勤的報告顯示,2022年自動駕駛領域的標注需求占整個AI下游應用的38%,預計到2027年,比例將上漲到52%。

今年大模型興起,給數據標注行業再添一把火,大量基于大模型訓練場景的訂單朝數據標注公司飛去,看上去,數據標注這個枯燥的生意,再次注入活力。

一些技術公司走得更前列,正在嘗試使用AI自動合成數據,供AI訓練。合成數據是基于少量真實數據,用AI無限生成、無需標注的數據,而不再依賴人工標注。在自動駕駛領域,合成數據可以覆蓋一些極端路況,比如行人突然闖入馬路等。

在他們的暢想中,今后合成數據將取代人工標注。沒有技術、只靠人力的標注公司將被逐步淘汰。一項數據顯示,國外用于人工智能的基礎數據中,已有70%是合成數據,這條路正在被驗證。

對數量龐大的數據標注員來說,上述內容并不是好消息。然而36氪接觸的一些標注員,還不清楚ChatGPT到底是什么,他們的反應像是第一次聽說這個名詞。

小顏說,標注員是一個隨時可以被切掉的尾巴。唯一的懸念是,這一刀何時徹底落下。

訓練機器的標注員們,覺得自己更像機器

小河的專業是英語系,大四那年在一家大廠實習。第一天上班,辦公室在一棟寫字樓里,寬敞、干凈,完全符合她對互聯網公司的想象。沒多久她意識到,面試所了解的工作內容——“整理、分類公司語音數據”,其實就是數據標注。

后來小河承認,如果知道那是給AI打工的起始,她會立即走人。

組里有6個實習生,都是名校外語系的同學。一個女組長每天分派任務。有時是一堆英語音標,小河的任務是區分出英音和美音;有時是一份Excel,點開,滿眼都是數據,往下拉,足足有一萬多條。

“感覺像爬一座山。”小河說。

做過最多的“項目”,是中學生的口語標注。標注員習慣把工作說成項目,一個項目接著一個項目。小河一天要聽200條帶濃重口音的錄音,每條兩分鐘。聽到一般疑問句,打1分;聽到特殊疑問句,打2分;都沒聽到就是0分。為了防止泄密,只能用辦公室的有線耳機,小河聽得耳朵酸脹,“不由自主的煩躁”。

她經常聽到錄音出現臟話。有的小孩口語沒講幾句,就開始飆國罵。還有一次做地圖導航的項目,有人不由分說,在錄音里謾罵。“我不知道為什么有人會有那么大的怒氣。”

小河說,你不能太當回事,只能給這條錄音打個標“無意義”,然后翻篇,繼續聽下一條。

“像個機器一樣”,幾乎每個標注員都會這樣形容自己。標注不費腦子,一位山東的標注員說,做過最困難的項目是指紋標注。她拿到一堆不知道是誰的指紋圖(有些還很模糊),需要沿著指紋的邊緣一點點拉框。“那天回家后,閉眼都是指紋。”

許多項目要求標注員嚴格保密,但標注員也不關心項目用途是什么。上班期間,標注員被要求交出手機,放在墻上的掛袋里。只有接到電話時,才允許他們取回手機。

多數標注員經歷過從生疏到熟練,從新鮮到乏味的過程。項目的前期是最有趣的,那時標注規則還不完善,他們經常碰到爭議地方,就會互相討論甚至爭論,氣氛很熱鬧。到了中后期,規則差不多定型,就只剩下重復的、機械的勞動,人就會陷入無意義感。

一位標注員說,這是一份“沒有頭腦的工作”。

江西撫州,當地職校學生在做數據標注;圖源:IC photo

上海大學教授賈文娟做過數據標注的田野調查,她認為數據標注不是腦力勞動,也不是體力勞動,而是認知勞動,“人出售的是自己的認知”。黑色幽默的地方是,我們想讓機器變得更像人,同時卻把人變得像機器。換句話說,拋開人的常識,像機器人那樣思考。

而一旦標注員開始思考“我為什么要做這個”,就意味著他離辭職不遠了。

鄭委是一家數據標注公司的老板,他直言,留不住人。公司最好的光景,也不到20人。新員工經常只能堅持半個月,不少人第一天來上班,第二天就跑了。他只好不停降低招人要求,到最后,他感到“不是我在選人,而是人家在選我”。

他不知道怎么挽留那些要走的人,“你留在這兒會越來越好,這種話其實我自己都不太相信。”鄭委告訴36氪。員工流失最終壓垮了公司,只剩下兩名標注員的時候,他決心解散團隊。沒過多久,ChatGPT掀起了新一輪AI浪潮。

大模型興起,對數據標注本是利好,然而也加劇了標注團隊的內卷。

提起接活,小代說,現在市場上80-90%的標注項目,單價被壓得非常低,“因為中間的轉包商太多了”,“都想賺差價,不想真的干活”。他在眾包平臺做過兩年標注員,今年創業,組建自己的標注團隊。

數據標注的利潤不高。以自動駕駛的2D拉框來說,大公司的派單價格是一毛一個,接活的標注團隊是8分一個。“現在降到5、6分。”小代說。他算了一筆賬,如果低于8分,他只能虧本。

為了生存,小代大部分時間都在找項目,混跡于各種平臺、貼吧。項目真真假假,不靠譜的居多,小代吃過虧,有一個項目的錢,等了8個月還沒到賬。

后來,他先當兼職標注員,試標、結賬沒問題,才會讓團隊接活。有回聽說平臺半夜3點會放一批項目,他提前定鬧鐘去搶單。

人員流失、單價壓低、回款不穩定,像腫瘤一樣,拖垮了這行業里的多數小公司。

沒有一個標注員不嫌棄這份工作,他們掙不到錢,更看不到晉升空間和發展機會,陷入漫長的沮喪和失落。

就在寫這篇稿子的過程中,36氪接觸的標注員大多都離職了。一個女孩說,她一共做了兩個月,到手工資,只有不到三千塊。

內卷的標注員:本科率100%

過去,數據標注的門檻較低。在山東、山西、河南、貴州等地,許多數據標注公司招募了大量廉價勞動力。最常見的包括寶媽、殘疾人、職校學生,只要掌握電腦的基本操作,就能進入這個行業。

來到大模型時代,一場關于數據標注的洗牌和淘汰,正在候選人中悄然進行。

研究人員發現,訓練數據的質量對模型性能有非常大的影響。比起數據量,擁有更高的數據質量,模型的改善效果就更明顯。為了把控數據質量,一些AI公司組建了自己的標注團隊,第一步就是提高入行門檻。

最明顯的,標注員的學歷開始卷起來。

今年四月,一家頭部大模型廠商建立了數據標注基地,招募的第一批標注員,本科率達到100%。公司負責人解釋,大模型數據涉及的知識面廣,評判標準復雜,非常考驗標注師的語言理解能力和邏輯推理能力。

小王剛從大學畢業,回老家找工作時,偶然刷到這個數據標注基地的招聘。于是他參加了面試,順利通過。基地給他發來一份長達30萬字的培訓材料,只有通過培訓考試,才能正式上崗。

標注員每天都在做題。新人一天40道題,熟練工則是70-80道。后臺系統給每個人發放題目,大多數是真實用戶和大模型的對話記錄。用戶的問題囊括四海,甚至千奇百怪:這三款手機哪個更好?雞蛋好吃還是扭蛋好吃?成功人士的標準是什么?林黛玉為什么要打白骨精?

大模型會有好多個回答,而小王的工作就是閱讀每一個回答,挑出錯誤,并按照質量逐一打分,5分是滿分,1分最低,而3分以下的答案,還需要劃分錯誤類型。答非所問,直接給最低分,要是碰到敏感問題,則不打分,判為“其他”。

排序、打分、評估,這些略顯復雜的標注環節,正是所謂的RLHF(Reinforcement Learning from Human Feedback,即從人類反饋中強化學習),目的是為了讓大模型與人類價值觀、思維方式不斷對齊,更加可用。OpenAI訓練ChatGPT的過程中采用了RLHF,取得了顯著的效果。

和過去的數據標注相比,大模型的標注規則更加主觀。一位算法工程師在面試標注員時,會問對方這樣的問題:“如果你是企業領導,面對孫悟空、豬八戒、唐僧、沙僧這四類員工,你會更傾向于錄用誰?”

沒有標準答案,他說。這類問題是為了考察標注員有沒有邏輯思維能力。

行業對人才的需求變得迫切。一家名叫愷望數據的初創公司,正在與高校合作,培訓大批高校學生標注員。CEO于旭說,公司去年打造了“愷望數據學院”,已培訓50所學校,超過1500名學生從事數據標注。

當小王給大模型的回答打分時,他經常需要做一些事實核查,工作量全憑運氣。有一回碰到一個題目:寶馬3系和奔馳C系哪個比較好?大模型分別羅列了兩款車的40個參數,每個參數都需要小王查驗。那道題他足足花了半小時。

做標注有一段時間,小王發現他打的分很少超過3分,“AI的回復還沒有到能讓我覺得很滿意或者很出彩的程度”。他記得有道題是“藍牙耳機壞了,是去看牙醫還是看耳機廠商”,顯然是釣魚問題,但AI的回答讓他眼前一亮,“它說是去修理,而不是去醫院”。

小王對這份工作感到滿意。他每月的底薪是1800元,全勤獎200元,房補200元,算上績效,一個月可以拿到4000元。他說,在當地這個收入算中上水平。他還拉上了自己的發小,兩人坐在相鄰的工位。

與小王同期培訓的大學生大約20多人,沒兩天就跑得差不多,只剩兩三人。

但我們不必為公司擔心,這里永遠不缺大學生。一個CTO向36氪吐露了真相:你去看看現在大學生的就業狀況嘛。

最想淘汰人工標注的,不是AI

必須承認,關于數據標注的報道有很多,人們達成的共識包括,這份工作是“互聯網的流水線”,很難長期做下去,以及人工標注最終會被AI取代。

過去一個月,我們花了大量時間和算法工程師、AI公司交流。雖然沒有刷新上述共識,但能隱隱感到,最想淘汰人工的或許不是AI。在AI真正動手之前,那些掌握最先進技術的人已經舉起鐮刀。

在技術世界,數據的重要性不言而喻。算法工程師小段說,如果一個AI業務沒有標注過的數據,他們寫出再好的算法,也會是一盤散沙。標注數據越多越好。薅盡標注員羊毛,是一件穩賺不賠的買賣。

有時,標注員們花四五天做完的數據,算法一小時就能跑完。小段供職于一家互聯網大廠,部門預算充足,養了幾名全職標注員。“我們盡量不想讓標注員閑著。”他說,“領導會看周報,如果覺得任務不多,就讓我們多投放一些任務給他們。”

一位標注員告訴36氪,雖然共事的程序員嘴上會說,每個工種都有存在的價值,但仍會不經意間流露出一絲輕視。“當然了,這群人本身就是技術至上。”標注員自我安慰道。

技術的進步速度遠超所有人預期,來到大模型時代,數據質量將直接影響到模型的性能。弄明白這一點,一些AI公司毫不猶豫地告別了數據標注外包商。

“拿回來的數據質量太差,基本沒法用。”一家AI公司的CTO說。他們的核心業務是做AI生成視頻,為此自研了一款模型,能夠無限量生成電商產品視頻。為了訓練模型,他們特意招了50名大學生做數據標注。

如果涉及醫療、金融、計算機等專業領域,大學生也很難被信任。國內一家互聯網大廠除了自建標注基地,還會花錢請專業人士來標注。盡管專業人士在標注行業的占比仍然很小,但作用相當明顯。比如,一個關于社保斷繳的問題,交給熟悉政府文件的專業人士,最讓人放心。

一個公開的秘密是,早在ChatGPT走紅前,OpenAI就組建十幾位博士生來“打標”。八年時間,OpenAI光是訓練模型就花了10億美元。

今年五月,美國一家數據公司開始招聘特定領域的專業人士。這些高級標注員的報酬不再是白菜價,比如法律數據的標注時薪是45美元,詩歌則是25美元。

不過,做標注的無論是藍領還是白領,在一些AI公司的眼里,都是想要節省的成本。和這些公司交流時,36氪頻繁聽到一個詞:降本增效。

最常見的辦法是,利用AI進行自動化標注。一家數據公司表示,自動化標注的比例已經達到70%以上。

而算法工程師小李和同事正在做更加前沿的嘗試:只要以一小部分的真實數據為藍本,通過生成式AI技術和一系列算法,就能合成高質量的、可供訓練的數據。換句話說,完全不需要人了。

“我們合成數據的售價比人工標注的要便宜一點。”小李說。

合成數據目前主要用在自動駕駛和機器人領域。小李說,當ChatGPT出來后,他便意識到標注數據可能走不通了,最后都要用合成數據。OpenAI創始人Sam Altman也有類似的看法:“合成數據是解決大模型數據短缺的最有效辦法”。

初創公司光輪智能主要做自動駕駛和機器人領域的合成數據。“自動化標注的終局就是沒有標注,”CEO謝晨說,“大部分標注公司沒有看到那么長遠。”

謝晨向36氪提到,團隊有名同事,此前在一家主機廠做自動化標注,攻克了更復雜的4D-BEV標注。這是業界領先的標注工具,在3D空間中以時間為第四個緯度進行標注,提升自動駕駛系統性能。今年他決心放棄自動化標注,主動找到謝晨,最后入職了光輪智能。

這名同事就是小李。他表示,生成式AI的出現一度讓他非常焦慮,但看到合成數據后,他重新興奮起來。

他的工作目標之一就是“取代(標注)這行業的人”,但又不好意思把話說絕,“很可能就在短期內,可能一兩年。”

最后,讓我們回到標注員的世界。這里幾乎感受不到由技術飛快發展而產生的焦慮。這里只有瑣碎、重復的煩躁,還有一些天真的幻想。

大學生小王仍然在老家訓練大模型。我們最近一次聊天,他說,這份工作是一個進入人工智能領域的機會。公司為他們設定的晉升途徑是,標注員到質檢員、培訓師,再到主管,最后是項目經理。小王的目標是當上主管,然后跳槽去一個離AI更近的崗位。具體是什么,他還不知道。

與有雄心的小王相比,多數標注員對AI沒有什么興趣。有個女孩給出解釋,“不太關注高科技。”她做了兩年標注,已經是資深員工,不久前晉升為質檢員。對她來說,標注工作簡單、穩定,“沒有精神內耗”,偶爾還能摸魚。AI攪動科技圈的這一年,她的日子平靜如水。

為數不多的變化是,公司提供的標注工具中多了一個對話機器人。公司告訴大家,在標注時碰到不懂的問題,直接向機器人提問就行,節省時間。效率提升很快,她告訴36氪,之前拉框,一天最多做完五六百個,現在能做七百多。

“多虧了那個機器人。”她說。還沒人告訴她,那叫ChatGPT。

(應受訪者要求,文中部分人物為化名。36氪作者鄧詠儀對文章亦有貢獻。)

分享到:
標簽:標注 數據
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定