無視用戶隱私大量AI應(yīng)用正在共享你的數(shù)據(jù)-魔扣目錄

如今距離OpenAI第一次將ChatGPT帶給大眾用戶已經(jīng)過去了半年之久，但畢竟再好的東西都有“保質(zhì)期”，所以隨著時(shí)間的推移，大眾圍繞AI大模型的狂熱也逐漸褪去、其暗面也開始被大量討論。且不提早已被擺在臺面上的AI大模型生成內(nèi)容可能存在版權(quán)風(fēng)險(xiǎn)，以及AI的倫理道德等過于虛無縹緲的話題，僅僅就其竊取用戶隱私這個(gè)問題，就足以讓外界對大模型提起十二萬分的注意了。

近日，美國一家律師事務(wù)所向加州北區(qū)聯(lián)邦法院提起集體訴訟，指控OpenAI和微軟使用互聯(lián)網(wǎng)抓取的信息來訓(xùn)練ChatGPT時(shí)，嚴(yán)重侵犯了大量用戶的版權(quán)和隱私，要求后者賠償30億美元。在這份長達(dá)157頁的訴狀中，原告指責(zé)OpenAI盡管制定了購買和使用個(gè)人信息的協(xié)議，但包括賬戶信息、姓名、聯(lián)系方式、支付信息、聊天記錄等隱私數(shù)據(jù)都在未經(jīng)許可的情況下，被OpenAI和微軟收集、存儲、共享和披露。

如果說這家律所指控OpenAI和微軟更多的是在博眼球，那么網(wǎng)絡(luò)安全公司Home Security Heroes公布的一份研究數(shù)據(jù)，則可能更具現(xiàn)實(shí)意義。在該公司對蘋果App Store的研究中發(fā)現(xiàn)，有四分之三的AI相關(guān)應(yīng)用與第三方共享用戶數(shù)據(jù)。而在接受調(diào)查的159個(gè)應(yīng)用中發(fā)現(xiàn)，64%的應(yīng)用會跟蹤用戶的個(gè)人數(shù)據(jù)，其中監(jiān)控用戶數(shù)據(jù)比例最大的一款A(yù)I應(yīng)用是Brainly（一款數(shù)學(xué)求解應(yīng)用）。

除此之外，Google Assistant與第三方共享了超過35.71%的用戶數(shù)據(jù)，語言教育應(yīng)用Duolingo、圖像生成應(yīng)用AI Arta和DaVinci，以及AI醫(yī)療應(yīng)用K Health則分別與第三方共享了多達(dá)28.57%的用戶數(shù)據(jù)。根據(jù)Home Security Heroes方面的說法，從整體來看，有54%的AI應(yīng)用會跟蹤用戶數(shù)據(jù)。

毫無疑問，這樣的一組數(shù)字是相當(dāng)驚人的，畢竟App Store應(yīng)該是目前對應(yīng)用審核最為嚴(yán)格的應(yīng)用商店，而蘋果也是當(dāng)下對用戶隱私保護(hù)力度最強(qiáng)的消費(fèi)電子企業(yè)。因此也可想而知，在Android生態(tài)中，AI應(yīng)用竊取用戶數(shù)據(jù)的情況大概率只會更加嚴(yán)重。

事實(shí)上，與第三方分享用戶數(shù)據(jù)自Meta的“劍橋門”以來，就是被整個(gè)行業(yè)非常忌諱的一件事，也很容易讓用戶聯(lián)想到企業(yè)本身對于個(gè)人隱私持漠視態(tài)度，因此近年來也是各大應(yīng)用商店嚴(yán)防死守的一點(diǎn)。

比如蘋果在App Store的審核指南中就明確寫到，“從App中收集的數(shù)據(jù)不能與第三方共享，用于與提升用戶體驗(yàn)、軟件/硬件性能無關(guān)的功能，自助廣告必需遵守《蘋果開發(fā)者計(jì)劃許可協(xié)議》”。既然向第三方分享用戶數(shù)據(jù)是一個(gè)被蘋果禁止的行為，那么為什么這一大批AI應(yīng)用會選擇糊弄蘋果的審核人員，冒著被移出App Store的風(fēng)險(xiǎn)也要這樣干呢？

其實(shí)這是因?yàn)锳I應(yīng)用對于數(shù)據(jù)有著幾乎永無止境的渴求，它們像饕餮一般吞噬數(shù)據(jù)、以訓(xùn)練自家的模型。而AI的智能則是以數(shù)據(jù)為支撐的，機(jī)器學(xué)習(xí)/深度學(xué)習(xí)技術(shù)的底座就是大量數(shù)據(jù)，也就是著名AI科學(xué)家吳恩達(dá)教授倡導(dǎo)的Data-centric AI，它是一種以數(shù)據(jù)為中心的人工智能理念，強(qiáng)調(diào)數(shù)據(jù)在人工智能開發(fā)和應(yīng)用中的重要性。

傳統(tǒng)搭建AI模型的方法主要是聚焦迭代模型，數(shù)據(jù)也相對固定，通常會聚焦于幾個(gè)基準(zhǔn)數(shù)據(jù)集，然后設(shè)計(jì)各式各樣的模型去提高預(yù)測準(zhǔn)確率。但這一模式的缺陷也非常突出，準(zhǔn)確率高的模型只能確保“擬合”數(shù)據(jù)，并不一定意味著實(shí)際應(yīng)用中會有很好的表現(xiàn)，如今也已經(jīng)被邊緣化，目前用更大規(guī)模和更高質(zhì)量的數(shù)據(jù)來訓(xùn)練AI，則成為了主流。

以O(shè)penAI的GPT模型為例，從GPT-1到ChatGPT、再到GPT-4，所用的訓(xùn)練數(shù)據(jù)大體經(jīng)歷了以下變化，小數(shù)據(jù)規(guī)模數(shù)據(jù)——大規(guī)模數(shù)據(jù)——更大規(guī)模、更高質(zhì)量的數(shù)據(jù)——大規(guī)模的人類標(biāo)注的高質(zhì)量數(shù)據(jù)。畢竟所謂語言模型的訓(xùn)練和學(xué)習(xí)，就是從大量的數(shù)據(jù)中學(xué)習(xí)復(fù)雜的上下文聯(lián)系。而為了獲得更多的數(shù)據(jù)，OpenAI更是四處出擊，例如它就以每年200萬美元的價(jià)格獲得了推特推文數(shù)據(jù)的訪問權(quán)限。

如果沒有持續(xù)的數(shù)據(jù)輸入，ChatGPT就不可能完成向GPT-4的“進(jìn)化”，而兩者間的一個(gè)顯著區(qū)別，就是ChatGPT的數(shù)據(jù)只截止到2021年、缺乏2022年及之后的數(shù)據(jù)。沒錯，隨著AI大模型概念的走紅，AI相關(guān)企業(yè)如今已然成為了數(shù)據(jù)交易市場的大買家。

也正是因?yàn)檫@一事實(shí)，導(dǎo)致了現(xiàn)階段數(shù)據(jù)本身的價(jià)格水漲船高，掌握數(shù)據(jù)源頭的企業(yè)已經(jīng)開始哄抬物價(jià)。以前段時(shí)間鬧出不小風(fēng)波的Reddit為例，其所給出第三方抓取5000萬次內(nèi)容需支付12000美元的價(jià)格，顯然就已經(jīng)很高。

出于對數(shù)據(jù)的渴求，以及數(shù)據(jù)本身的價(jià)格原因，AI應(yīng)用的開發(fā)者自然就有了強(qiáng)烈的從應(yīng)用內(nèi)收集用戶數(shù)據(jù)、并分享給第三方的動力。對于當(dāng)下的絕大多數(shù)AI應(yīng)用而言，變賣數(shù)據(jù)或許是它們現(xiàn)階段所能找到、最具可行性的掙錢方式。而且目前會去下載AI應(yīng)用的用戶，基本都是對AI感興趣的人群，如何讓這一部分用戶的價(jià)值變得更大，顯然開發(fā)者沒有理由不動心。

事實(shí)上，肆意挖掘用戶隱私現(xiàn)象的泛濫，對于尚且稚嫩的AI生態(tài)本身而言有著極大的傷害，因此有識之士也紛紛站出來疾呼。谷歌DeepMind的首席商務(wù)官Colin Murdoch就表示，督促AI開發(fā)者專注于構(gòu)建一個(gè)“強(qiáng)大而負(fù)責(zé)任”的社群。只是想要遏制AI應(yīng)用的開發(fā)者違規(guī)挖掘用戶數(shù)據(jù)，還得應(yīng)用商店加強(qiáng)審核才行。

【來源：三易生活】