国产精品成人国产乱,2018一级特黄视频在线观看,国产aaaaa级毛片

《科創板日報》8月10日訊（編輯宋子喬）數據、算力、算法，被視作生成式AI的三個核心要素，很難說哪個更重要。

但是，對于OpenAI這類明星公司來說，算力基本上是一個經濟問題，大公司憑借“鈔能力”囤積了大量昂貴的硬件，數據稀缺問題才更讓其頭疼，“不光彩”的數據獲取方式總讓它們陷入道德危機。

以OpenAI為例，其抓取公開數據訓練AI模型的行為早就備受爭議。據國外科技媒體Insider最新報道，OpenAI近日承認，其推出了名為GPTBot的網絡爬蟲機器人(13.060, -0.01, -0.08%)，用于抓取和收集數據用于大模型訓練。

▌OpenAI被懷疑是“數據小偷”

網絡爬蟲，是一種模擬人（網絡用戶）的行為，自動瀏覽、收集網絡信息的計算機程序。網絡爬蟲可以將自己所訪問的數據保存下來，數據抓取者對這些數據進行分析等加工再利用，推測出互聯網用戶的偏好，再順勢推送給與之匹配的用戶群體。

目前還不清楚OpenAI的爬蟲機器人在網上潛伏了多久，有些人懷疑OpenAI已經秘密收集每個人的在線數據長達數月或數年。

面對這樣的“指控”，OpenAI積極自辯，該公司表示，GPTBot將嚴格遵守任何付費墻的規則，不會抓取需要付費的信息，并且也不會收集能追蹤到個人身份的數據。

此外，OpenAI上線了一種阻止GPTbot的方法，用戶可以修改其robots.txt文件，或者屏蔽其IP地址，拒絕爬蟲的造訪。該公司最近還宣布與美聯社達成一項協議，OpenAI將付費購買AI訓練數據所需的美聯社內容。

▌消失的信任

爬蟲技術作為一種數據搜集的手段，本身并沒有合法與非法之分。但OpenAI主動為其爬蟲工具設限的舉動，似乎并不能挽回公眾對這家大模型頭號公司的信任。

老牌科幻雜志《克拉克世界》的主編、雨果獎得主尼爾•克拉克（Neil Clarke）表示：“OpenAI和其他大模型公司一再用行動證明，他們不尊重作者、藝術家和其他創意人士的權利，他們的產品很大程度上基于他人受版權保護的作品。”

他還舉例，CCBot是Common Crawl組織運營的另一種爬蟲機器人，目前Common Crawl是人工智能模型訓練數據的主要供應商，“據我所知，沒有人成功讓Common Crawl刪除數據，”克拉克說，“我嘗試過，沒有得到任何回應。”

另一方面，在與大公司拉扯時，普通人大多時候處于弱勢。正如克拉克所說，既然OpenAI愿意為（美聯社）等大公司的數據付費，為什么它不為其他人的信息付費呢？“我就此詢問了OpenAI，但沒有得到回復。”

不過克拉克本身就站在OpenAI的對立面，其一手創辦的《克拉克世界》正面臨AI生成內容泛濫成災的局面。克拉克曾指出，在ChatGPT于去年底開放后，AI生成的垃圾投稿激增，而檢測這類作品的成本高昂，該雜志一度暫停征稿。

▌結語

此前，OpenAI已經因版權問題被多方狀告，既有克拉克森律所推動的集體訴訟，也有保羅•崔布雷（Paul Tremblay）和莫納•阿瓦德（Mona Awad）等暢銷書作家在內的名人實名起訴。

隨著生成式AI技術的進一步迭代，類似的糾紛只會多不會少。

大公司更容易成為眾矢之的，即使它們敢于承擔責任，但要做到數據獲取完全合規，并不容易。由于參數量巨大，大模型需要借助分布式計算和云服務等技術來進行訓練和部署，又增加了數據被竊取、篡改、濫用或泄露的風險。

如何平衡個人隱私保護和鼓勵技術創新，如何找到企業生存與合規生產間的最優路徑，已經是每個致力于生成式AI事業的公司繞不開的問題。（財聯社）

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡