日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

繼ChatGPT以來,大模型在國內掀起了一股熱潮,大有百模征戰之意。而其中數據、算法、算力作為大模型訓練的三駕馬車,預訓練數據的數量、質量、多樣性成為大模型能力表現的關鍵性因素,數據對于人工智能領域的重要性值得我們重新審視。

然而,在追求技術創新的同時,確保數據的合法性、隱私保護和倫理問題的考量也應當得到足夠的重視。從目前AI大模型的發展來看,數據集的爭議在近年來變得越發常見。由于大規模訓練數據集對于訓練強大的AI模型至關重要,數據集的來源和使用問題引發了一系列的法律和倫理爭議。隨著AI技術的快速發展和廣泛應用,確保數據的合法和透明使用變得尤為重要。

那么,數據作為大模型訓練的基礎,應該如何保障數據安全呢?針對大模型訓練,“量”為主還是“質”為主呢?針對目前大模型訓練過程中的數據問題,又有什么解決辦法?

數據成為大模型研發卡脖子問題

數據集質量是大模型研發中的關鍵,只有通過高質量、多樣性的數據集,才能讓大模型展現出真正的智能和創造力。然而,在大模型研發過程中,使用的數據卻成為了其成長之路上的重要阻礙。在國外,因大模型研發而造成的數據糾紛早已出現。

一群匿名人士在一項集體訴訟中聲稱,ChatGPT的開發商OpenAI公司正在竊取大量個人信息,以訓練其人工智能模型不顧一切地追逐利潤。這些匿名人士指責OpenAI從互聯網上秘密抓取3000億字,竊聽了“書籍、文章、網站和帖子,包括未經同意獲得的個人信息”,違反了隱私法。

除此之外,國內也出現了大模型相關的數據糾紛,其中筆神作文對學而思大模型的指控更是再次讓大家關注到了數據對大模型的重要性。筆神作文表示,學而思通過“爬蟲”技術非法訪問、緩存筆神作文App服務器數據多達258萬次,嚴重侵犯了筆神作文APP的數據權益。這一行為不僅違反了雙方的合同條款,也違反了《數據安全法》相關規定,嚴重侵犯了筆神作文APP的數據權益。

對此,學而思官方微博發文回應稱:“首先,MathGPT是專注于數學領域的自研大模型,沒有任何作文相關數據;其次,‘作文AI助手’目前處于開發狀態,尚未發布,該服務并未使用筆神作文的任何數據。”

此外,推特、“美版貼吧”Reddit也在今年上半年相繼宣布對API接口收費,且價格不菲。此前,這些平臺的內容可以被谷歌、OpenAI等公司免費爬取,用作大語言模型的訓練庫。推特CEO馬斯克曾表示,“他們(微軟)非法利用推特的數據來訓練,是時候起訴他們了。”

隨后,三星也關注到了這一現象,并推出了一項新政策,要求員工不得在工作場所使用OpenAI的ChatGPT和谷歌Bard等生成式人工智能。據三星稱,4月時一名工程師將內部源代碼上傳到ChatGPT后,意外泄漏了內部源代碼。這讓三星擔憂其數據將通過人工智能平臺最終落入其他用戶手中。因此,三星員工被禁止在公司設備上使用人工智能工具,包括電腦、平板電腦、手機等。但員工仍可以在個人設備上使用人工智能工具,不過僅限于與工作無關的事情。

數據是否已成為大模型訓練的卡脖子呢?為此,數據猿就相關問題與業界專家進行了溝通。

天云數據CEO雷濤表示:這個問題我們要反思到根本:做大模型還是喂大模型?目前,大模型能夠提煉的語料是開放的、共享的和免費的。根據鳳凰網周刊,ChatGPT 中文資料為0.09905%,比重還不足千分之一。如果說蒸汽機是對動力的封裝和移動,電是對能源的封裝和移動,那么人工智能將是對知識的封裝和移動。大模型的知識會成為以后的基礎設施,到那個時候其“布道”的到底是“圣經”還是“諸子百家”,內核差異巨大。所以填充大模型語料才是根本的卡脖子問題。《1984》里有一句話:“誰控制了過去,誰就控制了未來;誰控制了現在,誰就控制了過去。”這句話應用在大模型數據上完全切合。

華院計算技術總監楊小東博士認為,目前大模型卡脖子問題主要集中于兩方面:

首先,對于具體行業內公司及解決方案供應商來講,高質量的行業數據確實是一個主要的卡脖子的點。這里二八法則同樣適用,也就是說大模型最終效果如何,80%是由數據決定的。通過高質量數據對模型進行低成本微調(PEFT),或者結合Langchain,可以做出各方面體驗還不錯的行業大模型。但如果數據方面比較薄弱,那就只能基于基底模型本身的能力,做些通用的,不痛不養的場景。

其次,從大模型的技術方面來看,為持續提升提升模型性能以及加快工程化落地,預訓練模型本身的網絡結構創新、Transformer以及Attention的優化、通信庫nccl的優化等技術也是至關重要的,需要在底層基礎能力研究上進行投入,擺脫基礎研究方面跟隨者的地位。

豐富、多樣的數據可以幫助模型更好地理解語言結構、語義關系和上下文信息。然而,構建高質量的數據集并非易事。

數據是大模型訓練的基石

在人工智能領域的百模大戰中,大型語言模型的訓練成為了一個關鍵的競爭領域。數據、算法和算力作為大模型訓練的三駕馬車,在這場競爭中發揮著至關重要的作用。其中,數據集作為大模型訓練的基石,對于模型性能和創新能力具有關鍵影響,尤其是數據質量問題更是不可忽視。

目前,大模型的數據一般來自于多個來源,包括以下幾種:

其一,公開數據集。許多領域都有公開的數據集,例如Imag.NET、MNIST等圖像數據集,Wikipedia等文本數據集。這些數據集由研究機構、學者或者公司開放,并且是在特定領域內廣泛使用和共享的。公開數據集是大部分通用大模型的數據集的主要來源。

其二,合作數據分享。許多公司、機構和學者擁有獨特的數據資源,并愿意與其它人合作共享這些數據資源,以支持不同領域的研究和應用。例如,很多醫療機構會收集大量的醫療影像數據,這些數據可以用于訓練圖像分析或者肺癌檢測等任務。這也正是筆神作文所遇到的事情,雙方雖為合作對象,但在數據引用上出現了分歧。

其三,大規模的網絡數據。當我們使用大型互聯網公司的產品和服務時,公司通常會收集并存儲我們的數據,包括搜索歷史、瀏覽器記錄、GPS位置、社交網絡等。這些數據可以用來訓練大型的語言模型,自然語言處理模型等。國內大模型的數據來源和自身優勢業務有較強相關性,百度作為國內搜索引擎的龍頭企業,其大模型產品文心一言的數據集來源便主要是網絡文本、書籍、新聞、社交媒體內容、科技論文、語音轉錄等,這也是其模型訓練的優勢之一。

其四,數據眾包。眾包是一種通過向大量的用戶或者工人收集數據來解決問題的方法。通過這種方法,可以快速搜集大規模的數據集,例如圖像標注、音頻翻譯等任務。這些數據集可以用于訓練視覺和語音模型等。

OpenAI此前披露,為了AI像人類那樣流暢交談,研發人員給GPT-3.5提供多達45TB的文本語料,相當于472萬套中國“四大名著”。這些語料的來源包括維基百科、網絡文章、書籍期刊等,甚至還將代碼開源平臺Github納入其中。

近期,國內AI準獨角獸企業實在智能的自研垂直領域大語言模型——TARS(塔斯)歷經半年研發后,正式開啟內測!對于其目前訓練大模型使用的數據集,實在智能創始人、CEO 孫林君表示,目前的數據來源是多方面的,主要包含公開的數據集、經典的書籍、文檔、知識內容、百科、開源的數據集,以及自身業務沉淀的數據,如果是垂直大模型合作企業會提供相關的數據集。占的比例來說并不固定,但是肯定是公開的數據的量最多,訓練數據的接入還主要是通過建立數據庫的方式。

近期發布多款AIGC產品的HCR慧辰股份CTO、首席數據科學家馬亮博士表示:我們做的是行業的專業數據分析服務,所以我們訓練聚焦于構造行業性AIGC分析模型,對具體行業的業務智能生成的能力有較高水平要求。因此訓練數據中來源外部的數據很少,主要是來自公司長期各行業服務的領域數據積累,大都是基于專家生成的業務數據資源(包括大量的行業公開數據、專業問卷模板、項目建議書模板、業務分析報告模板等)。目前尚未接入合作企業的相關數據。

LF AI&DATA基金會董事主席堵俊平曾公開表示:“AI大模型就像一個貪吃的‘怪獸’,始終需要研究人員投喂更多的、質量更好的數據。”他說,當前數據幾乎都是從“在網絡上主動收集”“從第三方購買”“利用公開數據集”這三個渠道得來。在堵俊平看來,從第一個渠道得到的數據局限性較強,由于版權問題,很多公司只能從其私域獲得數據;從第二個渠道獲取的數據面臨數據定價、數據質量等問題;而從第三個渠道獲取的數據往往只能作為研究使用,在商用或者其他方面有很多限制。

而行業數據更是非常核心的私域數據,私域數據量越大,質量越高,就越有價值。

就拿本次事件中學而思所訓練的垂直行業大模型來看,一個教育公司擁有大量教育資料數據,那么它就能開發出教育垂直大模型類的產品。同理,建筑行業的項目數據、金融行業的用戶畫像數據、海運行業的船位數據等,都是賦能垂直大模型的關鍵。

但是這些私域數據都攥在企業自己手中或者合作伙伴的手中,而且為了數據安全和合規,絕大部分機構是要本地化部署才會嘗試大模型訓練,很難想象企業會把自己的核心數據拿給別人去訓練。

從“量”到“質”的升級

如果說前期大家專注的大模型訓練的以“量”為主,到目前,隨著訓練的進一步提升,在大模型的數據訓練上,“質”將成為之后的必選之路。

因此,如何合理地給數據打上分級標簽、做好標注也非常重要。數據分級分類能夠幫助產品提效,而高精度的標注數據能夠進一步提升大模型的專業表現。但現階段垂直行業想要獲取高精度標注數據的成本較高,而在公開數據庫中,行業專業數據也較少,因此對垂直大模型的建構提出了很高的要求。

針對目前大模型數據集質量,商湯科技大裝置研究總監何聰輝則表示,大型語言模型對預訓練數據質量有很高的要求,這主要體現在流暢性、干凈性、知識密集性、安全性。訓練數據需要包含大量的正確語法和語義,以使模型能夠理解并生成符合語言規則的文本。流暢性直接影響到模型生成的文本是否通順、易讀。干凈性是指預訓練數據應該是干凈、準確的,不包含錯誤、噪聲或不一致的信息。模型在訓練過程中會學習到數據中的模式和特征,如果數據質量不高,可能會導致模型生成的文本出現錯誤、不準確的情況。安全性也是非常重要的一點。語言模型應該遵守一定的道德和法律規范,不生成有害、冒犯性或不當的內容。預訓練數據需要經過篩選和審核,排除不適宜的內容,以保證模型生成的文本符合社會價值觀和倫理標準。

實在智能創始人、CEO孫林君則表示,大模型訓練對數據質量的要求還是比較高的,模型訓練和模型微調以及回報模型的訓練上都要求比較高質量的數據集,多輪交互的數據,生成結果排序的數據質量都會對模型效果有很大影響。對于質量低的公開數據集要么清洗,要么棄用。同時數據的分布和密度也是決定模型好壞的重要因素,是數據質量的一部分。

GPT對數據質量要求高,而行業AIGC對代表行業理解的數據質量要求更高,這主要體現在兩點:高度貼合行業,蘊含業務的專業深度認知。我們現在訓練的數據,即使是專業領域積累的數據,訓練前也發現有很多問題,不僅包括常規清洗的問題,更多是行業深度的業務認知方面的問題構造與表達,還有許多要調整的。同一批原始語料,經過不同的清洗和優化方式,在訓練后,模型的業務分析效果就是有差異的。HCR慧辰股份CTO馬亮博士如是說。

大型語言模型是具有數十億到數萬億參數的深度神經網絡,被“預訓練”于數TB的巨大自然語言語料庫上,包括結構化數據、在線圖書和其他內容。ChatGPT比較大的突破是在GPT-3出現時,大概1750億參數量,數據量為45個TB。

出門問問副總裁李維認為:數據是大模型的燃料,數據的質量很大程度上決定了模型的質量。我們的數據加強工作主要分兩大塊,預訓練和后續的對齊訓練(SFT,RLHF),前者求量,后者重質。預訓練的數據,原則上是在保持多樣化和干凈的前提下多多益善。后期訓練的對齊數據,尤其是SFT數據,不求量大,只求質量高,要反映對齊工作的多樣性以及成比例。文獻顯示,有些高品質多樣性的小數據,也可以在對齊工作中表現良好。當然,在實際工程實現中,不宜一味追求SFT對齊的小數據(例如 1000條 - 1萬條),過分臃腫的SFT數據(例如千萬或以上)并不一定出好模型。這方面的常規數據加強和對齊訓練工作,要從流程化做到快速迭代,大模型的質量提升才能見效。

共建共享能否解決大模型訓練的數據集問題?

大模型的開發離不開海量數據助力。當前,數據來源的知識產權已經成為大模型發展的阿喀琉斯之踵。綜合上述的學而思和ChatGPT事件來看,主要是涉及AI大模型的“數據盜取”行為,有哪些因素可以判斷數據被盜取呢?

AI數據抓取案件與近年來司法判決的典型數據抓取案件在本質上沒有差別。對于這些案件,需要評判數據抓取行為是否對數據持有者的商業利益和市場競爭優勢造成了損害,是否未經許可使用他人勞動成果,是否違反了商業道德,并且需要考慮抓取數據的合理性和合法性。

利用抓取技術破壞他人市場競爭優勢,具有并存在為自己謀取競爭優勢的主觀故意,違反誠實信用原則,擾亂競爭秩序的數據抓取行為,可能構成不正當競爭行為。同時也直接違反了《數據安全法》相關規定。

尤其是針對合作方的數據,如果在合作協議中存在違約責任條款,應根據該條款處理。如果合作協議未涉及該情況,則被視為侵權行為,相應的侵權責任將予以承擔,包括但不限于賠禮道歉、停止侵權行為、賠償損失等。

數據和隱私的平衡是大模型應用面臨的一個重要問題。如何在保證數據安全的前提下,保護用戶的隱私,是大模型應用需要解決的一個重要問題。目前,隱私計算技術和產業已經成為了平衡數據流通與隱私安全的關鍵技術路徑。

面對這些挑戰,應該如何解決數據集卡脖子問題?

一、國家及社會層面。

首先是可以通過立法來保證數據安全。目前日本、英國、歐盟等已對將數據挖掘作為合理使用的情形進行了立法確認:日本以“計算機信息分析”的名義規定了文本數據挖掘的著作權例外,英國同樣引入文本和數據挖掘的版權許可或例外情況。

6月14日,歐洲議會投票通過關于《人工智能法案》的談判授權草案,意味著該法案將進入歐盟啟動監管前的最后階段。該法案要求OpenAI、谷歌和微軟等基礎模型的供應商需要公開,他們在訓練模型過程中,是否使用了受版權保護的數據。

此前,國家網信辦于今年4月公布的《生成式人工智能服務管理辦法(征求意見稿)》也明確,用于生成式人工智能產品的預訓練、優化訓練數據,應符合網安法等法律法規的要求,不含有侵犯知識產權的內容,包含個人信息的應符合“告知-同意”原則等要求,還應保證數據的真實性、準確性、客觀性、多樣性。

對外經濟貿易大學數字經濟與法律創新研究中心執行主任張欣表示,《生成式人工智能服務管理辦法(征求意見稿)》已對AI訓練數據集的合規要求搭建了清晰的框架,在運用著作權和知識產權方式之外,還可以探索使用多種法律手段去實現。

張欣分析,監管的落地,還存在事后難追溯等問題,尤其在算法復雜度日益攀升、出現“算法黑箱”等情況下,如果從事后去還原和追溯數據集是否合規,十分依賴大模型開發商提供數據處理記錄和日志,很難從外部進行確認。此外,從技術上來說大模型很難精確刪除某個用戶的個人信息,這就限制了個人信息保護中“刪除權”的行使。

其次,通過數據集的共建、共享,來讓大模型企業擁有更加豐富的數據集。

研究機構和開發者們開始意識到合作與共享的重要性。建立數據集共享平臺和合作網絡,可以促進數據資源的共享和互補,從而減輕單個團隊的數據采集和標注負擔。

通過共享數據集,可以獲得來自不同來源和領域的數據,增加數據的多樣性。這有助于訓練更具廣泛應用能力的大模型,適應不同場景和任務的需求。各方共享數據集,可以充分利用各自的數據資源,避免重復勞動和浪費,提高數據利用效率。共建共享模式可以將各方的專長和資源進行有效整合,實現合作共贏。在共建共享模式下,數據采集和使用的風險可以得到分擔。各方可以共同制定數據使用準則和合作協議,明確數據的權益和責任,減少法律和倫理風險。

楊小東博士表示,共享共建數據機制能夠對大模型的研究與落地提供持續助力。當然首先需要平衡好各方的利益,通過行政以及技術等多方面的手段,保障數據的質與量,從而實現真正的價值,形成良性的發展生態。

然而,共建共享模式也面臨一些挑戰和限制:首先,在共建共享模式下,數據的隱私和保護是一個重要的問題。合作方需要確保數據的安全性,制定隱私保護措施,并遵守相關的法律法規,保護數據所有者的權益;多方參與的共建共享模式需要良好的合作協調機制。合作方需要就數據采集、標注、使用等方面進行有效的溝通和協作,確保數據集的一致性和質量。最后,在共建共享模式中,涉及到數據的權益和利益分配問題。各方需要協商和達成共識,制定公平合理的利益分享機制,以確保各方的權益得到尊重和保護。

二、對于大模型研發企業。

對于大模型研發企業來說,解決數據糾紛問題是至關重要的。首先應該確保在數據采集、使用和存儲過程中遵守相關的法律法規,包括數據保護和隱私權規定。制定明確的政策和流程,確保數據的合規性和合法性。

其次,與數據提供方、合作伙伴或客戶之間建立清晰的合同和協議,明確數據的權益、使用范圍和限制條件。確保雙方對數據的使用和共享有明確的約定,并明確各方的責任和義務。

當然,在數據采集和使用過程中,進行數據審查和驗證,確保數據的來源和合法性。驗證數據的準確性、完整性和權威性,并與數據提供方進行溝通和確認。

而且,應當采取適當的數據安全措施,包括數據加密、訪問控制、數據備份和災難恢復計劃等,以防止數據被盜取、篡改或泄露。確保數據的機密性和完整性得到保護。

同時,建議大模型研發企業尋求專業的法律支持,特別是在處理數據糾紛或爭議時。法律專業人士能夠提供有針對性的法律建議和指導,確保企業在法律框架內解決數據糾紛問題。

遵循誠信和商業道德,在數據采集和使用過程中,秉持誠信和商業道德原則。遵循公平競爭和互惠原則,尊重數據所有者的權益,避免未經授權或惡意使用他人的數據。

大模型研發企業應該重視數據糾紛問題,并采取相應的措施來解決和防范這些問題。合規和合法性、合同和協議、數據審查和驗證、數據安全措施、法律支持、培訓和教育以及誠信和商業道德都是關鍵的方面,需要在企業的數據管理和運營中得到有效的應用和實施。

三、對于合作方或用戶。

數據安全已經是老生常談的一件事了。對于大模型合作方,或者使用的用戶來說,又應該如何保護自身的數據安全不受侵犯呢?

首先是仔細閱讀和審查合同,在與大模型研發企業進行合作之前,仔細閱讀并審查合同條款,特別是關于數據使用和保護的部分。確保合同中包含明確的數據安全條款,涵蓋數據的保密性、安全性和合規性。

其次,應該限制數據提供范圍,在合作過程中,明確規定數據提供的范圍和目的,只提供必要的數據,并限制敏感信息的披露。確保只有合理需要的數據被使用,減少數據泄露和濫用的風險。在共享數據時,采取措施保護數據的隱私和匿名性。可以使用數據脫敏技術、數據加密和數據匿名化方法,以減少數據被識別和關聯的可能性。制定內部風險管理機制,包括監測和應對數據泄露、未經授權訪問等安全事件的計劃和流程。建立及時響應和處置數據安全問題的能力。

當然,也需要實時監控數據使用情況,對于共享的數據,建議保持對數據的監控和跟蹤。確保數據的使用符合合同和約定,并監測是否存在異常活動或未經授權的數據訪問。要求合作方或大模型研發企業采取適當的數據安全措施,如數據加密、訪問控制、漏洞修復等,以確保數據的安全性和保密性。

最重要的是選擇可信賴的合作伙伴,在選擇合作伙伴時,仔細評估其數據安全和隱私保護能力。選擇具備良好信譽和可信度的企業,了解其數據安全措施和合規性。

總之,無論是作為大模型研發企業還是合作方或用戶,保護數據安全至關重要。數據集作為大模型研發中的關鍵環節,需要綜合技術、合作伙伴和道德準則的支持。解決數據集卡脖子問題,才能推動大模型的進一步發展,為人工智能領域帶來更多的創新和應用。

文:余小魚 / 數據猿

分享到:
標簽:數據
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定