自從 ChatGPT 橫空出世后,一石激起千層浪,人工智能也正在從感知理解走向生成創造,這是一個關鍵里程碑。生成式大模型完成了從0到1的飛躍,并且已成為未來發展趨勢,推動AI邁向通用人工智能。
在ChatGPT發布后的短短4個月時間里,已經有至少30個國內研發機構與企業紛紛推出自己品牌的大模型與相關產品。例如百度的“文心一言”、阿里的“通義千問”、科大訊飛的“星火認知大模型”、京東的“言犀產業大模型”等等。
但是2023年4月,馬斯克突然與1000多名人工智能專家和行業高管在公開信中呼吁:“ChatGPT等AI研究室需暫停研發6個月!”給出的理由是“只有當我們確信它們的影響是積極的,并且它們的風險是可控的時候,才能開發更強大的人工智能系統。”
聚焦大模型的“隱患”
事實上,對大模型的隱憂還不僅僅限于風險不可控,一項來自 Epoch AI Research 團隊的研究拋出了一個殘酷的現實:目前,公域中高質量的語言數據存量將在 2026 年耗盡,低質量的語言數據和圖像數據的存量也將在未來20年中逐步耗盡。這意味著,如果數據效率沒有顯著提高或有新的數據源可用,那么到 2040 年,模型的規模增長將放緩。而如何合法合規地利用手機等終端設備上的私域數據,將是解決大模型訓練數據不足問題的關鍵。
即便是現在的大模型還沒涉及私域數據領域,但有相關政策法規已經開始進行規范。 4月11日,國家網信辦就《生成式人工智能服務管理辦法(征求意見稿)》公開征求意見,在責任和義務方面,尤為強調數據合法性與對個人數據和信息的保護。其中提到:提供者應當對生成式人工智能產品的預訓練數據、優化訓練數據來源的合法性負責;禁止非法獲取、披露、利用個人信息和隱私、商業秘密。
由此可見,數據隱私之憂已經成為全行業的共識。而除了數據隱私的憂慮之外,由于大模型通常需要消耗大量的算力和數據,也就是說只有少數大公司擁有足夠的資源來訓練和部署這些模型。這可能導致市場上的壟斷現象,限制了中小企業參與機器學習和AI應用領域的機會,導致壟斷和不公平的產生。在云服務器上運行的大模型還會面臨安全攻擊風險。惡意攻擊者很可能通過攻擊云服務器來竊取模型及其數據,或者反向工程模型參數以訓練新模型。
數據隱私泄露、安全漏洞、市場壟斷、不公平性、公域數據即將耗盡等等大模型發展所面臨的“隱患”該如何解決?
分散的小模型協作會成為大模型未來發展趨勢嗎?
4月18日,OpenAI CEO Sam Altman在討論大模型發展的趨勢的時候認為,讓模型變得更大將不會進一步帶來新進展。“我認為我們正處于將模型做大這一時代的盡頭。我們將以其他方式使它們變得更好。”未來模型參數應該向更小的方向發展,或者以多個小模型協作的方式工作。
“讓大模型變小”已經成為眾多研究者非常感興趣的一條路,大家先后做了很多嘗試,先是 Meta 開源了 LLaMA,讓學界和小公司可以訓練自己的模型。隨后斯坦福研究者啟動了 Lamini,為每個開發者提供了從 GPT-3 到 ChatGPT 的快速調優方案。
最近由 TVM、MXNET、XGBoost 作者,CMU 助理教授,OctoML CTO 陳天奇等多位研究者共同開發的開源新項目MLC LLM面世,希望實現在個人手機和電腦等各類設備平臺上編譯運行大語言模型。
今年4月,隱私計算聯邦學習開源平臺FATE (Federated AI Technology Enabler)正式發布聯邦大模型FATE-LLM功能模塊,同樣是“小模型協作”的思路,FATE-LLM則是通過將聯邦學習和大模型結合,在各參與方的敏感數據不出本地域的前提下,根據各方實際數據量進行算力投入,聯合進行大模型訓練。
基于此技術方案,多個機構可以通過FATE內置的預訓練模型進行橫向聯邦,利用各自隱私數據進行聯邦大模型微調,從而提升自身大模型應用的效果。聯邦大模型不僅主要解決的是大模型訓練階段的隱私保護問題,未來還將研究在使用大模型的過程中如何保護用戶的隱私。
這種用小模型聯動大模型的方式,也很好地詮釋了小模型協作的精髓。聯邦學習作為一種分布式機器學習新范式,其“數據不動模型動,數據可用不可見”的特點使得各參與方可以在保護各自數據安全與用戶隱私的前提下,進行AI協作,打破數據孤島。
也正是因為聯邦學習的這一屬性,為未來大模型的發展提供新的思路:聯邦學習與大模型結合,構建安全合規的數據生態大陸。
近期聯邦大模型對現有大模型的支持已經在實操層面上有了很多新進展,FATE開源社區TSC Maintainer、開發專委會核心成員范濤告訴我們:“目前的FATE-LLM可以提供對主流大模型的支持,4月發布了聯邦大模型FATE-LLM對GPT-2等大模型的支持,5月發布了對清華GLM大模型的支持。”
聯邦大模型,也有需要面對的“原生困境”
和大模型面臨的隱憂類似,即便是以大化小,聯邦大模型更根本地解決了大模型面臨的一些問題,但是聯邦大模型依然有著自己要解決的“原生困境”。
公平性是否能夠得到保障?數據隱私性是否能夠有效保護?規模大小不一的異構模型集如何統一調配訓練?這些也給聯邦大模型的研究者們提出了難題。從2018年開始,香港科技大學講席教授楊強和其團隊始終致力于聯邦學習的研究,如今,面對聯邦大模型可能遇到的技術難題,楊強教授認為,想要在多個維度實現“既要,又要”,那么就必須在“平衡”上做文章。
面對聯邦大模型是如何通過大大小小的分布式模型協作來解決私域數據的安全性問題,楊強教授認為:“未來,人工智能模型一定會成為我們貼身的人工智能助理,這就要求人工智能對個人的需求有更強的適配能力,更好的理解能力,這個時候,就會用到私域數據,包括個人的生理的數據,物聯網數據以及一些跟個人非常強相關的數據。使用這些數據,一方面會讓AI給我們提供更貼身的、更個性化的服務,但另一方面在用這些數據的時候也面臨隱私保護的需求。聯邦大模型針對這個問題提出的解決方案可以做到很好的平衡:一方面數據是分布的,另一方面,我們的這些大大小小的模型有的是分布式的,有的是個人化的、定制化的,他們一起來對聯邦大模型總體產生性能的提升、效率的提升以及安全隱私的保護。這樣,我們一方面能夠享受到大數據帶來的好處,另一方面我們還是能夠安心的,放心地使用這些模型,不至于因為使用這些模型就泄露了不該泄露的數據。”
然而,即便是“為解決數據隱私問題而生”的聯邦大模型,自身依然有要面對的安全性難題。聯邦學習中數據和模型的安全性到底該如何保障呢?微眾銀行人工智能首席科學家范力欣告訴我們:“我們針對竊取數據和模型,以及破壞數據和模型兩種安全隱患已經有相應的防御措施。針對數據竊取,我們通過加密數據來進行防御;針對模型竊取則是通過水印機制來進行制約。目前我們已經有一套技術方案能夠支撐和有效的管理、追蹤整個模型的全生命周期的合法使用,這同樣對模型的知識產權進行了很好的保護。另外,針對數據攻擊、數據投毒這一部分行為,我們通過對模型的鎖定,對參數進行鎖定,對數據樣本進行鎖定的方式去防御數據投毒。”
但在諸多的大模型發展的隱憂中,不僅僅有私域數據的隱私保護問題,還有樣本分布不均衡導致模型本身的公平性問題,這該如何解決? 微眾銀行人工智能首席科學家范力欣告訴我們:“樣本分布不均衡導致模型不公平性的問題其實早就提出來,在大模型之前或者聯邦學習之前已經提出來。這個問題的基本的解決方案是有整體思路的:在訓練模型時我們不僅僅是提升模型性能,而是對公平性、可解釋性、魯棒性等一系列跟倫理相關的目標都作為優化的約束條件或者優化的多目標一起來參與學習訓練。”
這種思路在理論上提出了“多目標聯邦學習優化”的“可信聯邦學習”技術框架。在實際應用中,需要用相應的算法去一一衡量這些不同目標之間的平衡。
范力欣說:“我們模型性能要好,這是一個基本要求,但同時我們要保證它的公平性、可解釋性要做到可度量的,并且跟模型性能一起來進行優化。比如我們聯合多家機構承擔的國家科技部科技創新2030-‘新一代人工智能’重大項目里面就應用了這樣的解決方案,效果顯著。再比如在與北航童永昕教授團隊合作的聯邦網約車調度中,通過設計合理的激勵機制,使得司機完成任務的積極性大為提高,同時司機間的收入分布也更加均衡。”
聯邦大模型從誕生開始就備受矚目,其未來的應用也被業界普遍看好,聯邦大模型未來將有機會重塑金融、零售、工業等多行業的數字化形態。相關應用場景包括在金融領域的智能客服、內容風控、金融資訊情感分析、文本意圖識別、營銷場景智能創意生成和優化等。盡管機構自身擁有的數據量和算力可能不足,卻仍然能夠通過發揮大模型的優勢,安全合規地提升客服、營銷、風控的效果。
人工智能正在經歷從計算、感知到認知的發展階段。聯邦學習、可信聯邦學習以及聯邦學習 大模型,在保證安全、高效的要求下,進一步滿足了可解釋性和普惠性等人工智能倫理的核心命題,將看似為難的“既要,又要”,變成了可以將之平衡的解決方案,這也將為人工智能生態的良性、可持續發展提供助力。