日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

豐色 發自 凹非寺
量子位 | 公眾號 QbitAI

 

號稱“史上最強的開源大語言模型”出現了。


 

它叫Falcon(獵鷹),參數400億,在1萬億高質量token上進行了訓練。

最終性能超越650億的LLaMA,以及MPT、Redpajama等現有所有開源模型。


 

一舉登頂HuggingFace OpenLLM全球榜單:


 

除了以上成績,Falcon還可以只用到GPT-3 75%的訓練預算,性能就顯著超越GPT-3,且推理階段的計算也只需GPT-3的1/5。


 


 

據悉,這只半路殺出來的“獵鷹”來自阿聯酋阿布扎比技術創新研究所(TII)。

有意思的是,作為一個開源模型,TII在Falcon上推出了一個相當特別的授權許可證要求:

 

可以商業使用,但如果用它產生的收益超過了100萬美元,就要被收取10%的授權費。

 

一時之間,爭議滿滿。

史上最強開源LLM

據介紹,Falcon屬于自回歸解碼器模型。

它使用自定義工具構建,包含一個獨特的數據管道,該管道從公開網絡中提取訓練數據。

——Falcon宣稱它“特別注重數據質量”,從公網上抓取內容構建好Falcon的初始預訓練數據集后,再使用CommonCrawl轉儲,進行大量過濾(包括刪除機器生成的文本和成人內容)并消除重復數據,最終得到一個由近5萬億個token組成的龐大預訓練數據集。

為了擴大Falcon的能力,該數據集隨后又加進了很多精選語料,包括研究論文和社交媒體對話等內容。

除了數據把關,作者還對Falcon的架構進行了優化以提升性能,但細節沒有透露,相關論文將很快發布。

據悉,Falcon一共耗費兩個月,在AWS的384個GPU上訓練而成。


 

最終,Falcon一共包含4個版本:

 

  • Falcon-40B:在1萬億token上進行訓練,并使用精選語料庫進行了增強;主要接受英語、德語、西班牙語、法語的訓練,不會中文。
  • Falcon-40B-Instruct:在Baize上進行了微調,使用FlashAttention和多查詢對推理架構進行了優化,是一個即用型聊天模型。
  • Falcon-7B:參數70億,在1.5萬億token上進行了訓練,作為一個原始的預訓練模型,還需要用戶針對大多數用例進一步微調。
  • Falcon-RW-7B:參數70億,在3500億token上進行訓練,該模型旨在用作“研究神器”,單獨研究各種在網絡數據進行訓練的影響。

 

開源許可證引爭議

Falcon作為開源模型,已公開源代碼和模型權重,可供研究和商業使用

這對業界來說是一個好消息,畢竟像Meta的羊駝家族都只能用于研究目的,且還得填表格申請才行,很是麻煩。

但Falcon還是引起了爭議。

這主要是因為它那“超過100萬美元的任何商業應用都要收10%的授權費”的許可證要求。

據悉,該許可證部分基于Apache License 2.0協議,該協議對商業應用友好,使用者修改代碼只需滿足相關需求即可將新作品作為開源或商業產品發布或銷售。


 

有不少網友認為,既然Falcon宣稱開源,還要收費,就違背了Apache License Version 2.0的宗旨,不屬于真正的開源。


 


 

并有人稱這是一種“有損Apache軟件基金會來之不易的名譽”的做法。


 

有網友已經跑到TII的官方賬號下“討要說法”:

 

你自己能解釋一下這是如何符合“開源”的定義嗎?

 


 

目前,官方并沒有回復。

你認為這種做法究竟算不算開源呢?

參考鏈接:
[1]https://falconllm.tii.ae/
[2]https://Twitter.com/ItakGol/status/1662149041831002138
[3]https://twitter.com/TIIuae/status/1662159306588815375

分享到:
標簽:開源 模型
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定