豐色 發自 凹非寺
量子位 | 公眾號 QbitAI
號稱“史上最強的開源大語言模型”出現了。
它叫Falcon(獵鷹),參數400億,在1萬億高質量token上進行了訓練。
最終性能超越650億的LLaMA,以及MPT、Redpajama等現有所有開源模型。
一舉登頂HuggingFace OpenLLM全球榜單:
除了以上成績,Falcon還可以只用到GPT-3 75%的訓練預算,性能就顯著超越GPT-3,且推理階段的計算也只需GPT-3的1/5。
據悉,這只半路殺出來的“獵鷹”來自阿聯酋阿布扎比技術創新研究所(TII)。
有意思的是,作為一個開源模型,TII在Falcon上推出了一個相當特別的授權許可證要求:
可以商業使用,但如果用它產生的收益超過了100萬美元,就要被收取10%的授權費。
一時之間,爭議滿滿。
史上最強開源LLM
據介紹,Falcon屬于自回歸解碼器模型。
它使用自定義工具構建,包含一個獨特的數據管道,該管道從公開網絡中提取訓練數據。
——Falcon宣稱它“特別注重數據質量”,從公網上抓取內容構建好Falcon的初始預訓練數據集后,再使用CommonCrawl轉儲,進行大量過濾(包括刪除機器生成的文本和成人內容)并消除重復數據,最終得到一個由近5萬億個token組成的龐大預訓練數據集。
為了擴大Falcon的能力,該數據集隨后又加進了很多精選語料,包括研究論文和社交媒體對話等內容。
除了數據把關,作者還對Falcon的架構進行了優化以提升性能,但細節沒有透露,相關論文將很快發布。
據悉,Falcon一共耗費兩個月,在AWS的384個GPU上訓練而成。
最終,Falcon一共包含4個版本:
- Falcon-40B:在1萬億token上進行訓練,并使用精選語料庫進行了增強;主要接受英語、德語、西班牙語、法語的訓練,不會中文。
- Falcon-40B-Instruct:在Baize上進行了微調,使用FlashAttention和多查詢對推理架構進行了優化,是一個即用型聊天模型。
- Falcon-7B:參數70億,在1.5萬億token上進行了訓練,作為一個原始的預訓練模型,還需要用戶針對大多數用例進一步微調。
- Falcon-RW-7B:參數70億,在3500億token上進行訓練,該模型旨在用作“研究神器”,單獨研究各種在網絡數據進行訓練的影響。
開源許可證引爭議
Falcon作為開源模型,已公開源代碼和模型權重,可供研究和商業使用。
這對業界來說是一個好消息,畢竟像Meta的羊駝家族都只能用于研究目的,且還得填表格申請才行,很是麻煩。
但Falcon還是引起了爭議。
這主要是因為它那“超過100萬美元的任何商業應用都要收10%的授權費”的許可證要求。
據悉,該許可證部分基于Apache License 2.0協議,該協議對商業應用友好,使用者修改代碼只需滿足相關需求即可將新作品作為開源或商業產品發布或銷售。
有不少網友認為,既然Falcon宣稱開源,還要收費,就違背了Apache License Version 2.0的宗旨,不屬于真正的開源。
并有人稱這是一種“有損Apache軟件基金會來之不易的名譽”的做法。
有網友已經跑到TII的官方賬號下“討要說法”:
你自己能解釋一下這是如何符合“開源”的定義嗎?
目前,官方并沒有回復。
你認為這種做法究竟算不算開源呢?
參考鏈接:
[1]https://falconllm.tii.ae/
[2]https://Twitter.com/ItakGol/status/1662149041831002138
[3]https://twitter.com/TIIuae/status/1662159306588815375