【ITBEAR科技資訊】4月13日消息,360公司近日在GitHub上公開了其360智腦7B(70億參數模型),這一大模型是基于3.4萬億Tokens的語料庫進行訓練的,主要涵蓋了中文、英文和代碼。該模型提供了4K、32K、360K三種不同的文本長度選項,其中360K(大約50萬字)被360自稱為當前國內開源模型中最長的文本長度。
360在多個主流評測數據集上,包括C-eval、AGIeval、MMLU、CMMLU、HellaSwag、MATH、GSM8K、Humaneval、MBPP、BBH以及LAMBADA,對其模型性能進行了全面驗證。這些評測主要考察了模型的自然語言理解、知識儲備、數學計算和推理、代碼生成以及邏輯推理等能力。結果顯示,360模型在四個評測數據集上取得了領先的排名,整體平均成績位列第三。
在專門為大語言模型設計的長文本理解能力評測基準LongBench中,360選擇了與中文長文本應用最為相關的任務進行測試。結果顯示,360Zhinao-7B-Chat-32K模型在中文單文檔問答、多文檔問答、摘要以及Few-shot等任務中取得了平均第一的好成績。
同時,在英文大海撈針測試以及360自行構造的中文大海撈針測試中,360Zhinao-7B-Chat-360K模型均達到了98%以上的準確率,顯示出優異的長文本處理能力。
除了模型權重之外,360還開源了該模型的微調訓練代碼和推理代碼等全套工具集,使得大模型相關開發者能夠非常方便地使用這些資源,實現“開箱即用”。
據ITBEAR科技資訊了解,360公司董事長周鴻祎曾表示,大模型行業在文本長度上有所追求,100萬字將很快成為行業的標配。他透露,360之所以將模型文本長度定為360K,并選擇開源這一能力,是為了讓整個行業能夠共享這一成果,避免重復勞動。周鴻祎自稱是“開源的信徒”,堅信開源能夠推動行業的進步。