日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

10月30日消息,百川智能發布Baichuan2-192K大模型。其上下文窗口長度高達192K,能夠處理約35萬個漢字,是目前支持長上下文窗口最優秀大模型Claude2(支持100K上下文窗口,實測約8萬字)的4.4倍,更是GPT-4(支持32K上下文窗口,實測約2.5萬字)的14倍。

據悉,今年9月25日,百川智能已開放了Baichuan2的API接口,正式進軍企業級市場,開啟商業化進程。此次Baichuan2-192K將以API調用和私有化部署的方式提供給企業用戶,目前百川智能已經啟動Baichuan2-192K的API內測,開放給法律、媒體、金融等行業的核心合作伙伴。

上下文窗口長度是大模型的核心技術之一,通過更大的上下文窗口,模型能夠結合更多上下文內容獲得更豐富的語義信息,更好的捕捉上下文的相關性、消除歧義,進而更加準確、流暢的生成內容,提升模型能力。

百川智能稱,Baichuan2-192K在Dureader、NarrativeQA、LSHT、TriviaQA等10項中英文長文本問答、摘要的評測集上表現優異,有7項取得SOTA,顯著超過其他長窗口模型。

此外,LongEval的評測結果顯示,在窗口長度超過100K后Baichuan2-192K依然能夠保持非常強勁的性能,而其他開源或者商用模型在窗口增長后效果都出現了近乎直線下降的情況。

本次百川發布的Baichuan2-192K通過算法和工程的極致優化,實現了窗口長度和模型性能之間的平衡,做到了窗口長度和模型性能的同步提升。

算法方面,百川智能提出了一種針對RoPE和ALiBi動態位置編碼的外推方案,該方案能夠對不同長度的ALiBi位置編碼進行不同程度的Attention-mask動態內插,在保證分辨率的同時增強了模型對長序列依賴的建模能力。在長文本困惑度標準評測數據PG-19上,當窗口長度擴大,Baichuan2-192K的序列建模能力持續增強。

工程方面,在自主開發的分布式訓練框架基礎上,百川智能整合目前市場上所有先進的優化技術,包括張量并行、流水并行、序列并行、重計算以及Offload功能等,獨創了一套全面的4D并行分布式方案。該方案能夠根據模型具體的負載情況,自動尋找最適合的分布式策略,極大降低了長窗口訓練和推理過程中的顯存占用。

百川智能在算法和工程上針對長上下文窗口的創新,不僅是大模型技術層面的突破,對于學術領域同樣有著重要意義。Baichuan2-192K驗證了長上下文窗口的可行性,為大模型性能提升開拓出了新的科研路徑。

Baichuan2-192K現已正式開啟內測,以API調用的方式開放給百川智能的核心合作伙伴,已經與財經類媒體及律師事務所等機構達成了合作,將Baichuan2-192K全球領先的長上下文能力應用到了傳媒、金融、法律等具體場景當中,不久后將全面開放。

值得注意的是,Baichuan2-192K能夠一次性處理和分析數百頁的材料,對于長篇文檔關鍵信息提取與分析,長文檔摘要、長文檔審核、長篇文章或報告編寫、復雜編程輔助等真實場景都有助力作用。

據介紹,它可以幫助基金經理總結和解釋財務報表,分析公司的風險和機遇;幫助律師識別多個法律文件中的風險,審核合同和法律文件;幫助技術人員閱讀數百頁的開發文檔,并回答技術問題;還能幫助科員人員快速瀏覽大量論文,總結最新的前沿進展。

【來源:網易科技】

分享到:
標簽:窗口 模型 上下文 百川 智能 長度 長上 下文
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定