阿里巴巴開(kāi)源Qwen1.5-110B：1100億參數(shù)挑戰(zhàn)Meta Llama3-70B性能-魔扣目錄

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請(qǐng)做好本站友鏈：【網(wǎng)站目錄：http://www.ylptlb.cn 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：52003
待審：43
小程序：12
文章：1047590
會(huì)員：762

首頁(yè) > 新聞資訊 > 手機(jī)數(shù)碼 >正文

阿里巴巴開(kāi)源Qwen1.5-110B：1100億參數(shù)挑戰(zhàn)Meta Llama3-70B性能

發(fā)布時(shí)間：2024-04-28 08:38:14 作者：網(wǎng)友整理

【ITBEAR科技資訊】4月28日消息，阿里巴巴最近公開(kāi)宣布，他們已成功開(kāi)源了Qwen1.5系列中的首個(gè)千億參數(shù)模型——Qwen1.5-110B。據(jù)稱(chēng)，在基礎(chǔ)能力的評(píng)估測(cè)試中，該模型的表現(xiàn)足以媲美m(xù)eta旗下的Llama3-70B模型，并且在Chat評(píng)估中也大放異彩，這包括了MT-Bench和Alpacaeval 2.0兩項(xiàng)基準(zhǔn)測(cè)試。

這款Qwen1.5-110B模型沿用了Qwen1.5系列一貫的Transformer解碼器架構(gòu)，并引入了分組查詢(xún)注意力(GQA)機(jī)制，使得模型在推理時(shí)更為高效。這款模型支持長(zhǎng)達(dá)32K tokens的上下文長(zhǎng)度，同時(shí)兼容多種語(yǔ)言，包括但不限于英語(yǔ)、中文、法語(yǔ)、西班牙語(yǔ)、德語(yǔ)、俄語(yǔ)、日語(yǔ)、韓語(yǔ)、越南語(yǔ)以及阿拉伯語(yǔ)。

阿里巴巴將Qwen1.5-110B與當(dāng)前頂尖的語(yǔ)言模型meta-Llama3-70B和Mixtral-8x22B進(jìn)行了詳盡的對(duì)比測(cè)試。測(cè)試結(jié)果顯示，新的110B模型在基礎(chǔ)能力上至少達(dá)到了Llama-3-70B模型的水平。阿里巴巴團(tuán)隊(duì)指出，他們?cè)谶@一模型中并未對(duì)預(yù)訓(xùn)練方法進(jìn)行大幅調(diào)整，因此性能的提升主要?dú)w功于模型規(guī)模的擴(kuò)大。

此外，阿里巴巴還在MT-Bench和Alpacaeval 2.0上對(duì)其進(jìn)行了Chat評(píng)估。結(jié)果顯示，與之前發(fā)布的72B模型相比，110B模型在這兩個(gè)Chat模型基準(zhǔn)評(píng)估中的表現(xiàn)顯著更佳。這一持續(xù)改善的評(píng)估結(jié)果表明，即便沒(méi)有大幅改變訓(xùn)練方法，更強(qiáng)大、規(guī)模更大的基礎(chǔ)語(yǔ)言模型也能催生出更優(yōu)秀的Chat模型。

據(jù)ITBEAR科技資訊了解，Qwen1.5-110B不僅是Qwen1.5系列中規(guī)模最大的模型，更是該系列首個(gè)參數(shù)超過(guò)1000億的模型。與最近發(fā)布的頂尖模型Llama-3-70B相比，其性能表現(xiàn)同樣出色，并且明顯優(yōu)于先前的72B模型。這一突破性的進(jìn)展無(wú)疑將為自然語(yǔ)言處理領(lǐng)域帶來(lái)新的可能性。

分享到：

標(biāo)簽：阿里巴巴開(kāi)源 Qwen1