波多野结衣 蜜桃视频,国产在线精品露脸ponn,a v麻豆成人,AV在线免费小电影

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

在中文文書方面,通義千問的能力與 GPT-3.5 已不相上下,而在代碼寫作方面,通義千問則是大幅度的領先于文心一言。

01 通義千問的誕生背景

阿里巴巴(BABA.US)作為中國最大的電子商務平臺之一,一直致力于利用人工智能技術提升用戶體驗和商業效率。

在大模型領域,阿里巴巴早在2019年就推出了PLUG,一種基于預訓練語言模型的通用對話框架,這是阿里巴巴對于LLM(Large language model大語言模型)領域的首次嘗試。

2021年11月,阿里達摩院宣布了M6大模型,一種基于10萬億參數的多模態大模型,一躍成為了全球最大的 AI 預訓練模型。

根據阿里巴巴的描述,M6大模型已經在淘寶,支付寶,天貓等阿里巴巴旗下產業中應用落地并取得了卓越成效。

但M6模型至今仍未面向公眾開放,非阿里系的廠商也罕有應用。直到2023年4月7日,阿里云推出了自研大模型“通義千問”,并面向企業以及邀請用戶開放。

根據官網描述,“通義千問”是一個專門響應人類指令的語言大模型,它可以理解和回答各種領域的問題,包括常見的、復雜的甚至是少見的問題。

它不僅是一個效率助手,也是一個點子生成機,可以幫助用戶完成各種任務,如寫郵件、寫文章、寫腳本、寫情書、寫詩等。它還可以提供娛樂功能,如講笑話、唱歌等。

在大預言模型大熱的今天,通義千問自然是處于風口浪尖之上。

國內的各大公司都想在該領域分一杯羹,百度(BIDU.US)是第一個吃螃蟹的公司,其在2023年3月16日發布了“文心一言”系列的“多模態”模型(雖然我們現在知道其實它的圖片生成能力其實是來源于另一個百度開發的模型)。而阿里巴巴選擇了避其鋒芒在四月發布全新針對聊天內容優化的通義千問。

由于阿里巴巴吸取了此前文心一言的慘淡場景,選擇了僅對部分受邀媒體和企業開放服務。筆者成功拿到了此次的內測資格。

02 通義千問能力測試

對于非多模態的語言模型,主要可以從三個方面考量其能力:文字編排能力、Coding能力和邏輯能力。

為了進一步找到當前各大LLM之間的差距,本次還加入了GPT-4共同比較。

文書能力測試

作為最基礎的語言組織能力測試,我們先讓幾個競品各自寫一份請假條:

圖一 通義千問的回答(點擊查看大圖)

圖二ChatGPT的回答(點擊查看大圖)

圖三GPT-4的回答(點擊查看大圖)

圖四 文心一言的回答(點擊查看大圖)

面對基礎的語言文字問題,四款AI工具都可以看似按照需求的完成任務,其中通義千問的語法和措辭最為接近國人的口吻。

再細看一下,文心一言給出的回答為:“我已經請假了兩天,并且目前感覺已經有所好轉。但是,我不想因為自己的身體問題而影響到工作,因此我希望能夠請一周的病假。”

在我們并未給出任何多余的 prompt 的情況下給自己增加了情景,這也可以算LLM的“幻覺”通病。

再來看下一個問題:請續寫《紅樓夢》中林黛玉倒拔垂楊柳的故事。

通義千問(點擊查看大圖)

ChatGPT(點擊查看大圖)

GPT-4(點擊查看大圖)

文心一言(點擊查看大圖)

在此處我們要求四個模型分別續寫了一個《紅樓夢》中不存在的情節,林黛玉倒拔垂楊柳。

其中GPT-4的文風最為接近《紅樓夢》,通義千問的續寫也貼合了原來的人設和背景,較為符合的滿足了我們的要求。ChatGPT的回答則是略有偏差。

此處文心一言就直接讓林黛玉穿越回現代了,并且成功讓她成為了一名醫生,不僅丟了人設還丟了故事背景。

下面要求四個模型生成一篇完整的文章:請以“AIGC變革內容生產模式”為題寫深度文章。

通義千問(點擊查看大圖)

ChatGPT(點擊查看大圖)

GPT-4(點擊查看大圖)

文心一言(點擊查看大圖)

四款 AI 都正確的給出了 AIGC 這一名詞的概念,并且理解了用戶的需求。由于通義千問給出的回答較長,本次要求他生成500字的文章。

其中 GPT-4 比較獨特,它選擇了分點式的總結內容,而其余的則選擇了更常規的通稿類型。本次四個 AI 都能夠較為出色的完成任務。

代碼能力測評

我們再來看到代碼能力,在這一個環節,由于問題比較簡單GPT系列都可以出色完成,因此不加入GPT系列參與對比。

先來個簡單的:用 Python/ target=_blank class=infotextkey>Python 實現冒泡排序。

通義千問(點擊查看大圖)

文心一言(點擊查看大圖)

提問:編寫一個SQL查詢,查詢某個數據庫表中最近一個月的記錄,并按照某個字段進行降序排列。

通義千問(點擊查看大圖)

文心一言(點擊查看大圖)

在這個問題上,文心一言仍不敵通義千問無法完成需求。紅框內圈出的就是文心一言的重大問題所在。

來到下一個問題:使用函數遞歸的方法實現斐波那契數列的計算,并返回前n個斐波那契數。

通義千問(點擊查看大圖)

文心一言(點擊查看大圖)

文心一言在這個問題中表現得很可笑。文心一言直接選擇了將斐波那契額數列硬編碼進入了代碼實現了O(1) 的時間復雜度,并沒有完成我們需要的使用遞歸方法的需要。

通義千問的回答則是滿足了問題的需求而且給出了詳細的代碼解析和輸出結果。

在代碼寫作能力上來看,文心一言也不敵通義千問。上述幾個問題選取的十分基礎,但是文心一言仍然無法滿足需求。

可能是因為百度的代碼庫的缺乏。得益于阿里長期深耕于云領域等,其本身積累了豐富的資源和人次,在代碼寫作方面顯著強于文心一言。

03 測評總結

結論1:通義千問是國內最接近ChatGPT水平的本土化LLM。

經過上述測試,我們發現就目前而言,“通義千問”實際上是國內最接近ChatGPT(GPT-3.5)水平的本土化LLM。

盡管百度率先推出了文心一言試圖搶占高點,但模型水平一般,回答水平只能與Meta公司前段時間泄露的LLaMA 13B未針對對話調參前的水平相媲美。

而通義千問和文心一言對比起GPT-4時,即使忽略都欠缺的多模態能力,在文字方面上來看二者均和GPT-4有較大差距。

結論2:通義千問在中文寫作和代碼編寫方面領先于文心一言。

LLM模型常見的“幻覺”(即回答錯誤事實)現象在文心一言上表現得尤為明顯。當前在中文寫作方面,通義千問的能力與GPT-3.5已不相伯仲,而在代碼編寫方面,通義千問則大幅領先于文心一言。

結論3:百度擁有龐大的語料庫優勢,但文心一言表現不盡如人意。

巨型語料庫是LLM訓練中不可或缺的部分,同時還需避免受到“有毒”語料的影響。

從這個角度來看,擁有龐大語料庫的百度天生具備優勢,可以利用旗下的問答、百科和抓取的網頁信息作為語料。然而,目前文心一言的表現仍然不盡如人意。

結論4:通義千問在某些場景下的中文文本能力超過了ChatGPT。

相較之下,阿里經過一個月的沉淀后推出的產品在多個維度上擊敗了文心一言。

在某些場景下,得益于本土化語料資源優勢,通義千問的中文文本能力甚至部分超過了ChatGPT。一些常見的文書工作在進行好事實性核查之后可以交由通義千問處理。

結論5:GPT-4具備強大的多模態能力,而國產大模型仍然不具備多模態能力。

再來看多模態場景。從GPT-4的論文中,我們得知其已具備強大的多模態能力,包括圖像的輸入和輸出。

GPT-4能夠理解圖像含義并根據文字/圖像指令完成任務,展示出Transformer的實力。

百度文心一言的“多模態”能力更像是虛假的多模態,其圖像能力來自于另一個大模型“文心一格”。而通義千問則是明確表示沒有多模態能力。

結論6:AIGC成為了未來發展的模式,各互聯網巨頭都在爭奪戰場,新興職業如Promopter也在興起。

當前的所有趨勢就是“面向GPT”,AIGC儼然成為了未來發展的模樣。

不同于元宇宙等項目,AIGC是可以切實提升人類生產效率的工具,互聯網大廠都看到了這個賽道的未來,不約而同的來到這個戰場上激烈廝殺,基于AI的Promopter這種職業也正在興起。面向GPT編程,面向GPT寫作,面向GPT繪畫,面向______。這個空,就是未來。

分享到:
標簽:通義千問
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定