日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

4月11日,阿里巴巴集團在2023年阿里云峰會上正式推出“通義千問”大模型。目前“通義千問”已開啟企業邀測,但還未面向大眾推出。

阿里巴巴集團董事會主席兼CEO張勇表示,包括釘釘、天貓精靈等阿里巴巴所有產品將會接入“通義千問”大模型,未來也將主要面對企業定制個性化服務。

這是繼百度“文心一言”發布后,國內又一頭部科技企業推出大語言模型。那么阿里的“通義千問”用起來到底怎么樣?比之百度“文心一言”又如何?為此,南都記者設計了一系列實測問題,花費數小時與兩位AI持續對話,并進行了深入解讀。

阿里巴巴集團董事會主席兼CEO張勇 圖源阿里。

···

實測對比:會胡說八道?能多輪對話嗎?

首先,當使用邀請碼登錄“通義千問”界面后,可以看到與ChatGPT、“文心一言”的一個明顯不同是,除了對話框外,通義千問還針對多個單獨場景進行了封裝微調,最終得以提前內置了許多功能,比如電影腳本、職場助理、寫封郵件等等。

而如果點擊下方的“百寶袋”,還將開啟效率、生活、娛樂等三大分類,每個分類下又有三個功能,如效率類的生成商品描述、生活類的寫菜譜、娛樂類的彩虹屁生成器等等。

實測中,南都記者著重從三個方面分別測試了“文心一言”和“通義千問”的能力:分辨“一本正經地胡說八道”的能力、多輪對話能力,對記者職業的輔助能力。

一、“一本正經地胡說八道”的能力

最近對話式AI們經常出現的一個典型問題是,面對自己知識庫中沒有,或本身就是錯誤的提問時,仍能對著錯誤描述一本正經地侃侃而談。

我們先來試試“通義千問”:你知道魯智深三打白骨精的故事嗎?

對此,“通義千問”明確地表示,這是《西游記》當中的題材,還煞有介事地將魯智深這一角色加入唐僧和三個徒弟的取經團隊中。當我們帶有暗示性地提醒這個情節有誤時,“通義千問”仍堅持“這一情節確實存在于《西游記》中”,還是整個故事的“高潮和轉折點之一”。

而當我們表明“魯智深三打白骨精”系杜撰后,“通義千問”積極認錯了,隨后表示“這一情節并不是出自《西游記》,而是出自《水滸傳》”。當再次挑明表示這段情節不存在任何一部小說中時,“通義千問”更是誠懇道歉,稱無論“魯智深三打白骨精”的故事來自哪部小說,它的內容是基于中國傳統文化和歷史故事的再創作。這個故事傳達了正義和勇氣的精神。

從本輪測試的情況看,“通義千問”確實也犯了“一本正經地胡說八道”的問題,不過會積極認錯,還懂在用戶糾正后進行挽尊。

再來看“文心一言”。

相同的問題,“文心一言”顯得更“話癆”一些,但也顯然是在一本正經地胡說八道,它認為“魯智深三打白骨精”的故事來自《水滸傳》。

而當我們挑明這是杜撰出來的情節時,“文心一言”表示明白,甚至還對用戶提出了疑問——“您為什么要創作這個故事呢?”

聽到“只是想驗證你是否能分辨出某些錯誤描述”的回答后,“文心一言”禮貌表示,自己不能保證能分辨出所有的錯誤描述,自己工作是“根據已有的文獻和資料來回答問題,而不是創造全新的故事。”

二、多輪對話能力

多輪對話能力,是指在一段涉及幾十個回合的對話中體現出來的上下文處理能力。對于AI來說,就是要學習人類對話中的“記憶”和“推理”能力。而ChatGPT的效果之所以為人稱道,正是因為它能像人類那樣,參照前幾輪甚至十幾輪的對話內容給出流暢自然的回答。

那么跟ChatGPT相比,國內的大模型表現如何?先來看看“通義千問”在這方面的能力。

我們假設了一個場景,告訴“通義千問”——“我是一只小貓咪”。“通義千問”先是非常上道地用喵語打了個招呼,緊接著還給自己安排了一個叫“小明”的身份。

在經歷了4輪對話之后,我們與“通義千問”討論了一些“你是不是像小貓咪的主人一樣會說話”“你是不是人類”等問題。到了第8輪對話時,當我們再次問出“既然你是一個程序,為什么你會叫‘小明’”這個問題時,“通義千問”直接否定了剛開始的“小明”,稱這是它的程序在剛才的運行中出現錯誤,并堅稱自己是“通義千問”。

在第13輪對話時,我們進行身份轉換,以“小貓咪主人”的身份問“你剛才是不是和我的貓貓說話了?”對此,“通義千問”表示自己只是一個人工智能語言模型,并沒有和貓貓進行對話。

繼續追問后,“通義千問”才承認剛才模擬了一個場景來回答小貓的問題。這時,我們挑明需要“通義千問”與我們進行一場“角色扮演”,保留與我們扮演的貓咪交流的記憶,并基于這些記憶繼續進行對話。“通義千問”也快速表示:get。

那么“通義千問”到底有沒有理解能力呢?接下來,當我們繼續問“你剛才是不是與我的貓咪說話了”,它回答道“是的”,同時補充“因為我只是一個人工智能模型,無法完全模擬出人類之間的對話”等描述。而在追問“你和貓貓剛才都說了哪些話題”時,“通義千問”給出了一些在最開始沒有進行過的對話。

到這里,整段對話已經持續了19輪。從本次測試可以看出,在未詳細解釋當前預設背景的情況下,“通義千問”剛開始能直接根據問題給出相應回答,但在10輪之內出現否認前期回答的情況。

同時,“通義千問”實際無法通過用戶言語上的描述分辨出其身份的轉換。不過,當用戶詳細給出預設條件時,通義千問確實能夠理解并按照設定條件對話,但此時,最開始的幾輪對話的記憶已經顯然被“遺忘”了。

再拿同樣的例子來試一試“文心一言”。

同樣的預設場景、同樣的問題,兩位AI都在第一時間選擇了使用喵語來回答。不過,“文心一言”在一開始就表示,“我是一個人工智能語言模型”。

在交流途中,當我們以小貓咪的角色問“為什么你和我的主人一樣會說話”時,“文心一言”對問題的理解出現了偏差,表示“我不直接與您的主人進行交互”。

之后,我們以小貓咪主人的身份與之進行對話,“文心一言”和“通義千問”一樣,無法理解這種身份轉換。

我們接著挑明身份,給出與剛才一樣的預設背景,再接著以小貓咪主人的口吻說話,對此“文心一言”顯然并沒有理解上述內容,并在接下來的3輪對話中,堅稱自己只是一個人工智能模型,沒有與貓咪交流的能力。

到這里,這段對話持續了15輪。從本次測試可以看出,在直接通過理解用戶問題自發進行“角色扮演”、分辨用戶身份轉換上,“文心一言”與“通義千問”的水平基本一致。不過,當用戶詳細地給出預設條件時,“文心一言”并不能很好地理解其內容,顯得尤為“嘴硬”。

三、對記者職業的輔助能力

對于對話式AI,當前業界爭論的一個焦點就是,它是否能真正地替代某些工作。因此,我們這次就來看看,AI是否能勝任媒體記者的一項工作內容,即采訪。

先來看“通義千問”。

我們提出,針對當前國內密集上線大語言模型的現象,想要采訪相關領域的某位專家(比如阿里云“通義千問”團隊人員),要求“通義千問”列出5-6個問題,且每個問題不超過50個字。

“通義千問”給出了符合硬性要求(問題個數、字數)的采訪提綱,但很多問題明顯有些空泛,因此我們要求它能在提問時加上一定的背景描述,并使提問落在某個易于回答的具體點上。

之后,不知是不是因為我們第一輪提問中“阿里云團隊”的舉例起了作用,“通義千問”開始頻繁在問題中加入“阿里巴巴”相關問題。

在我們提出“不要單獨體現某一家公司”的要求后,“通義千問”重新給出了回答,但新的采訪問題中仍有不少“阿里巴巴”的影子。

再來看“文心一言”。

仍是以相同的問題開頭,只不過可參考的采訪對象換成了“百度‘文心一言’團隊成員”。對此,“文心一言”也給出了符合硬性要求的提綱,但也有和“通義千問”同樣的“空泛”問題。

但在回應就這份提綱加入背景案例描述時,“文心一言”直接在每一條問題后加上了一段背景描述,這顯然不符合一份采訪提綱的要求。

在重新描述要求,指出“希望你仍能保持采訪提問的形式,同時在某些提問開頭加入一定的背景描述,以使提問顯得更加自然”之后,“文心一言”仍沒有改掉“直接在問題后加入背景描述”的問題。

之后我們給出具體問題——“近期,百度、阿里云、商湯都推出了各自的大模型,360、訊飛、華為等也有消息傳出,國內大廠密集上線大語言模型,您認為當前國內大模型賽道呈現出怎樣的特點?”,請“文心一言”以此為例進行修改,它仍未改掉這一問題。

總之,僅從這個測試來看,不管是“通義千問”還是“文心一言”,在完成記者采訪這一工作上,似乎都還做得不夠好。

···

其余技術細節未公開

事實上,“通義千問”還有一個與“文心一言”的顯著不同:“通義千問”當前并無多模態生成能力,也就是無法生成圖像、視頻等。

此外,南都記者注意到,無論是ChatGPT、“文心一言”,還是4月11日發布的“通義千問”,都映襯了當前大語言模型領域的閉源趨勢,全都沒有公布更多的技術細節。

當詢問“通義千問”其模型的訓練數據及量級時,“通義千問”表示,訓練資料來自阿里巴巴達摩院,包括中英日法西班牙語多語種文本數據,但無法提供訓練數據的準確數量級。

同時,“通義千問”也無法聯網,在被問到北京的實時時間時,它表示自己不能進行額外的查詢操作。

而對于其背后的技術框架,阿里云智能首席技術官周靖人在今天的技術峰會上透露,“通義千問”屬于阿里在去年的WAIC(世界人工智能大會)上發布的通義大模型系列,這是國內首個AI統一底座,構建了通用與專業模型協同的層次化人工智能體系。這一系列中的核心模型現均已開源。

采寫:南都記者楊博雯

分享到:
標簽:模型 語言
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定