日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

<abbr id="iesws"></abbr><rt id="iesws"><delect id="iesws"></delect></rt>

<center id="iesws"><acronym id="iesws"></acronym></center>

<li id="iesws"><dl id="iesws"></dl></li>

<center id="iesws"><acronym id="iesws"></acronym></center>

<rt id="iesws"><tr id="iesws"></tr></rt><code id="iesws"></code>

公告：魔扣目錄網為廣大站長提供免費收錄網站服務，提交前請做好本站友鏈：【網站目錄：http://www.ylptlb.cn 】，免友鏈快審服務（50元/站），

點擊這里在線咨詢客服

網站：51998
待審：31
小程序：12
文章：1030137
會員：747

首頁 > 新聞資訊 > 今日頭條 >正文

實測阿里、百度語言大模型：誰最會胡說八道？能替代記者嗎？

發布時間：2023-07-02 09:59:04 作者：網友整理

4月11日，阿里巴巴集團在2023年阿里云峰會上正式推出“通義千問”大模型。目前“通義千問”已開啟企業邀測，但還未面向大眾推出。

阿里巴巴集團董事會主席兼CEO張勇表示，包括釘釘、天貓精靈等阿里巴巴所有產品將會接入“通義千問”大模型，未來也將主要面對企業定制個性化服務。

這是繼百度“文心一言”發布后，國內又一頭部科技企業推出大語言模型。那么阿里的“通義千問”用起來到底怎么樣？比之百度“文心一言”又如何？為此，南都記者設計了一系列實測問題，花費數小時與兩位AI持續對話，并進行了深入解讀。

阿里巴巴集團董事會主席兼CEO張勇圖源阿里。

···

實測對比：會胡說八道？能多輪對話嗎？

首先，當使用邀請碼登錄“通義千問”界面后，可以看到與ChatGPT、“文心一言”的一個明顯不同是，除了對話框外，通義千問還針對多個單獨場景進行了封裝微調，最終得以提前內置了許多功能，比如電影腳本、職場助理、寫封郵件等等。

而如果點擊下方的“百寶袋”，還將開啟效率、生活、娛樂等三大分類，每個分類下又有三個功能，如效率類的生成商品描述、生活類的寫菜譜、娛樂類的彩虹屁生成器等等。

實測中，南都記者著重從三個方面分別測試了“文心一言”和“通義千問”的能力：分辨“一本正經地胡說八道”的能力、多輪對話能力，對記者職業的輔助能力。

一、“一本正經地胡說八道”的能力

最近對話式AI們經常出現的一個典型問題是，面對自己知識庫中沒有，或本身就是錯誤的提問時，仍能對著錯誤描述一本正經地侃侃而談。

我們先來試試“通義千問”：你知道魯智深三打白骨精的故事嗎？

對此，“通義千問”明確地表示，這是《西游記》當中的題材，還煞有介事地將魯智深這一角色加入唐僧和三個徒弟的取經團隊中。當我們帶有暗示性地提醒這個情節有誤時，“通義千問”仍堅持“這一情節確實存在于《西游記》中”，還是整個故事的“高潮和轉折點之一”。

而當我們表明“魯智深三打白骨精”系杜撰后，“通義千問”積極認錯了，隨后表示“這一情節并不是出自《西游記》，而是出自《水滸傳》”。當再次挑明表示這段情節不存在任何一部小說中時，“通義千問”更是誠懇道歉，稱無論“魯智深三打白骨精”的故事來自哪部小說，它的內容是基于中國傳統文化和歷史故事的再創作。這個故事傳達了正義和勇氣的精神。

從本輪測試的情況看，“通義千問”確實也犯了“一本正經地胡說八道”的問題，不過會積極認錯，還懂在用戶糾正后進行挽尊。

再來看“文心一言”。

相同的問題，“文心一言”顯得更“話癆”一些，但也顯然是在一本正經地胡說八道，它認為“魯智深三打白骨精”的故事來自《水滸傳》。

而當我們挑明這是杜撰出來的情節時，“文心一言”表示明白，甚至還對用戶提出了疑問——“您為什么要創作這個故事呢？”

聽到“只是想驗證你是否能分辨出某些錯誤描述”的回答后，“文心一言”禮貌表示，自己不能保證能分辨出所有的錯誤描述，自己工作是“根據已有的文獻和資料來回答問題，而不是創造全新的故事。”

二、多輪對話能力

多輪對話能力，是指在一段涉及幾十個回合的對話中體現出來的上下文處理能力。對于AI來說，就是要學習人類對話中的“記憶”和“推理”能力。而ChatGPT的效果之所以為人稱道，正是因為它能像人類那樣，參照前幾輪甚至十幾輪的對話內容給出流暢自然的回答。

那么跟ChatGPT相比，國內的大模型表現如何？先來看看“通義千問”在這方面的能力。

我們假設了一個場景，告訴“通義千問”——“我是一只小貓咪”。“通義千問”先是非常上道地用喵語打了個招呼，緊接著還給自己安排了一個叫“小明”的身份。

在經歷了4輪對話之后，我們與“通義千問”討論了一些“你是不是像小貓咪的主人一樣會說話”“你是不是人類”等問題。到了第8輪對話時，當我們再次問出“既然你是一個程序，為什么你會叫‘小明’”這個問題時，“通義千問”直接否定了剛開始的“小明”，稱這是它的程序在剛才的運行中出現錯誤，并堅稱自己是“通義千問”。

在第13輪對話時，我們進行身份轉換，以“小貓咪主人”的身份問“你剛才是不是和我的貓貓說話了？”對此，“通義千問”表示自己只是一個人工智能語言模型，并沒有和貓貓進行對話。

繼續追問后，“通義千問”才承認剛才模擬了一個場景來回答小貓的問題。這時，我們挑明需要“通義千問”與我們進行一場“角色扮演”，保留與我們扮演的貓咪交流的記憶，并基于這些記憶繼續進行對話。“通義千問”也快速表示：get。

那么“通義千問”到底有沒有理解能力呢？接下來，當我們繼續問“你剛才是不是與我的貓咪說話了”，它回答道“是的”，同時補充“因為我只是一個人工智能模型，無法完全模擬出人類之間的對話”等描述。而在追問“你和貓貓剛才都說了哪些話題”時，“通義千問”給出了一些在最開始沒有進行過的對話。

到這里，整段對話已經持續了19輪。從本次測試可以看出，在未詳細解釋當前預設背景的情況下，“通義千問”剛開始能直接根據問題給出相應回答，但在10輪之內出現否認前期回答的情況。

同時，“通義千問”實際無法通過用戶言語上的描述分辨出其身份的轉換。不過，當用戶詳細給出預設條件時，通義千問確實能夠理解并按照設定條件對話，但此時，最開始的幾輪對話的記憶已經顯然被“遺忘”了。

再拿同樣的例子來試一試“文心一言”。

同樣的預設場景、同樣的問題，兩位AI都在第一時間選擇了使用喵語來回答。不過，“文心一言”在一開始就表示，“我是一個人工智能語言模型”。

在交流途中，當我們以小貓咪的角色問“為什么你和我的主人一樣會說話”時，“文心一言”對問題的理解出現了偏差，表示“我不直接與您的主人進行交互”。

之后，我們以小貓咪主人的身份與之進行對話，“文心一言”和“通義千問”一樣，無法理解這種身份轉換。

我們接著挑明身份，給出與剛才一樣的預設背景，再接著以小貓咪主人的口吻說話，對此“文心一言”顯然并沒有理解上述內容，并在接下來的3輪對話中，堅稱自己只是一個人工智能模型，沒有與貓咪交流的能力。

到這里，這段對話持續了15輪。從本次測試可以看出，在直接通過理解用戶問題自發進行“角色扮演”、分辨用戶身份轉換上，“文心一言”與“通義千問”的水平基本一致。不過，當用戶詳細地給出預設條件時，“文心一言”并不能很好地理解其內容，顯得尤為“嘴硬”。

三、對記者職業的輔助能力

對于對話式AI，當前業界爭論的一個焦點就是，它是否能真正地替代某些工作。因此，我們這次就來看看，AI是否能勝任媒體記者的一項工作內容，即采訪。

先來看“通義千問”。

我們提出，針對當前國內密集上線大語言模型的現象，想要采訪相關領域的某位專家（比如阿里云“通義千問”團隊人員），要求“通義千問”列出5-6個問題，且每個問題不超過50個字。

“通義千問”給出了符合硬性要求（問題個數、字數）的采訪提綱，但很多問題明顯有些空泛，因此我們要求它能在提問時加上一定的背景描述，并使提問落在某個易于回答的具體點上。

之后，不知是不是因為我們第一輪提問中“阿里云團隊”的舉例起了作用，“通義千問”開始頻繁在問題中加入“阿里巴巴”相關問題。

在我們提出“不要單獨體現某一家公司”的要求后，“通義千問”重新給出了回答，但新的采訪問題中仍有不少“阿里巴巴”的影子。

再來看“文心一言”。

仍是以相同的問題開頭，只不過可參考的采訪對象換成了“百度‘文心一言’團隊成員”。對此，“文心一言”也給出了符合硬性要求的提綱，但也有和“通義千問”同樣的“空泛”問題。

但在回應就這份提綱加入背景案例描述時，“文心一言”直接在每一條問題后加上了一段背景描述，這顯然不符合一份采訪提綱的要求。

在重新描述要求，指出“希望你仍能保持采訪提問的形式，同時在某些提問開頭加入一定的背景描述，以使提問顯得更加自然”之后，“文心一言”仍沒有改掉“直接在問題后加入背景描述”的問題。

之后我們給出具體問題——“近期，百度、阿里云、商湯都推出了各自的大模型，360、訊飛、華為等也有消息傳出，國內大廠密集上線大語言模型，您認為當前國內大模型賽道呈現出怎樣的特點？”，請“文心一言”以此為例進行修改，它仍未改掉這一問題。

總之，僅從這個測試來看，不管是“通義千問”還是“文心一言”，在完成記者采訪這一工作上，似乎都還做得不夠好。

···

其余技術細節未公開

事實上，“通義千問”還有一個與“文心一言”的顯著不同：“通義千問”當前并無多模態生成能力，也就是無法生成圖像、視頻等。

此外，南都記者注意到，無論是ChatGPT、“文心一言”，還是4月11日發布的“通義千問”，都映襯了當前大語言模型領域的閉源趨勢，全都沒有公布更多的技術細節。

當詢問“通義千問”其模型的訓練數據及量級時，“通義千問”表示，訓練資料來自阿里巴巴達摩院，包括中英日法西班牙語多語種文本數據，但無法提供訓練數據的準確數量級。

同時，“通義千問”也無法聯網，在被問到北京的實時時間時，它表示自己不能進行額外的查詢操作。

而對于其背后的技術框架，阿里云智能首席技術官周靖人在今天的技術峰會上透露，“通義千問”屬于阿里在去年的WAIC（世界人工智能大會）上發布的通義大模型系列，這是國內首個AI統一底座，構建了通用與專業模型協同的層次化人工智能體系。這一系列中的核心模型現均已開源。

采寫：南都記者楊博雯

分享到：

標簽：模型語言

網友整理

注冊時間：

網站：5 個小程序：0 個文章：12 篇

51998
網站
12
小程序
1030137
文章
747
會員

趕快注冊賬號，推廣您的網站吧！

文章分類

熱門網站

各百科-專業百科問答知識名網站 m.geelcn.com
免費軟件,綠色軟件園,手機軟件下載,熱門游戲下載中心-中當網 m.deelcn.com
魔扣科技 www.ylptlb.cn
體育新聞_國際體育資訊_全球體育賽事-中名網 www.feelcn.com/tiyu/tiyuxinwen/
食品安全_健康飲食_舌尖上的安全-中名網 www.feelcn.com/shenghuo/shipinanquan/
中合網 www.heelcn.com
中當網 www.deelcn.com
魔扣網站維護代運營 www.ylptlb.cn/tg
中合網-健康養生知識科普名站 m.heelcn.com
各百科 www.geelcn.com

最新入駐小程序

數獨大挑戰

數獨大挑戰2018-06-03

數獨一種數學游戲，玩家需要根據9

答題星

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試

全階人生考試2018-06-03

各種考試題，題庫，初中，高中，大學四六

運動步數有氧達人

運動步數有氧達人2018-06-03

記錄運動步數，積累氧氣值。還可偷

每日養生app

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定

熱門文章