明敏 蕭簫 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
科大訊飛版ChatGPT產(chǎn)品,提前交卷了!
就在昨夜,訊飛驟然向開(kāi)發(fā)者提供了內(nèi)測(cè)通道,取名為 訊飛星火認(rèn)知大模型對(duì)外開(kāi)啟內(nèi)測(cè)。
還有個(gè)神奇的英文名字Spark Desk,據(jù)說(shuō)有“火花桌面智能助手”的意思。
訊飛這波操作,多少有點(diǎn)“反向跳票”的意思,因?yàn)樵缭诮衲?月初,科大訊飛就被曝加緊開(kāi)發(fā)中國(guó)版ChatGPT。隨后國(guó)內(nèi)大模型關(guān)注度陡增后,科大訊飛率先給出了deadline:5月6日上線(xiàn)產(chǎn)品。
萬(wàn)萬(wàn)沒(méi)想到,距離正式發(fā)布還有10天,他們毫無(wú)征兆地開(kāi)啟了內(nèi)測(cè)邀請(qǐng)。
從目前已經(jīng)獲得內(nèi)測(cè)的網(wǎng)友評(píng)價(jià)來(lái)看,有一些人認(rèn)為效果“超出預(yù)期”,但也有人反饋只是“中規(guī)中矩”。整體來(lái)看,表達(dá)效果不錯(cuò)的反饋占多數(shù)。
獲得內(nèi)測(cè)資格的方式也有點(diǎn)意思,是AI打電話(huà)給確認(rèn)的 :
當(dāng)然,科大訊飛大模型能力究竟如何,最好還是能實(shí)測(cè)后再說(shuō)。
所以第一時(shí)間拿到內(nèi)測(cè)邀請(qǐng)的我們,也連夜完成了測(cè)試。詳情如下:
淺測(cè)訊飛大模型
登錄進(jìn)去后,首先看到的是訊飛星火認(rèn)知大模型的自我介紹:
我能學(xué)習(xí)和理解人類(lèi)的語(yǔ)言,進(jìn)行多輪對(duì)話(huà)、回答問(wèn)題和高效地幫助人們獲取知識(shí)和靈感。
老樣子,還是從 語(yǔ)文、數(shù)學(xué)、代碼和邏輯幾方面,測(cè)測(cè)訊飛星火認(rèn)知大模型的綜合能力。
那么我們就先從 語(yǔ)文能力測(cè)起。
考慮到現(xiàn)在弱智吧已經(jīng)成為ChatGPT時(shí)代下的Benchmark了,所以先測(cè)試大家想看的環(huán)節(jié)。
結(jié)合下科大訊飛的特點(diǎn),我們拋給訊飛星火了一個(gè) 地獄地域笑話(huà)。
沒(méi)想到,它是懂安徽人的 。
△我們?nèi)チ藞D片ID水印,可能導(dǎo)致截圖文字不清楚(還望大家理解)
再來(lái)一個(gè)腦筋急轉(zhuǎn)彎試試。
訊飛星火的回答非常一本正經(jīng):首先表示“玉皇大帝是否存在這個(gè)事情不是我AI可以下結(jié)論的”,這個(gè)問(wèn)題驢唇不對(duì)馬嘴,玉皇大帝住哪的設(shè)定和現(xiàn)代科學(xué)沒(méi)有關(guān)系。
但你要非要我說(shuō)點(diǎn)啥,我只能說(shuō)或許玉皇大帝可能在地球上空吧。
不過(guò)這段回答里也有個(gè)小bug,即在東亞宗教信仰里天界包括天堂和神界(?)
實(shí)際上,在一些弱智吧問(wèn)題里,訊飛星火的表現(xiàn)往往是懂了但沒(méi)完全懂。
比如它知道焚書(shū)坑儒的事,但是又解釋不清楚衍生出來(lái)的地獄笑話(huà)。
不過(guò)在基本語(yǔ)文能力上,訊飛星火的表現(xiàn)還是值得關(guān)注的。
比如給出第一句,補(bǔ)充寫(xiě)一首魯迅風(fēng)格的詩(shī)歌:
提的要求它都基本滿(mǎn)足了,不過(guò)紫菜湯為啥曾是漁民的希望?是我理解不了AI的深意了。
換成周杰倫的風(fēng)格呢?
表現(xiàn)也還不錯(cuò),馬上替換了后三句的內(nèi)容。懷念童年也是周董歌里經(jīng)常出現(xiàn)的主題了。
古文中的 對(duì)對(duì)子,它也能對(duì)仗比較工整,表達(dá)意思上也沒(méi)出什么問(wèn)題。
我們給的上聯(lián)是:福慧雙修須及物。
再試試成語(yǔ)接龍:
如果它接錯(cuò)了,提醒下能改正回來(lái),也表現(xiàn)出了一定的 多輪對(duì)話(huà)能力:
創(chuàng)作的洋蔥新聞,也確實(shí)有那感覺(jué)了~
續(xù)寫(xiě)的恐怖故事也有點(diǎn)水平:
那么再看看 數(shù)學(xué)能力?
基本的加減法、雞兔同籠應(yīng)對(duì)起來(lái)都很輕松了。
不過(guò)在高數(shù)方面還是有點(diǎn)困難,讓它求解:f(x)=x(x-1)(x-2)(x-3),f’(0)=?
即便在我們提醒它算錯(cuò)了情況下,修正起來(lái)也比較困難(正確答案為-6)。
OK,接下來(lái)就輪到 代碼能力了。
我們給的要求是:幫我寫(xiě)一個(gè)計(jì)算器程序。
確實(shí)完成了一個(gè)四則運(yùn)算的簡(jiǎn)單計(jì)算器,甚至還有命令行操作界面:
除了有一個(gè)小bug(函數(shù)外不能return)外,簡(jiǎn)單修改后可以運(yùn)行。
另外對(duì)于Python/ target=_blank class=infotextkey>Python縮進(jìn)的空格與tab之爭(zhēng),這只AI是個(gè)空格黨。
這里貼上代碼塊,大伙兒可以試試:
#coding=utf-8
#量子位注:AI沒(méi)生成這句,根據(jù)不同運(yùn)行環(huán)境可能需要加一下
# 定義函數(shù),實(shí)現(xiàn)加法運(yùn)算
defadd(x, y):
returnx + y
# 定義函數(shù),實(shí)現(xiàn)減法運(yùn)算
defsubtract(x, y):
returnx - y
# 定義函數(shù),實(shí)現(xiàn)乘法運(yùn)算
defmultiply(x, y):
returnx * y
# 定義函數(shù),實(shí)現(xiàn)除法運(yùn)算
defdivide(x, y):
ify == 0:
print( "除數(shù)不能為零!")
return
else:
returnx / y
# 主程序
print( "歡迎使用計(jì)算器!請(qǐng)選擇需要進(jìn)行的操作:")
print( "1. 加法")
print( "2. 減法")
print( "3. 乘法")
print( "4. 除法")
choice = input( "請(qǐng)輸入操作編號(hào)(1/2/3/4):")
num1 = float(input( "請(qǐng)輸入第一個(gè)數(shù)字:"))
num2 = float(input( "請(qǐng)輸入第二個(gè)數(shù)字:"))
ifchoice == '1':
print(num1, "+", num2, "=", add(num1, num2))
elifchoice == '2':
print(num1, "-", num2, "=", subtract(num1, num2))
elifchoice == '3':
print(num1, "*", num2, "=", multiply(num1, num2))
elifchoice == '4':
ifnum2 == 0:
print( "除數(shù)不能為零!")
# return (量子位注:這里有bug,注釋掉就可)
else:
print(num1, "/", num2, "=", divide(num1, num2))
else:
print( "非法輸入!")
生成表格能力也是有的,同時(shí)可以按照要求修改表格:
分析基本邏輯問(wèn)題也OK:
而且我們感覺(jué)訊飛星火的回答,總是很正經(jīng),對(duì)于腦洞大開(kāi)的問(wèn)題也是淡定的“總分總式”回答。
當(dāng)然也被繞到過(guò)溝里,回答出了“賈母找人搬機(jī)器”的瞎話(huà):
以上就是我們對(duì)訊飛星火的一個(gè)淺淺測(cè)試。
能力水平已經(jīng)看到了,而大模型本身讓人好奇的,還有它的技術(shù)細(xì)節(jié)~
提前扒扒它的“模型底細(xì)”
畢竟訊飛大模型還沒(méi)正式發(fā)布,所以我們?cè)囍葟乃约哼@里“探探口風(fēng)”。
看看能不能通過(guò)問(wèn)相關(guān)問(wèn)題,提前摸出一些關(guān)于它的資料來(lái)。
先是 名字由來(lái)。訊飛星火認(rèn)知大模型給出了技術(shù)向、公司向和文化向三個(gè)方面的回答,有議論文內(nèi)味了:
再仔細(xì)追問(wèn)一下為什么“星火”和“心宿”有關(guān),好家伙,話(huà)題逐漸占星學(xué)了起來(lái):
這里我們調(diào)戲一下大模型,問(wèn)問(wèn)科大訊飛CEO是否喜歡占星學(xué)
回到正題。那么,訊飛星火認(rèn)知大模型的訓(xùn)練數(shù)據(jù)來(lái)源、模型參數(shù)量、聯(lián)網(wǎng)狀態(tài)如何?
首先是關(guān)于模型 訓(xùn)練數(shù)據(jù)的來(lái)源。看起來(lái)資料還比較豐富,目前也還在不斷更新中:
所以,訊飛大模型是否和ChatGPT一樣,用了RLHF呢?它自己的回答竟然是沒(méi)有:
那么接下來(lái),是關(guān)于 模型參數(shù)量的問(wèn)題,這里訊飛大模型回答得也比較模糊。
而且,給出的模型參數(shù)量竟然只有數(shù)億個(gè)?(要知道,GPT-2模型參數(shù)量都有15億)
最后,是關(guān)于模型 能否聯(lián)網(wǎng)的問(wèn)題。
看起來(lái),它還不會(huì)實(shí)時(shí)聯(lián)網(wǎng),關(guān)于網(wǎng)易和暴雪的新聞只能追溯到幾年前的消息:
用戶(hù)也不能通過(guò)指令直接讓它訪(fǎng)問(wèn)某個(gè)網(wǎng)站,查詢(xún)特定信息,應(yīng)該是加了某些限制:
不過(guò)有意思的是,它還是聲稱(chēng)自己需要聯(lián)網(wǎng)工作,以訪(fǎng)問(wèn)特定信息數(shù)據(jù):
據(jù)訊飛星火認(rèn)知大模型介紹,目前它的訓(xùn)練數(shù)據(jù)還在繼續(xù)更新。
換而言之,就是還在繼續(xù)迭代,估計(jì)在正式發(fā)布前還會(huì)更新一版模型。
目前來(lái)看,科大訊飛的這個(gè)訊飛星火認(rèn)知大模型,表現(xiàn)已算不錯(cuò)。
而且要知道,訊飛原計(jì)劃給出的交卷時(shí)間是 5月6日,現(xiàn)在突然發(fā)布內(nèi)測(cè),相當(dāng)于不僅沒(méi)跳票,還“反向跳票”了一波。
這樣來(lái)看,除了科大訊飛在這NLP和認(rèn)知智能方面確實(shí)有很深的技術(shù)積累以外,也說(shuō)明,訊飛的技術(shù)和工程團(tuán)隊(duì)實(shí)戰(zhàn)能力值得關(guān)注一波——不僅能打硬仗,而且“說(shuō)到做到”。
現(xiàn)在距離正式發(fā)布還有10天,你期待訊飛的大模型迭代出什么新效果?
— 完—