人工智能其實(shí)應(yīng)用已經(jīng)相比起以前不知道翻了多少倍。
但實(shí)際上的底層技術(shù)的更新?lián)Q代并沒(méi)有那么快。
比如現(xiàn)在最火熱的ChatGPT,其本質(zhì)上就是一個(gè)復(fù)雜的transformer模型。以transformer為基礎(chǔ)的模型有很多,但是能做到這么簡(jiǎn)單可以大規(guī)模應(yīng)用的到目前為止并不多。
縱觀AI的發(fā)展史,從1950年左右圖靈測(cè)試?yán)碚摰慕ⅲ絘lpha go的誕生,其實(shí)也不過(guò)才60多年而已,比起大多數(shù)的學(xué)科,都只能算是個(gè)小年輕。
而AI在歷史上大多數(shù)火在少部分的群體,比如科研人員,他們之間會(huì)比拼誰(shuí)的模型識(shí)別準(zhǔn)確率更高;比如有限的幾個(gè)大公司,微軟,谷歌,deepmind,誰(shuí)又刷新了某個(gè)人工智能的榜單。
但是絕大多數(shù)的群體,也就是只能在電視或者新聞山看人工智能的普通人,其實(shí)一直以來(lái)并沒(méi)有機(jī)會(huì)去接觸到人工智能這個(gè)東西。
而在最近一年以來(lái),情況發(fā)生改變了,那就是以Transformer為基礎(chǔ)的大模型語(yǔ)言模型ChatGPT和以Diffusion為基礎(chǔ)的擴(kuò)散模型Midjourney/StableDiffusion,改變了只有大公司和專業(yè)人士才能接觸和使用的人工智能技術(shù)的使用門(mén)檻。
現(xiàn)在各種人工智能對(duì)話機(jī)器人和AI繪圖工具層出不窮,使用門(mén)檻低到只需要有一個(gè)手機(jī)就可以用AI來(lái)進(jìn)行文字創(chuàng)作和圖片創(chuàng)作。
如果我們要列舉人工智能應(yīng)用的話,可能雜七雜八的會(huì)有成千上萬(wàn)種,但實(shí)際上很多應(yīng)用都是在做非常類似的功能,比如各種AI寫(xiě)作軟件,它們本質(zhì)上都是接收文字輸入,然后再輸出文字。
其實(shí)如果我們按照輸入給人工智能應(yīng)用數(shù)據(jù)類型的不同來(lái)劃分的話,大致可以分為四種。
文本:也就是各種文字,中文,英文,數(shù)字等等都算是文本輸入。
圖像:各種圖片,比如人像,動(dòng)物,家具,汽車(chē)都算是這一種。
語(yǔ)音:音樂(lè),錄音等等音頻格式的文件。
視頻:廣義上的各種動(dòng)態(tài)視頻的文件等。
每種格式的人工智能應(yīng)用都有很多,但實(shí)際上每個(gè)領(lǐng)域只有非常有限的幾個(gè)應(yīng)用可以殺出重圍,從而獲得絕大多數(shù)的關(guān)注。
我也就只介紹單個(gè)領(lǐng)域中功能最強(qiáng)的幾個(gè)。
AI寫(xiě)作工具
寫(xiě)作是最基本上,也是最常用的工具,一般來(lái)說(shuō)可以用它來(lái)構(gòu)思文章,潤(rùn)色,翻譯等等一切可以想到的文字創(chuàng)作,基本上都可以用到它。
1. ChatGPT-3.5
免費(fèi)訪問(wèn): 對(duì)所有注冊(cè)用戶免費(fèi),讓更多人能夠接觸和利用。
代碼解釋器: 可以生成表格和可視化圖,讓任何人都能成為初級(jí)數(shù)據(jù)分析師。
易用性: 上傳文件并讓模型工作,非常方便和直觀。
局限性: 有文本輸入的大小限制。
2. GP4
性能優(yōu)勢(shì): 被公認(rèn)為目前性能最強(qiáng)的大模型。
廣泛共識(shí): 在學(xué)術(shù)界和工業(yè)界都得到了廣泛認(rèn)可。
3. Claude2
文本輸入能力: 主打量大管飽,一次性可以輸入75000個(gè)字。
音頻分析: 可以直接分析長(zhǎng)達(dá)6小時(shí)的音頻文件。
多樣化應(yīng)用: 可用于開(kāi)發(fā)各種有趣的項(xiàng)目,如《周易機(jī)器人》。
4. Bard
少量使用: 相對(duì)較少人使用,但具有特殊功能。
直接讀網(wǎng)頁(yè): 可以直接讀取網(wǎng)頁(yè)內(nèi)容,如知乎的維基百科。
Colab集成: 代碼可以直接在Colab中運(yùn)行,方便進(jìn)行實(shí)驗(yàn)和開(kāi)發(fā)。
多樣化輸出: 可以編輯成郵件形式等多樣化的輸出。
這四個(gè)模型都有各自的特色和優(yōu)勢(shì),滿足不同的需求和用途。我其實(shí)這四個(gè)都會(huì)用到,比如回郵件,很多時(shí)候禮貌且專業(yè)的回復(fù)一封郵件其實(shí)是并不簡(jiǎn)單,而ChatGPT之類工具的存在,就可以非常方便的做一些以前需要工作經(jīng)驗(yàn)才能做好的事情。
比如下面這個(gè)例子,就可以把一件專業(yè)的事情變成一道填空題,你只需要替換掉一些關(guān)鍵部分就可以。
這就是大模型的威力,而不同的大模型的優(yōu)勢(shì)不同,所以并不用一味的依賴某一個(gè)大模型。比如說(shuō)你需要快速整理一本書(shū)的時(shí)候,就可以用Claude 2,它可以一次性的接受10萬(wàn)個(gè)字符,這一點(diǎn)兒ChatGPT是比不過(guò)的。
AI繪畫(huà)工具
這類型工具非常的實(shí)用,基本上可以讓任意一個(gè)普通人都可以擁有實(shí)現(xiàn)自己夢(mèng)境的能力。
你只需要輸入一段文字來(lái)描述你想要的圖像,這兩個(gè)工具都可以在很短的時(shí)間內(nèi)生成出來(lái)。
可以是二次元風(fēng)格的。
也可以是賽博朋克風(fēng)格的。
中國(guó)傳統(tǒng)風(fēng)格的。
甚至是一些不太可能發(fā)生的事情。
這些都是可以通過(guò)簡(jiǎn)單的描述生成的。
而Midjourney和StableDiffusion就是AI繪圖的佼佼者,他們倆各有千秋。
定制圖片的方式
Stable Diffusion: 提供更多調(diào)整圖片的選擇,例如,大小、跟隨提示的程度、生成數(shù)量、種子值和采樣等。
Midjourney: 選擇較少,只能調(diào)整寬高比、種子和是否提前停止。
學(xué)習(xí)難度
Stable Diffusion: 安裝麻煩,還要找到合適的模型來(lái)獲得想要的風(fēng)格。
Midjourney: 在Discord上使用,相對(duì)容易學(xué)。
生成好看圖片的難度
Midjourney: 生成精美藝術(shù)圖像容易,不用費(fèi)太多力氣。
Stable Diffusion: 要更努力地創(chuàng)建好的提示,嘗試產(chǎn)生相同質(zhì)量的圖像。
模型的種類
Stable Diffusion: 超過(guò)1000個(gè)可下載的風(fēng)格,每個(gè)都可以進(jìn)一步調(diào)整。
Midjourney: 選擇有限,只有幾種特殊模型,可以添加參數(shù)來(lái)“樣式化”圖像。
編輯圖片的能力
Stable Diffusion: 可以多樣化地編輯圖片,包括重做部分圖片或延伸。
Midjourney: 不能編輯圖像。
圖片的風(fēng)格
Midjourney: 默認(rèn)生成逼真插圖風(fēng)格,v5可生成逼真照片。
Stable Diffusion: 可生成逼真照片、抽象藝術(shù)等多種風(fēng)格。
控制構(gòu)圖和姿勢(shì)
Stable Diffusion: 通過(guò)多種方式控制,如圖像到圖像、深度到圖像等。
Midjourney: 只能通過(guò)圖像提示來(lái)控制。
制作自己的模型
Stable Diffusion: 可以自己訓(xùn)練模型。
Midjourney: 無(wú)法做到。
選擇哪個(gè)?
這個(gè)問(wèn)題其實(shí)復(fù)雜也不復(fù)雜,如果有條件肯定是兩個(gè)都選,但是如果只能選擇一種的話,就得比較一下自己到底適合哪個(gè)。
選Midjourney:想快速生成美圖;沒(méi)時(shí)間學(xué)習(xí)模型;喜歡它的風(fēng)格;需要即插即用解決方案;不介意付費(fèi)。
選Stable Diffusion如果:想要免費(fèi)方案;希望本地運(yùn)行;喜歡折騰設(shè)置和新工具;需要編輯功能;更喜歡開(kāi)源,并希望有更多對(duì)圖像的控制權(quán)。
AI視頻工具
這類型的工具我用的不是很多,第一是因?yàn)橐曨l做起來(lái)的難度很高,花費(fèi)的時(shí)間和精力也是文字的好多倍,其次現(xiàn)在的AI視頻生成工具的效果不是很理想,畢竟處理視頻所需要的算力和算法復(fù)雜度都比圖像高了很多。
而這部分我覺(jué)得有兩個(gè)類別,第一個(gè)是通過(guò)拼接圖片做成的視頻;第二個(gè)是純文本生成視頻。
前者的代表就是剪映這樣的軟件,你給他一段文字,它自動(dòng)的匹配對(duì)應(yīng)的圖片,再給你自動(dòng)配音和配樂(lè),雖然效果很一般,但是確實(shí)是可以看的視頻。
后者的產(chǎn)品不算多,并且效果真的只能算是一般,還有很大的發(fā)展空間。
比如有以下這些軟件,基本上都不免費(fèi),就算是免費(fèi)也只能生成很短的視頻,或者需要加上各種水印。
大多的生成視頻都是一個(gè)固定的人物模型+根據(jù)語(yǔ)句變化的嘴形,可以用,但是不太能盡人如意。
所以對(duì)于AI視頻工具一塊來(lái)說(shuō),現(xiàn)在并不能當(dāng)成生產(chǎn)力工具。
AI音頻工具
這類型工具主要分為兩類:文字轉(zhuǎn)語(yǔ)音和語(yǔ)音轉(zhuǎn)文字,語(yǔ)音轉(zhuǎn)語(yǔ)音的也有,但是數(shù)量不算多。
文字轉(zhuǎn)語(yǔ)音的應(yīng)用很多都內(nèi)嵌在視頻編輯軟件里面,比如說(shuō)剪映,就可以很方便的將文字轉(zhuǎn)換成語(yǔ)音,同時(shí)還有很多類型的音色可以選,比如最近很火的猴哥音色。
而語(yǔ)音轉(zhuǎn)文字的應(yīng)用也有很多,比如最常見(jiàn)的就是微信,可以很輕松的將你的話轉(zhuǎn)換成文字。
再高級(jí)一點(diǎn)兒就是直接將中文轉(zhuǎn)換成英文文本,這種應(yīng)用相信大家也從各種渠道看見(jiàn)過(guò)。其實(shí)就是先從語(yǔ)音轉(zhuǎn)成文字,然后文字再做翻譯。
AI應(yīng)用有很多,但是究其根本,不過(guò)就是接收輸入然后輸出內(nèi)容,輸入和輸出可以有各種搭配。但是要記住,選擇工具要選擇最適合自己的,而不是最好的。