它能聽會說,還可以處理圖像。
為了鼓勵消費(fèi)者在日常生活中采用生成式人工智能,科技公司不僅競相推出新的聊天機(jī)器人應(yīng)用程序,而且還推出新功能。
當(dāng)?shù)貢r間9月25日,ChatGPT開發(fā)商AI target=_blank class=infotextkey>OpenAI公司在一篇博客文章中表示,該聊天機(jī)器人將擁有全新的功能,它能聽會說,還可以處理圖像。
這也是GPT 4大型語言模型推出以來最大的一次功能更新。OpenAI表示,更新后的ChatGPT將在未來兩周內(nèi)向付費(fèi)用戶推出。
ChatGPT功能更新后,意味著它將成為類似于蘋果Siri或者亞馬遜Alexa這樣的語音助理,但功能更加強(qiáng)大。用戶可以直接與ChatGPT語音對話,例如請ChatGPT講一段睡前故事,或者請它設(shè)置一個晚餐時的聊天話題。
OpenAI表示,ChatGPT的語音功能是由一種全新的文生語音(text to speech)模型支持的,輸入文字便可生成人聲,并通過與專業(yè)聲音演員合作,提供5種不同的語音。
借助圖像交互功能,用戶可以拍攝周圍事物的照片,并要求ChatGPT給出建議,例如分析為何烤箱無法啟動,或者提供一份冰箱中食材的菜譜。
OpenAI表示,語音功能最初將僅向IOS和Android應(yīng)用程序開放,但圖像處理功能將在所有平臺上提供。
在人工智能語音助理蘋果Siri和亞馬遜Alexa橫空出世大約十年后,ChatGPT等AI大模型帶火了具有更大自主權(quán)的新一波人工智能助手AI數(shù)字代理(AI agent)。
AI數(shù)字代理是指能夠在人類的指導(dǎo)下執(zhí)行更復(fù)雜的任務(wù),而無需密切監(jiān)督的人工智能助理,有時也被稱為AI“副駕”。硅谷科技公司正在競相利用人工智能技術(shù)的進(jìn)步,在ChatGPT等大模型上運(yùn)行AI數(shù)字代理的實(shí)驗(yàn)系統(tǒng)。
巨頭企業(yè)也已為此注入數(shù)十億美元的資本。就在ChatGPT新功能發(fā)布的同一天,亞馬遜宣布以40億美元投資OpenAI的競爭對手Anthropic。
亞馬遜發(fā)言人今年早些時候表示,團(tuán)隊(duì)正在開發(fā)新模型,以使Alexa語音助手更加強(qiáng)大和有用。
近幾個月,谷歌和微軟也都更新了聊天機(jī)器人的新版本,例如微軟則在Bing中添加了視覺搜索。
微軟CEO薩蒂亞·納德拉(SatyaNadella)認(rèn)為,基礎(chǔ)模型技術(shù)的發(fā)展是AI助理從微軟Cortana、亞馬遜Alexa、蘋果Siri以及googleAssistant等演進(jìn)的一次飛躍。在他看來,過去這些數(shù)字助理都沒有達(dá)到最初的預(yù)期。
由科技行業(yè)領(lǐng)袖里德·霍夫曼(Reid Hoffman)和穆斯塔法·蘇萊曼(Mustafa Suleyman)創(chuàng)建的一家名為Inflection AI的公司,于今年6月底籌集了13億美元資金。該公司正在開發(fā)一款私人AI助理,據(jù)稱可以充當(dāng)顧問或處理諸如在旅行延誤后獲得航班積分和訂酒店等任務(wù)。
不過,功能更強(qiáng)大的AI代理也引發(fā)了關(guān)于數(shù)據(jù)隱私安全的爭議,尤其是對于人工智能生成的合成聲音的擔(dān)憂,因?yàn)檫@可能會涉及深度偽造(deepfake)。有網(wǎng)絡(luò)攻擊者已經(jīng)開始探索如何利用深度偽造來滲透網(wǎng)絡(luò)安全系統(tǒng)。
OpenAI在周一的聲明中也承認(rèn)了這些擔(dān)憂,不過沒有提供有關(guān)OpenAI如何使用消費(fèi)者語音輸入的詳細(xì)信息,或者說明公司將如何保護(hù)這些消費(fèi)者數(shù)據(jù)。根據(jù)該公司的服務(wù)條款規(guī)定,消費(fèi)者“在適用法律允許的范圍內(nèi)”對自己的數(shù)據(jù)擁有所有權(quán)。
OpenAI公司CEO奧特曼(Sam Altman)周一在臺北的一場論壇上表示,人工智能快速發(fā)展會引發(fā)政府的監(jiān)督,但他并不擔(dān)心政府過度監(jiān)管,反而擔(dān)心監(jiān)管不足。
他表示,未來可能會出現(xiàn)比GPT 4強(qiáng)大1萬倍的模型,這些模型可能會接近人類智能,應(yīng)該受到一些監(jiān)管。