來(lái)源:IT之家
OpenAI 昨日凌晨發(fā)布 GPT-4o 模型,可以視為 GPT-4 的升級(jí)版本,可以實(shí)時(shí)推理處理音頻、視覺和文本內(nèi)容,而且能更加無(wú)縫地和 ChatGPT 交互。
OpenAI 總裁兼聯(lián)合創(chuàng)始人格雷格布羅克曼(Greg Brockman)隨后發(fā)布了上手演示,讓兩臺(tái)運(yùn)行 GPT-4o 的設(shè)備進(jìn)行語(yǔ)音或視頻交互。
布羅克曼在演示開始之前,表達(dá)了自己的期望:讓兩臺(tái) AI 聊天機(jī)器人互相交流。布羅克曼向其中 A 聊天機(jī)器人講述了他的期望,并讓 B 聊天機(jī)器人可以調(diào)用攝像頭觀察周圍世界。
B 聊天機(jī)器人會(huì)調(diào)用前置攝像頭,并清晰地描繪出用戶的穿著和所處的環(huán)境。然后 A 聊天機(jī)器人可以與它對(duì)話并提出問(wèn)題,包括移動(dòng)攝像頭和它所看到的內(nèi)容。
對(duì)話中,新版本 ChatGPT 不僅能通過(guò)視覺 AI 能力理解攝像頭中發(fā)生的事情,同時(shí)還能夠?qū)⒗斫獾膬?nèi)容通過(guò)語(yǔ)音交互,進(jìn)行更加豐富有趣的互動(dòng),同時(shí)還支持中途打斷和對(duì)話插入,且具備上下文記憶能力。