【ITBEAR】近日,科技媒體MSPoweruser報(bào)道了一項(xiàng)微軟新獲得的專利,該專利描述了一種能夠根據(jù)用戶實(shí)時(shí)語(yǔ)音輸入生成圖片的技術(shù)。據(jù)悉,這項(xiàng)專利于2023年4月5日提交申請(qǐng),并于10月10日獲得美國(guó)商標(biāo)和專利局的批準(zhǔn),共計(jì)20頁(yè)。
根據(jù)專利描述,這一創(chuàng)新系統(tǒng)能夠在會(huì)議或講座中實(shí)時(shí)捕捉音頻,通過語(yǔ)言模型進(jìn)行總結(jié),并據(jù)此生成相應(yīng)的AI圖像,以增強(qiáng)視覺溝通效果。
具體工作流程包括三個(gè)步驟:首先,用戶通過麥克風(fēng)發(fā)言,系統(tǒng)實(shí)時(shí)記錄并轉(zhuǎn)化為文本;其次,分段記錄文本,并通過語(yǔ)言模型對(duì)每段內(nèi)容進(jìn)行總結(jié);最后,根據(jù)這些總結(jié)生成的提示,系統(tǒng)創(chuàng)建并實(shí)時(shí)顯示AI生成的圖像。
預(yù)計(jì)這一功能將主要應(yīng)用于Microsoft Teams平臺(tái)。隨著演講者話題的變化,實(shí)時(shí)生成的圖像也會(huì)隨之更新,有助于澄清概念,尤其適合需要視覺輔助學(xué)習(xí)的用戶。
微軟表示,這種創(chuàng)新技術(shù)不僅能夠提升溝通效率,還能為學(xué)習(xí)者提供更加直觀、生動(dòng)的視覺輔助,有望在未來(lái)的在線會(huì)議和教育領(lǐng)域發(fā)揮重要作用。