編輯 | 伊風(fēng)
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
全面發(fā)力AI的蘋果,再出新研究!
隨著人工智能技術(shù)的發(fā)展,我們熟悉的“Hey Siri”或?qū)⒊蔀闅v史。
蘋果團隊最新出爐的論文《利用大型語言模型進行設(shè)備指向性語音檢測的多模態(tài)方法》,集中于這一問題的研究:不使用“Hey Siri”這樣的特定短語觸發(fā)智能語音助手,可行嗎?
結(jié)果是:有希望。蘋果推出的多模態(tài)系統(tǒng)在設(shè)備指向性語音檢測任務(wù)上的錯誤率比單一模態(tài)(文本或音頻)的模型要低,分別降低了最多39%和61%。并指出,未來將在音頻字幕和聲學(xué)場景分類等領(lǐng)域發(fā)力,提供更好的虛擬助手交互體驗。
現(xiàn)在,人們與GPT、Kimi的聊天愈發(fā)輕松。相較而言,與Siri、智能音箱等語音助手的交互還比較機械,它們好像也經(jīng)常“get”不到我們的意思。
這一次的AI賦能,或許到了語音助手們的show time了。
1.蘋果的論文說了什么?
與虛擬助手的交互通常以一個預(yù)定義的觸發(fā)短語開始(Hey Siri),然后才是用戶的命令內(nèi)容。
為了使與助手的交互更加直接自然,放棄觸發(fā)短語直接開始交互是一種優(yōu)化思路。為了驗證這個思路的可行性,研究人員使用智能手機捕獲的語音以及背景噪音的聲學(xué)數(shù)據(jù)訓(xùn)練了一個大型語言模型。
研究人員寫道,該模型部分建立在一個版本的OpenAI的GPT-2之上,“因為它相對輕量級,有可能在智能手機等設(shè)備上運行”。
論文描述了用于訓(xùn)練模型的超過129小時的數(shù)據(jù)和額外的文本數(shù)據(jù),但沒有指定進入訓(xùn)練集的錄音來源。
這項研究嘗試?yán)梅俏谋拘盘杹碓鰪?LLM,以解決在真實生活場景中,背景噪聲和語音重疊帶來的識別問題。在文本信息之外,這項研究使用了各種多模態(tài)信息,包括從預(yù)訓(xùn)練音頻編碼器中獲得的聲學(xué)特征,以及 1-best 假設(shè)和語句級解碼器信號,來自 ASR 系統(tǒng)的聲學(xué)成本和圖形成本。
通過對所有模態(tài)進行聯(lián)合學(xué)習(xí),對系統(tǒng)進行微調(diào),設(shè)備可以更加聰明地決定是不是要啟動“Siri”(見下圖 )。
圖片
研究表明,蘋果提出的新模型能夠比僅使用音頻或文本的模型做出更準(zhǔn)確的預(yù)測,并且隨著模型規(guī)模的增大而進一步提高。除了探索研究問題之外,目前尚不清楚蘋果是否計劃取消“Hey Siri”觸發(fā)短語。
這項研究已上傳至Arxiv(但尚未經(jīng)過同行評審,想要閱讀完整論文的朋友可以移步:https://ieeexplore.ieee.org/document/10446224)。
2.六位蘋果作者,一半來自Siri
七位作者中有六位隸屬于蘋果公司,其中三位在Siri團隊中工作。
圖片
Siddharth Sigtia在蘋果的Siri團隊擔(dān)任高級科學(xué)家,從事聲學(xué)建模。
圖片
Panayiotis Georgiou在Siri團隊擔(dān)任機器學(xué)習(xí)工程師,研究重點是人類交流分析、行為信號處理、語音處理(包括語音識別、去噪、語音活動檢測)以及機器學(xué)習(xí)(重點是深度神經(jīng)網(wǎng)絡(luò))。在入職蘋果之前,他曾在高校供職多年,擁有非常深厚的學(xué)術(shù)背景。Matt Mirsamadi同樣是Siri團隊的機器學(xué)習(xí)工程師,博士期間的兩段實習(xí)經(jīng)歷都在微軟。
3.新技術(shù)的另一面:無觸發(fā)語意味著全程監(jiān)聽嗎?
2014 年,蘋果推出了 "Hey Siri "功能,用戶從此不必在按下按鈕,只使用語音即可完成交互。
十年過去了,人們還記得Siri誕生之初,人們對虛擬助手的空前期待。谷歌內(nèi)部也曾認為Siri的交互方式將對自家的搜索業(yè)務(wù)產(chǎn)生災(zāi)難性的沖擊。
然而,Siri的進化遠不及想象。如何在技術(shù)與隱私保護間取得平衡,是蘋果長期以來的難題。
Siri處理音頻數(shù)據(jù)的方式曾受到多番爭議。2019年,《衛(wèi)報》報道揭示,蘋果的質(zhì)量控制承包商在處理Siri數(shù)據(jù)時經(jīng)常聽到從iphone收集的私人音頻,包括醫(yī)生和患者之間的敏感對話。兩年后,蘋果以政策變化作出回應(yīng),包括在設(shè)備上存儲更多數(shù)據(jù),并允許用戶選擇不讓他們的錄音用于改進Siri。2021年,加利福尼亞州一起集體訴訟指控Siri即使在未激活時也被打開。
"Hey Siri "的工作方式使得Siri可以聽取盡量少的音頻,直到聽到觸發(fā)短語才開始錄音或準(zhǔn)備回答用戶的問題。斯坦福大學(xué)人類中心人工智能研究所的隱私和數(shù)據(jù)政策研究員Jen King表示,消除“Hey Siri”提示可能會增加人們對我們的設(shè)備“始終在監(jiān)聽”的擔(dān)憂。
除了用戶隱私的限制外,蘋果的管理不力也是在AI上落隊的原因。據(jù)報道, Siri 團隊在 2018 年處于 "混亂狀態(tài)",其開發(fā)因管理層在技術(shù)開發(fā)方向上的內(nèi)訌而受到影響。而其設(shè)計團隊又堅持要求Siri能提供“近乎完美的答案”,而放棄了當(dāng)時還不算成熟的AI生成方式,就這樣與風(fēng)口失之交臂。
放棄造車后,蘋果必須全力在AI賽道上奔跑,以挽回年初以來持續(xù)呈現(xiàn)頹勢的股價和投資者對未來發(fā)展的信心。Siri無疑是絕佳的入口,在AI的加持下進化,全面落地于蘋果生態(tài),給用戶帶來新的智能交互體驗。
現(xiàn)在,沒有時間仔細“打磨”大模型的蘋果,已經(jīng)與谷歌、百度等國內(nèi)外多家科技巨頭洽談并尋找合作的可能。
蘋果這位“實用主義”的科技明星,在全力追趕AI后,能重奪王冠嗎?
參考鏈接:
1.https://www.technologyreview.com/2024/03/22/1090090/Apple-researchers-explore-dropping-siri-phrase-amp-listening-with-ai-instead/
2.https://blog.routinehub.co/the-history-of-siri-and-its-impact-on-todays-technology/
3.https://the-decoder.com/apple-struggles-with-ai-and-siri-report/