編輯 | 伊風
出品 | 51CTO技術棧(微信號:blog51cto)
全面發力AI的蘋果,再出新研究!
隨著人工智能技術的發展,我們熟悉的“Hey Siri”或將成為歷史。
蘋果團隊最新出爐的論文《利用大型語言模型進行設備指向性語音檢測的多模態方法》,集中于這一問題的研究:不使用“Hey Siri”這樣的特定短語觸發智能語音助手,可行嗎?
結果是:有希望。蘋果推出的多模態系統在設備指向性語音檢測任務上的錯誤率比單一模態(文本或音頻)的模型要低,分別降低了最多39%和61%。并指出,未來將在音頻字幕和聲學場景分類等領域發力,提供更好的虛擬助手交互體驗。
現在,人們與GPT、Kimi的聊天愈發輕松。相較而言,與Siri、智能音箱等語音助手的交互還比較機械,它們好像也經常“get”不到我們的意思。
這一次的AI賦能,或許到了語音助手們的show time了。
1.蘋果的論文說了什么?
與虛擬助手的交互通常以一個預定義的觸發短語開始(Hey Siri),然后才是用戶的命令內容。
為了使與助手的交互更加直接自然,放棄觸發短語直接開始交互是一種優化思路。為了驗證這個思路的可行性,研究人員使用智能手機捕獲的語音以及背景噪音的聲學數據訓練了一個大型語言模型。
研究人員寫道,該模型部分建立在一個版本的OpenAI的GPT-2之上,“因為它相對輕量級,有可能在智能手機等設備上運行”。
論文描述了用于訓練模型的超過129小時的數據和額外的文本數據,但沒有指定進入訓練集的錄音來源。
這項研究嘗試利用非文本信號來增強 LLM,以解決在真實生活場景中,背景噪聲和語音重疊帶來的識別問題。在文本信息之外,這項研究使用了各種多模態信息,包括從預訓練音頻編碼器中獲得的聲學特征,以及 1-best 假設和語句級解碼器信號,來自 ASR 系統的聲學成本和圖形成本。
通過對所有模態進行聯合學習,對系統進行微調,設備可以更加聰明地決定是不是要啟動“Siri”(見下圖 )。
圖片
研究表明,蘋果提出的新模型能夠比僅使用音頻或文本的模型做出更準確的預測,并且隨著模型規模的增大而進一步提高。除了探索研究問題之外,目前尚不清楚蘋果是否計劃取消“Hey Siri”觸發短語。
這項研究已上傳至Arxiv(但尚未經過同行評審,想要閱讀完整論文的朋友可以移步:https://ieeexplore.ieee.org/document/10446224)。
2.六位蘋果作者,一半來自Siri
七位作者中有六位隸屬于蘋果公司,其中三位在Siri團隊中工作。
圖片
Siddharth Sigtia在蘋果的Siri團隊擔任高級科學家,從事聲學建模。
圖片
Panayiotis Georgiou在Siri團隊擔任機器學習工程師,研究重點是人類交流分析、行為信號處理、語音處理(包括語音識別、去噪、語音活動檢測)以及機器學習(重點是深度神經網絡)。在入職蘋果之前,他曾在高校供職多年,擁有非常深厚的學術背景。Matt Mirsamadi同樣是Siri團隊的機器學習工程師,博士期間的兩段實習經歷都在微軟。
3.新技術的另一面:無觸發語意味著全程監聽嗎?
2014 年,蘋果推出了 "Hey Siri "功能,用戶從此不必在按下按鈕,只使用語音即可完成交互。
十年過去了,人們還記得Siri誕生之初,人們對虛擬助手的空前期待。谷歌內部也曾認為Siri的交互方式將對自家的搜索業務產生災難性的沖擊。
然而,Siri的進化遠不及想象。如何在技術與隱私保護間取得平衡,是蘋果長期以來的難題。
Siri處理音頻數據的方式曾受到多番爭議。2019年,《衛報》報道揭示,蘋果的質量控制承包商在處理Siri數據時經常聽到從iphone收集的私人音頻,包括醫生和患者之間的敏感對話。兩年后,蘋果以政策變化作出回應,包括在設備上存儲更多數據,并允許用戶選擇不讓他們的錄音用于改進Siri。2021年,加利福尼亞州一起集體訴訟指控Siri即使在未激活時也被打開。
"Hey Siri "的工作方式使得Siri可以聽取盡量少的音頻,直到聽到觸發短語才開始錄音或準備回答用戶的問題。斯坦福大學人類中心人工智能研究所的隱私和數據政策研究員Jen King表示,消除“Hey Siri”提示可能會增加人們對我們的設備“始終在監聽”的擔憂。
除了用戶隱私的限制外,蘋果的管理不力也是在AI上落隊的原因。據報道, Siri 團隊在 2018 年處于 "混亂狀態",其開發因管理層在技術開發方向上的內訌而受到影響。而其設計團隊又堅持要求Siri能提供“近乎完美的答案”,而放棄了當時還不算成熟的AI生成方式,就這樣與風口失之交臂。
放棄造車后,蘋果必須全力在AI賽道上奔跑,以挽回年初以來持續呈現頹勢的股價和投資者對未來發展的信心。Siri無疑是絕佳的入口,在AI的加持下進化,全面落地于蘋果生態,給用戶帶來新的智能交互體驗。
現在,沒有時間仔細“打磨”大模型的蘋果,已經與谷歌、百度等國內外多家科技巨頭洽談并尋找合作的可能。
蘋果這位“實用主義”的科技明星,在全力追趕AI后,能重奪王冠嗎?
參考鏈接:
1.https://www.technologyreview.com/2024/03/22/1090090/Apple-researchers-explore-dropping-siri-phrase-amp-listening-with-ai-instead/
2.https://blog.routinehub.co/the-history-of-siri-and-its-impact-on-todays-technology/
3.https://the-decoder.com/apple-struggles-with-ai-and-siri-report/