日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:52000
  • 待審:37
  • 小程序:12
  • 文章:1037587
  • 會員:756

編輯 | 伊風(fēng)

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

 

 

全面發(fā)力AI的蘋果,再出新研究!

 

隨著人工智能技術(shù)的發(fā)展,我們熟悉的“Hey Siri”或?qū)⒊蔀闅v史。

 

蘋果團隊最新出爐的論文《利用大型語言模型進行設(shè)備指向性語音檢測的多模態(tài)方法》,集中于這一問題的研究:不使用“Hey Siri”這樣的特定短語觸發(fā)智能語音助手,可行嗎?

 

結(jié)果是:有希望。蘋果推出的多模態(tài)系統(tǒng)在設(shè)備指向性語音檢測任務(wù)上的錯誤率比單一模態(tài)(文本或音頻)的模型要低,分別降低了最多39%和61%。并指出,未來將在音頻字幕和聲學(xué)場景分類等領(lǐng)域發(fā)力,提供更好的虛擬助手交互體驗。

 

現(xiàn)在,人們與GPT、Kimi的聊天愈發(fā)輕松。相較而言,與Siri、智能音箱等語音助手的交互還比較機械,它們好像也經(jīng)常“get”不到我們的意思。

 

這一次的AI賦能,或許到了語音助手們的show time了。

1.蘋果的論文說了什么?

 

 

與虛擬助手的交互通常以一個預(yù)定義的觸發(fā)短語開始(Hey Siri),然后才是用戶的命令內(nèi)容。

 

為了使與助手的交互更加直接自然,放棄觸發(fā)短語直接開始交互是一種優(yōu)化思路。為了驗證這個思路的可行性,研究人員使用智能手機捕獲的語音以及背景噪音的聲學(xué)數(shù)據(jù)訓(xùn)練了一個大型語言模型。

 

研究人員寫道,該模型部分建立在一個版本的OpenAI的GPT-2之上,“因為它相對輕量級,有可能在智能手機等設(shè)備上運行”。

 

論文描述了用于訓(xùn)練模型的超過129小時的數(shù)據(jù)和額外的文本數(shù)據(jù),但沒有指定進入訓(xùn)練集的錄音來源。

 

這項研究嘗試?yán)梅俏谋拘盘杹碓鰪?LLM,以解決在真實生活場景中,背景噪聲和語音重疊帶來的識別問題。在文本信息之外,這項研究使用了各種多模態(tài)信息,包括從預(yù)訓(xùn)練音頻編碼器中獲得的聲學(xué)特征,以及 1-best 假設(shè)和語句級解碼器信號,來自 ASR 系統(tǒng)的聲學(xué)成本和圖形成本。

 

通過對所有模態(tài)進行聯(lián)合學(xué)習(xí),對系統(tǒng)進行微調(diào),設(shè)備可以更加聰明地決定是不是要啟動“Siri”(見下圖 )。

 

圖片圖片

研究表明,蘋果提出的新模型能夠比僅使用音頻或文本的模型做出更準(zhǔn)確的預(yù)測,并且隨著模型規(guī)模的增大而進一步提高。除了探索研究問題之外,目前尚不清楚蘋果是否計劃取消“Hey Siri”觸發(fā)短語。

 

這項研究已上傳至Arxiv(但尚未經(jīng)過同行評審,想要閱讀完整論文的朋友可以移步:https://ieeexplore.ieee.org/document/10446224)。

2.六位蘋果作者,一半來自Siri

 

七位作者中有六位隸屬于蘋果公司,其中三位在Siri團隊中工作。

圖片圖片

Siddharth Sigtia在蘋果的Siri團隊擔(dān)任高級科學(xué)家,從事聲學(xué)建模。

 

圖片圖片

 

 

 

 

 

 

 

 

 

Panayiotis Georgiou在Siri團隊擔(dān)任機器學(xué)習(xí)工程師,研究重點是人類交流分析、行為信號處理、語音處理(包括語音識別、去噪、語音活動檢測)以及機器學(xué)習(xí)(重點是深度神經(jīng)網(wǎng)絡(luò))。在入職蘋果之前,他曾在高校供職多年,擁有非常深厚的學(xué)術(shù)背景。圖片圖片Matt Mirsamadi同樣是Siri團隊的機器學(xué)習(xí)工程師,博士期間的兩段實習(xí)經(jīng)歷都在微軟。圖片

 

 

 

 

 

 

 

 

 

3.新技術(shù)的另一面:無觸發(fā)語意味著全程監(jiān)聽嗎?

 

2014 年,蘋果推出了 "Hey Siri "功能,用戶從此不必在按下按鈕,只使用語音即可完成交互。

十年過去了,人們還記得Siri誕生之初,人們對虛擬助手的空前期待。谷歌內(nèi)部也曾認為Siri的交互方式將對自家的搜索業(yè)務(wù)產(chǎn)生災(zāi)難性的沖擊。

然而,Siri的進化遠不及想象。如何在技術(shù)與隱私保護間取得平衡,是蘋果長期以來的難題。

Siri處理音頻數(shù)據(jù)的方式曾受到多番爭議。2019年,《衛(wèi)報》報道揭示,蘋果的質(zhì)量控制承包商在處理Siri數(shù)據(jù)時經(jīng)常聽到從iphone收集的私人音頻,包括醫(yī)生和患者之間的敏感對話。兩年后,蘋果以政策變化作出回應(yīng),包括在設(shè)備上存儲更多數(shù)據(jù),并允許用戶選擇不讓他們的錄音用于改進Siri。2021年,加利福尼亞州一起集體訴訟指控Siri即使在未激活時也被打開。

"Hey Siri "的工作方式使得Siri可以聽取盡量少的音頻,直到聽到觸發(fā)短語才開始錄音或準(zhǔn)備回答用戶的問題。斯坦福大學(xué)人類中心人工智能研究所的隱私和數(shù)據(jù)政策研究員Jen King表示,消除“Hey Siri”提示可能會增加人們對我們的設(shè)備“始終在監(jiān)聽”的擔(dān)憂。

除了用戶隱私的限制外,蘋果的管理不力也是在AI上落隊的原因。據(jù)報道, Siri 團隊在 2018 年處于 "混亂狀態(tài)",其開發(fā)因管理層在技術(shù)開發(fā)方向上的內(nèi)訌而受到影響。而其設(shè)計團隊又堅持要求Siri能提供“近乎完美的答案”,而放棄了當(dāng)時還不算成熟的AI生成方式,就這樣與風(fēng)口失之交臂。

放棄造車后,蘋果必須全力在AI賽道上奔跑,以挽回年初以來持續(xù)呈現(xiàn)頹勢的股價和投資者對未來發(fā)展的信心。Siri無疑是絕佳的入口,在AI的加持下進化,全面落地于蘋果生態(tài),給用戶帶來新的智能交互體驗。

現(xiàn)在,沒有時間仔細“打磨”大模型的蘋果,已經(jīng)與谷歌、百度等國內(nèi)外多家科技巨頭洽談并尋找合作的可能。

蘋果這位“實用主義”的科技明星,在全力追趕AI后,能重奪王冠嗎?

參考鏈接:

1.https://www.technologyreview.com/2024/03/22/1090090/Apple-researchers-explore-dropping-siri-phrase-amp-listening-with-ai-instead/

 

2.https://blog.routinehub.co/the-history-of-siri-and-its-impact-on-todays-technology/

 

3.https://the-decoder.com/apple-struggles-with-ai-and-siri-report/

分享到:
標(biāo)簽:多模態(tài)
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 52000

    網(wǎng)站

  • 12

    小程序

  • 1037587

    文章

  • 756

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨大挑戰(zhàn)2018-06-03

數(shù)獨一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運動步數(shù)有氧達人2018-06-03

記錄運動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定