在科技界的一次重大人事變動中,WebRTC的早期先驅之一,Fixie.ai的聯合創始人兼首席技術官Justin Uberti,宣布加入OpenAI,領導其實時AI項目的發展。Uberti堅信,語音交互將成為AI領域的未來趨勢,我們正逐步回歸到一個以對話為主導的社會。
這一決定顯得頗為自然,特別是在OpenAI今年5月發布GPT-4o——一個端到端的語音輸入輸出大模型之后。這一發布讓十年前電影《她》(Her)中的場景逐漸變為現實。低延遲、高智能的AI,憑借其即時回復、永不失聯、全天候情感陪伴以及隨時提供情緒價值的能力,已經超越了簡單生產工具的角色,開始全面融入人們的日常生活。
近年來,AI從“能說話”進化到了“會說話”,能力顯著增強。關于AI的討論不再局限于“AI助手”,而是頻繁出現了“AI男友/女友”的話題,AI陪伴成為了社交應用的重要發展趨勢。根據A16Z 8月份的最新報告,在排名前100的應用中,有16%的產品屬于AI陪伴類產品,且在排名前20的應用中占據了6個席位。
隨著AI陪伴應用市場的廣闊前景和巨大潛力得到市場的廣泛認可,語音交互成為了當下最為關鍵的入口。無論是原生AI應用如星野、Character.AI、筑夢島、Poly.AI,還是國內頭部的泛娛樂應用如TT語音、Soul推出的AI分身、AI寵物、AI伴侶等功能,這些應用雖然在設計上各具特色,但核心都是通過對話作為主要交互方式,為用戶提供情感體驗。
這一趨勢表明,隨著AI陪伴應用市場的不斷發展,用戶對更高質量的語音交互體驗的需求也將愈發強烈。在AI技術引領的時代變革中,如何緊跟用戶不斷變化的需求,提升產品體驗,成為了一個亟待解決的問題。
近日,即構科技發布了一款自研的音頻引擎——Purio AI音頻引擎,為市場提供了一個新的解決方案。該方案通過AI降噪、AI回聲消除和音量均衡三大核心技術,為用戶帶來了純凈、保真、舒適的聽覺體驗。它不僅支持社交應用用戶獲得更好的音質體驗,還能與最新的AI陪伴方案相結合,讓AI陪伴更加逼真。
即構科技發布的Purio AI音頻引擎,正是針對語音成為交互關鍵入口這一趨勢的回應。語音作為人類最自然便捷的溝通方式,無疑是智能時代人機交互的關鍵入口。通過RTC技術的應用,低延時的快速響應使得人與AI的互動更加接近真實。同時,語音識別技術的發展也使得機器能夠識別人的情緒和語調,從而輸出更精準、更智能的回答。
從各大AI廠商的產品發展趨勢來看,語音已經成為不可或缺的一環。例如,自GPT-4o發布以來,端到端實時模態成為了國內外廠商跟進的新方向。國外AI廠商Character.AI推出了通話功能,微軟AI表示年底將擁有實時語音界面;國內豆包在8月宣布大模型已支持實時語音通話新功能,10月份Kimi也發布了語音通話功能。可以預見,語音交互將成為未來對話式模態大模型交互的終極形態。
然而,盡管語音交互對用戶來說已經不再陌生,在智能家居、手機、車載、智能穿戴、機器人等領域已經實現了快速滲透和落地,但在實際應用中,音質問題仍然頻繁出現。例如,在人機互動中,嘈雜環境會明顯降低識別準確率;在會議中,如果任意用戶攜帶明顯噪音上麥,會破壞會議氛圍,影響其他用戶的發言欲望,甚至導致觀眾流失;在K歌應用中,復雜環境也會使人聲音質變得“沉悶渾濁”,甚至出現“漏回聲”、“吞音”等問題,用戶體驗不佳。
因此,如何在復雜環境中為用戶提供“絲滑”的交互體驗,成為了亟待解決的問題。語音互動關鍵技術的創新突破是關鍵一環,重點在于如何在不失真的情況下盡可能地將噪聲去除得更干凈,保證用戶聽得更清晰。即構科技發布的Purio AI音頻引擎,正是通過升級AI降噪算法效果、推出全新的AI回聲消除算法和動態響度均衡算法等核心算法,為用戶帶來了純凈、保真、極致舒適的聽覺體驗。
Purio AI是即構科技專注于音質增強的最新技術成果。自2015年以來,即構科技就開始走上自研音頻引擎的創新之路,不斷推出適合各行業的一鍵接入語音互動解決方案。在2022年,即構科技正式發布AI降噪功能,并在此基礎上不斷優化和升級,形成了今天的Purio AI音頻引擎。
在實際應用中,Purio AI音頻引擎已經取得了顯著的效果。例如,趣丸科技通過即構科技的音頻技術,保障了2億用戶順暢、優質的連麥體驗,并持續為用戶創造新的語音社交玩法。其中,趣丸科技在2022年上線的“在線K歌”玩法,結合即構Purio AI音頻引擎技術,實現了K歌場景效果的顯著突破。
值得注意的是,AI的加入雖然為語音交互帶來了新的可能性,但也帶來了新的挑戰。其中最突出的問題就是模型復雜、性能消耗巨大,給實時場景交付帶來了很大的挑戰。為了解決這一問題,即構科技通過重參數化、參數共享、模型量化等技術手段,實現了低開銷、低延時、高保真的效果。新品Purio AI音頻引擎依然保持了以往超低延遲、輕量化的特性,保證了終端用戶的高可用性。
如今,即構科技的音質增強技術已經廣泛應用于直播、聽歌、社交、電臺等泛娛樂社交應用,以及金融雙錄、在線教育、視頻會議、智能硬件等行業應用中。隨著技術的不斷進步和應用場景的不斷拓展,即構科技將繼續致力于為用戶提供更加優質、便捷的語音交互體驗。