編輯:張倩
類 ChatGPT 模型的輸入框里可以粘貼語音文檔了。
大型語言模型(LLM)正在改變每個行業的用戶期望。然而,建立以人類語音為中心的生成式AI/ target=_blank class=infotextkey>人工智能產品仍然很困難,因為音頻文件對大型語言模型構成了挑戰。
將 LLM 應用于音頻文件的一個關鍵挑戰是,LLM 受其上下文窗口的限制。在一個音頻文件能夠被送入 LLM 之前,它需要被轉換成文本。音頻文件越長,繞過 LLM 的上下文窗口限制的工程挑戰就越大。但工作場景中,我們往往需要 LLM 幫我們處理非常長的語音文件,比如從一段幾個小時的會議錄音中抽取核心內容、從一段訪談中找到某個問題的答案……
最近,語音識別 AI 公司 AssemblyAI 推出了一個名為 LeMUR 的新模型。就像 ChatGPT 處理幾十頁的 PDF 文本一樣,LeMUR 可以將長達 10 小時的錄音進行轉錄、處理,然后幫用戶總結語音中的核心內容,并回答用戶輸入的問題。
試用地址:https://www.assemblyai.com/playground/v2/source
LeMUR 是 Leveraging Large Language Models to Understand Recognized Speech(利用大型語言模型來理解識別的語音)的縮寫,是將強大的 LLM 應用于轉錄的語音的新框架。只需一行代碼(通過 AssemblyAI 的 Python/ target=_blank class=infotextkey>Python SDK),LeMUR 就能快速處理長達 10 小時的音頻內容的轉錄,有效地將其轉化為約 15 萬個 token。相比之下,現成的、普通的 LLM 只能在其上下文窗口的限制范圍內容納最多 8K 或約 45 分鐘的轉錄音頻。
為了降低將 LLM 應用于轉錄音頻文件的復雜性,LeMUR 的 pipeline 主要包含智能分割、一個快速矢量數據庫和若干推理步驟(如思維鏈提示和自我評估),如下圖所示:
圖 1:LeMUR 的架構使用戶能夠通過一個 API 調用將長的和 / 或多個音頻轉錄文件發送到 LLM 中。
未來,LeMUR 有望在客服等領域得到廣泛應用。
LeMUR 解鎖了一些驚人的新可能性,在幾年前,我認為這些都是不可能的。它能夠毫不費力地提取有價值的見解,如確定最佳行動,辨別銷售、預約或呼叫目的等呼叫結果,感覺真的很神奇。—— 電話跟蹤和分析服務技術公司 CallRail 首席產品官 Ryan Johnson
LeMUR 解鎖了什么可能性?
將 LLM 應用于多個音頻文本
LeMUR 能夠讓用戶一次性獲得 LLM 對多個音頻文件的處理反饋,以及長達 10 小時的語音轉錄結果,轉化后的文本 token 長度可達 150K 。
可靠、安全的輸出
由于 LeMUR 包含安全措施和內容過濾器,它將為用戶提供來自 LLM 的回應,這些回應不太可能產生有害或有偏見的語言。
可補充上下文
在推理時,它允許加入額外的上下文信息,LLM 可以利用這些額外信息在生成輸出時提供個性化和更準確的結果。
模塊化、快速集成
LeMUR 始終以可處理的 JSON 形式返回結構化數據。用戶可以進一步定制 LeMUR 的輸出格式,以確保 LLM 給出的響應是他們下一塊業務邏輯所期望的格式(例如將回答轉化為布爾值)。在這一流程中,用戶不再需要編寫特定的代碼來處理 LLM 的輸出結果。
試用結果
根據 AssemblyAI 提供的測試鏈接,機器之心對 LeMUR 進行了測試。
LeMUR 的界面支持兩種文件輸入方式:上傳音視頻文件或粘貼網頁鏈接均可。
我們用 Hinton 近期的一份訪談資料作為輸入,測試 LeMUR 的性能。
上傳之后,系統提示我們要等一段時間,因為它要先把語音轉成文字。
轉錄之后的界面如下:
在頁面右側,我們可以要求 LeMUR 總結采訪內容或回答問題。LeMUR 基本可以輕松地完成任務:
如果要處理的語音是一段演講或客服回復,你還能向 LeMUR 征求改進建議。
不過,LeMUR 似乎目前還不支持中文。感興趣的讀者可以去嘗試一下。