【ITBEAR】8月9日消息,火山引擎今日宣布,正式推出其對話式 AI 實時交互解決方案,該方案依托于火山方舟大模型服務平臺。這一創新技術方案的發布,標志著字節跳動在AI實時交互領域邁出了重要一步。
據悉,該解決方案利用火山引擎的RTC技術,實現了語音數據的采集、處理和傳輸,并深度融合了豆包?語音識別模型與豆包?語音合成模型,極大簡化了語音與文本之間的轉換流程。這一整合不僅提供了智能對話能力,還賦予了應用自然語言處理的能力,使得用戶能夠與云端的大模型進行實時語音通話,體驗前所未有的交互便捷。
據ITBEAR了解,火山引擎的對話式 AI 實時交互解決方案設計注重易用性,用戶只需調用標準的OpenAPI接口,即可輕松配置所需的語音識別(ASR)、大語音模型(LLM)、語音合成(TTS)的類型和參數,無需復雜設置。而火山引擎的AIGC RTC-Server則負責邊緣用戶的接入、云端資源的調度、文本與語音的轉換處理以及數據的訂閱傳輸,確保服務的高效運行。
該技術方案擁有三大顯著優勢:首先,它支持隨時打斷和直接插話,增強了交互的自然流暢性;其次,不受AI服務部署區域的限制,整體響應延時能夠低至1秒,確保了實時交互的體驗;最后,客戶端提供的音頻幀級別語音活動性檢測(VAD),能夠精準識別音頻信號中的人聲與靜默狀態,進一步優化了交互質量。
以下是火山引擎對話式 AI 實時交互的Demo展示: