說到語音合成,大家都不陌生。從語音導航到智能客服,從智能手機到智能家居,基于AI的合成語音無處不在。特別是今年以來,以GPT大模型為代表的AIGC技術迅猛發展,AI語音生成作為其中的重要一環,正受到越來越多人的關注和探索。
語音合成 (Text-to-speech, TTS) 是將文本轉換為自然語音,服務于人機智能語音交互場景的核心技術。過去十年,通過神經網絡和端到端建模技術的發展,語音合成技術也取得了巨大突破,自然度和音質得到了極大提升。
伴隨大模型時代的到來,引發了新一輪的AI革命浪潮,更自然、更智能的人機交互逐漸進入到我們的生活中。人們越來越需要機器給予“情感”回饋,越來越多的企業開始致力于追求語音合成在情感、韻律、高保真等方面的高表現力。
標貝科技深耕AI語音交互領域多年,致力于語音交互技術的創新研發和商業化應用,推出高品質通用語音方案和特色語音定制服務,能夠滿足虛擬人、有聲閱讀、短視頻、智能客服等多種場景需求。
為了賦予聲音更多的情感表現力和個性化風格,標貝科技依托于先進的深度學習技術和多情感風格大語言模型,在情感生成、風格拓展等方面的取得重要突破,實現了合成效果的全面提升,讓新一代語音合成系統4.0適配到各種標準化和個性化場景中。最終的合成音色保真度更高,情感更真實豐富,合成效率更快更穩定,有效提升用戶對生成聲音的“粘性”。
TTS4.0全面升級 打造極致聲音體驗
●支持多情感、歌聲合成
標貝科技TTS4.0基于成熟的深度神經網絡技術及全新的高音質合成系統,可提供商業級情感合成以及歌聲合成方案。
情感合成支持超過20余種情緒和風格的音色表達,同時我們還引入細粒度控制能力,通過對情感強弱、語速、停頓,音量等關鍵音色屬性的控制調節,使得合成的情感聲音更具表現力,適應不同情境下的語意表達。
歌曲合成方案支持用戶自由填詞,然后選擇合適的音色,利用成熟的AI歌唱合成技術實現歌曲合成。用戶一鍵即可體驗短視頻填詞成曲的玩梗樂趣,適用于短視頻、廣告配音等各種泛娛樂場景。
●合成效果更優
標貝科技TTS4.0采用全新的深度神經網絡的聲學模型架構和聲碼器結構,與上一代語音技術相比,聲音質量再創新高,MOS得分可以達到4.5以上,主要體現在發音更準確、韻律更自然、高保真效果更完美。
●合成效率更快更穩定
通過算法和模型優化,標貝科技TTS4.0對于硬件算力的要求更低,可以大大縮短訓練時間,提高合成效率。據介紹,首包合成時間提升至少50%,實現更快的響應速度。在語音聊天、語音助手等實時應用場景下,給帶來用戶更加流暢的交互體驗。
此外,標貝科技面向私部署場景下提供了不同類型的高可用部署方案。既支持少量服務器的輕量級多機高可用,也支持實現彈性擴容的大規模容器集群的部署。讓應用程序開發和部署變得更加簡單和可靠,確保語音合成系統平穩順滑。
●功能更豐富
(1)長文本、短文本支持流式合成:用戶輸入文本的同時,可以逐段生成并輸出相應的語音數據,讓用戶實時聽到合成內容。例如在實時交互的虛擬人場景下,需要虛擬人對用戶指令快速做出應答,否則會消耗用戶的耐心、降低用戶體驗。此時就需要流式語音合成系統,在保障合成質量的同時提高響應速度。
(2)更多類型時間戳:標貝科技TTS4.0支持字級別、音素級別和句子級別等不同顆粒度的時間戳輸出,滿足多場景展示和口型呈現需求,給用戶帶來更便捷的畫音同步體驗。
多層級音色定制,適應不同業務場景需求
基于成熟的語音合成技術,標貝科技上線了上百種覆蓋不同語言和場景的可商用音色,支持西語、韓語、日語、英語、美語、維語、東北話、粵語等多語言,影視配音、賽事解說、直播帶貨、自然對話、老年人等多風格的場景音色,快速匹配各業務場景需求。
為進一步拓寬語音使用場景,滿足各行業客戶的多元化需求,標貝科技也在不斷探索新的服務和能力。在產品日益同質化的當下,標貝科技提供一站式TTS音色定制服務,包括普通聲音復刻、精品聲音復刻、標準化音色定制等方案,為企業打打造專屬IP音色,實現品牌價值的最大化。
●普通聲音復刻
僅需5分鐘音頻數據,無需開發人員,機器自動進行音頻標注,對聲音進行快速的模型訓練,即可實現與真人語氣音調基本接近的合成音色。
●精品聲音復刻
基于30-60分鐘的音頻數據,提取說話人的音色和發音特征,然后人工對標注結果進行檢測。經過2-3天的模型訓練及效果調優,實現客戶個性化的情感音色定制。適用于虛擬數字人音色定制場景,賦予數字人更加鮮明的人格化魅力。
●標準音色定制
專業錄音棚采集不少于4小時的高質量語音數據,并通過人工進行專業的聲學層面的精細化標注,2-3周的優化定制,生成高度還原發音人聲音的情感合成音色,滿足不同層面客戶的定制需求。
實際上,在智能語音產業中,AI語音定制的能力始終被報以高度期待。音色,是每個人獨有的聲音特色,也是機器人表達情感、對外溝通不可或缺的部分。強大的音色定制能力能夠賦予機器人擁有媲美真人的聲音屬性,個體形象更為鮮活。
然而,當前市場上傳統人工合成音色定制服務通常流程較為復雜,高昂的定制成本與定制周期,遠遠無法滿足高頻應用的需求。
標貝科技TTS4.0支持聲音自選或提供語料定制,提供全鏈路深度語音合成定制服務,讓AI語音定制不再需耗費過多時間和資源,滿足不同層面企業用戶的個性化需求,以更普惠的方式賦能千行百業。同時,標貝科技不忘支持國家信創產業發展,當前,語音合成系列產品已經完成全棧的國產化ARM服務器適配。
專注AI語音技術探索 引領行業變革
在AIGC蓬勃發展的關鍵時期,語音合成扮演著不可或缺的重要角色,賦能機器的語言更逼真、自然、流暢,全面提升用戶體驗。
成立多年來,標貝科技始終將技術引領作為發展第一要位,專注于產品的研發與創新。如今,標貝科技正利用全新推出的多情感、多風格、多語種的語音合成技術助力各領域企業快速擁有更具競爭力的語音產品,為用戶創造更加逼真、個性化的語音體驗。
目前,標貝科技TTS產品已覆蓋智能客服、語音交互、有聲閱讀、導航播報等眾多應用場景,并助力中國銀行、人民日報、湖南電信、恒生電子等多家行業頭部企業實現AI語音能力的應用與拓展。未來,隨著語音技術的進一步迭代發展,標貝科技將持續釋放自己的勢能,引領行業變革。