隨著人工智能技術的成熟,人機交互已經滲透到生活的方方面面。其中,語音是最常見的交互方式。對于機器的聲音輸出而言,主要包括兩種方法:一種是事先錄制好音頻,然后根據用戶指令,播放音頻,以有聲閱讀、影視配音為主;另外一種則是通過語音合成技術,將文本轉化為語音,以智能客服、智能設備交互為主。
在大多數情況下,錄制好的音頻經過人為加工,對發音、語速、音量、情感等細節進行調整,整體效果優于直接通過語音合成轉化的情況。
但是,由于音頻剪輯工作量大難以保證效率,而且是提前錄制好內容,如果內容有變還需要重新錄制,靈活性較差。而動態輸出、按需定制正是語音合成的強大之處。那么,如何讓語音合成擁有音頻剪輯的效果,如何讓合成后的音色更具有生動的表現力呢?
近日,標貝科技上線SSML標記語言能力,通過SSML標簽創造自然、高質量的音色效果,實現內容的生動化表達,能夠讓合成音色的情感表現力更加細膩可控。
SSML,讓語音合成更精準自然
SSML,即語音合成標記語言,是一種基于XML的標記語言。與純文本相比,它的主要功能是為語音合成用戶提供一種標準方法,開發者可利用其控制合成語音的輸出特性,為最終合成效果帶來更多變化,以匹配更自然和場景化的說話方式。
標貝科技提供的SSML標記語言不僅能在音色、語速、音調、音量、文件類型、采樣率、添加背景音樂等方面進行自由調節,還支持停頓時間、自定義文本結構、詞組分詞、讀音更改、添加提示音、選擇制定場景讀法等個性化功能,適用于聊天機器人、有聲讀物、影視配音、游戲對話等多個場景。
常用標簽包括:
<prosody> —— 控制音量、音高和語速
<lang> —— 表明短語或單詞所屬的語言
<break>——停頓時間
<s>——自定義文本結構
<sub>——別名
<w>——詞組分詞
<phoneme>——讀音更改
<soundEvent>——添加提示音
<say-as>——選擇指定場景讀法
例如,對于一串郵編“100192”來說,正確的情景下,應該是一個數字、一個數字的發音,但是基于純文本的TTS下,無法區分這是郵編還是代表數量的數字,有可能會讀成 “十萬零一百九十二”或者 “一、零、零、一、九、二”。
標貝科技語音合成能力在SSML的加持下,可以讓開發者在文字中添加語境,進一步對音高、語速、重音、停頓、音量和發音進行編程,以便系統能夠充分理解上下文,輸出符合語境的語音內容,對于上文的這串號碼到底是讀成數量還是純數字就很容易區分了。同時,沒有任何編程或SSML標簽經驗的開發者也可以通過標貝開放平臺使用這一功能。
定制化語音合成,滿足更多場景需求
近兩年,在疫情影響以及產業數字化需求拉動下,我國智能語音市場規模持續擴張,據中國語音產業聯盟發布《2020-2021中國智能語音產業發展白皮書》顯示,預計2021年市場規模達到285億元,同比增速達到44%。市場上的智能語音產品層出不窮,對于語音合成的需求也越來越多樣化。
作為行業領先的智能語音交互與AI數據服務提供商,標貝科技致力于智能語音技術的創新研發和商業化應用,已經推出多音色、多語種、多場景的在線、離線語音合成服務,憑借自然流暢的韻律、豐富的音色層次感和多維情感表現力等優勢,充分滿足企業和個人用戶多樣化聲音生產需求。
隨著市場對更仿真、更悅耳的聲音需求,標貝科技基于核心的深度神經網絡技術模型,創新打造了情感合成、聲音轉換、聲音復刻等個性化聲音定制方案,幫助加速語音產品的落地。
例如,針對智能客服場景,標貝科技推出智能外呼方案,為客戶提供實時語音導航、自動外呼、銷售輔助等服務,有效提升客服坐席人員的工作效率與服務質量。在融媒體領域,標貝科技推出新媒體音視頻解決方案,完成新聞男、女音色及語音合成技術研發,并在人民日報客戶端和小程序FM端成功上線應用。在AI教育層面,標貝科技運用聲音復刻技術助力中國銀行在手機銀行APP“中銀樂知”教育專區上線親子陪伴產品“BOBO留聲機”,打造智能化的兒童成長服務體驗。
此次標貝科技SSML標記語言功能的上線,不僅能夠快速實現通用情況下的文字到音頻的轉換,同時針對情感多變、晦澀難懂的長文本,也能智能、精準的完成轉化,進一步優化用戶體驗,將助力開發者實現更多個性化語音方案的落地。