毫無疑問,基于AI的合成語音正在包圍我們的生活——銀行、快遞、運營商等服務熱線十個有九個是AI;幾乎所有的智能電器都為你精心挑選了御姐音和清朗男音的智能語音包;打開地圖導航APP,數十個明星將“親自”為你指路……
但在有聲小說、影視配音、虛擬主播等場景,笨拙且毫無感情的合成音色難以增強文本生動性和感染力,難以為用戶營造沉浸式的聽覺體驗;而伴隨大模型時代的到來,更自然、更智能的人機交互正在發生,人們越來越需要機器給予“情感”回饋,更富表現力、更具情感色彩的合成音色正成為新的期待。
云知聲深耕AI語音交互領域多年,推出包括音庫定制、聲音克隆等多種TTS解決方案。近日,云知聲TTS再上新,拓展9個全新音色,更實現了接近真人表達的十余種情感風格,能夠滿足虛擬人、人機對話、有聲讀物、短視頻制作、電話客服等多種場景需求。
為聲音注入情感,語音真實感全面升級
云知聲情感合成音色支持開心、生氣、難過、害怕、厭惡、吃驚等十余種情感,在情緒表達、風格拓展、音色效果等方面實現新突破,充分滿足用戶的個性化需求。
多情緒多風格
無論你想要喜怒哀樂,還是正式、悠閑、親切的口吻,云知聲情感合成都能完美契合,可適用于不同情境下的不同語意表達。
音色效果自然流暢
無論是語句的起伏、停頓,還是語調的適時轉換,云知聲情感合成都幾近真人,帶給用戶的不再是機械冰冷的聲音,而是更流暢舒適、更具人性關懷的聽覺體驗。
音色可定制化
無論你是希望擁有特定人物的聲音,例如名人、明星,還是具備特定特征的聲音,如男性、女性、老人、少年,亦或者是想要特定情境的聲音,如客服場景、有聲閱讀甚至是rap,云知聲情感合成都能夠滿足你的需求。
以聲傳情,云知聲是如何做到的?
如何讓聲音富有情感和表現力,一直是語音合成技術的一大難點——首先,生成富有情緒的語音合成需要大量的情感合成數據作為訓練樣本,而此類數據的獲取又相對困難;再者,情感通常和語境緊密相連,不同語境下,同一段話所表達的情感可能完全不同,所以即使有了大量的情感合成數據,也并不能保證合成語音的穩定性。
云知聲給出的解決方案是,基于超大規模數據訓練得到端到端聲學模型和神經網絡聲碼器等基礎模型,然后再通過小規模的情感數據進行自適應訓練,在自適應訓練階段,加入情感表征和說話人表征——加入情感表征是為了讓機器生成的聲音更具有表現力;而引入說話人表征則是為了讓機器生成的聲音更具個性,使得聽起來像是由具體的某一個人發出的。這樣做的目的,就是為了保證在讓機器生成的聲音擁有情感的同時,還能保持聲音的穩定性和連貫性。
如此一來,在給定一段文本,同時指定一個情感標簽或說話人標簽后,機器就能夠生成帶有相應情感色彩的語音。舉個例子,當我們指定了"高興"的情感標簽和"年輕女性"的說話人標簽,那么機器就能自動生成一段由一個高興的年輕女性說出的語句。