【ITBEAR】近日,RTE2024第十屆實時互聯網大會于北京盛大召開,本次大會由聲網與RTE開發者社區聯合舉辦。在備受矚目的“重塑語音交互:音頻技術和Voice AI”技術專場上,標貝科技聯合創始人兼CTO李秀林博士發表了題為《語音合成大模型與高質量數據》的演講,深入探討了語音合成技術的最新進展。
李秀林博士首先回顧了語音合成技術的發展歷程,指出隨著大模型時代的來臨,用戶對于合成聲音的需求已趨向個性化和情感化。他提到,如今的語音合成技術已能在音質、斷句、韻律等多方面實現高度自然與真實的表達,這得益于大模型技術的深度應用。
標貝科技作為智能語音領域的佼佼者,緊跟技術潮流,推出了自家的語音合成大模型。該模型僅需極短的樣音即可生成自然且個性化的合成聲音,同時保留了樣音中的情感特征,為用戶提供了更為貼心的語音交互體驗。
李博士還強調了高質量數據在語音合成大模型訓練中的重要性。他表示,標貝科技擁有豐富的多模態數據資源和精標數據能力,為模型訓練提供了堅實的基礎。通過大規模、多樣化的數據集訓練,標貝科技的語音合成大模型得以在多個語種和風格上實現出色的表現。
目前,標貝科技已建立起涵蓋40余種語種及方言的高標準合成數據庫,滿足不同年齡段、風格和情感的需求。這些豐富的數據資源為語音合成技術的進一步發展和創新提供了有力支撐。
通過李秀林博士的深入解讀,與會者對語音合成大模型及其背后的高質量數據支撐有了更為全面的了解。標貝科技在智能語音領域的持續創新和應用實踐,無疑為行業的未來發展注入了新的活力。