隨著社會進步和技術創新的日益加快,“黑科技”的產業運用持續加速,對人們生活的影響與改變也不斷加深。
近期,業內領先的搜狗AI語音合成再突破,創新提出“StyleTTS端到端合成框架”,將語音合成技術再次向前推進一步,在準確傳遞信息之外,更重視個性化及情感表達,讓合成的語音更具表現力,更“逼真”。搜狗聯合搜狐新聞客戶端于5月推出的演員柳巖同款明星“數字人”就是基于該技術的支持,實現了無縫切換河南、湖南、四川、陜西、東北等多種方言的能力。目前,該技術也為騰訊QQ瀏覽器“小說AI聽書”功能提供支持,助力其實現了聽書、聽小說的全新升級。
搜狗語音AI業內領先,幫助“聽見”更好世界
作為機器的“嘴巴”,語音合成已經被廣泛應用于新聞播報、小說閱讀、地圖導航、人機交互等諸多場景中。從2010年以前經典的統計機器學習方法,到DNN/LSTM為代表的深度神經網絡,再到Tacotron/FastSpeech/Durian等具有更強建模能力的端到端模型,結合神經聲碼器的突破,語音合成技術的發展正在從“穩定可懂”迭代到“更高表現力和逼真度,甚至媲美真人錄音的水平”。
搜狗AI語音合成有著雄厚的技術積累,2018年曾獲得Blizzard Challenge語音合成挑戰賽停頓和可懂兩項子任務第一名,2019年推出首個真人變聲功能實現“任意說話人聲音(源)向指定說話人聲音(目標)的實時變換”,展現了搜狗在語音表征學習、語音合成等領域的多個關鍵性技術突破。此外,以新華社AI合成主播“新小浩”和自有形象合成主播“雅妮”為代表的搜狗數字人也已升級至“第七代”,這些AI數字人的聲音真實度、表現力已可媲美真人,展現了在多模態合成領域的行業領先性。
在此基礎上,搜狗又提出了StyleTTS端到端合成框架,該框架主要包含Encoder文本特征編碼、Prosody Extractor/Predictor韻律特征編碼與建模、Decoder音色建模三大模塊,通過不同人(聲)的韻律模型和音色模型重組搭配,能夠實現跨發音人的風格控制合成,并擁有抑揚頓挫的韻律節奏和豐富立體的情感表達。此外,模型還加入說話人特征編碼、語種特征編碼以及GAN對抗學習等經典方法,進一步提升建模能力。相較而言,傳統語音合成技術的重點在于“信息的正確傳遞”,而搜狗AI語音合成技術除了正確傳遞信息,更重視個性化與情感共鳴,合成效果也具有更高的自然度、辨識度,同時還能實現對語音轉換的風格、口音、情感等進行靈活選擇與控制,從而滿足不同場景的需求。
(圖:搜狗StyleTTS結構圖)
以對騰訊QQ瀏覽器“AI聽書”的支持為例,區別于其他機器合成聲音的機械式發音,搜狗AI合成語音節奏更分明、情緒更自然,能夠更好的解放雙眼,而除了堪比真人的高保真音色,支持“方言語音”、“動漫語音”等的選擇,在讀書過程中,用戶還可以根據場景和心情進行播單設置、語速調節等個性化操作,這些都能夠提供更好的使用體驗,幫助用戶“聽見”更好的世界。
聲音+產業構建,前瞻“布局”未來生活
“聲音+”市場呈爆發式增長,已步入千億量級市場。數據顯示,在閱讀領域,“看”已不是閱讀的唯一方式,十個人當中就超過兩個人在聽書;在音頻領域,有聲書實現了從貢獻流量到商業變現的路徑打通,正在成長為喜馬拉雅FM等各大音頻平臺的支撐或主流業務;在智能硬件領域,僅智能音箱一項,未來五年銷量將突破3億臺超過PC規模……未來10 年,“聲音+”整合產業規模將達到萬億美金級別。
隨著智能社會的到來,聲音作為最自然、最便利的人機交互方式,上接互聯網、下接物聯網、中間連接人工智能,既是出口也是入口,而作為“聲音+”產業的基礎設施之一,語音合成孕育著一個巨大的藍海市場。
對此,搜狗已經進行前瞻性布局和產業化落地。在AI語音合成技術方面,圍繞“自然交互+知識計算”這一AI理念,搜狗不斷加大投入構建技術“護城河”,持續累積領先優勢;在創新性平臺方面,搜狗打造了“搜狗聲咖”、“搜狗AI開放平臺”等,基于語音技術提供語音識別、語音合成、語義理解、同聲傳譯等AI服務;在產業落地方面,搜狗不僅積極推動與清華天工研究院等學術機構,與暢游、千龍網、學而思等商業機構,乃至于與黃子韜、梁寧等明星和意見領袖等的合作,運用了搜狗語音技術的搜狗AI合成主播也被廣泛使用于傳媒、法律、金融等各行各業。
隨著時代發展與科技進步,智能語音將會變得越來越普及,得益于搜狗領先的人工智能技術,以及在語言領域、聲音領域的強大積累,搜狗語音能夠提供一整套科學、高效的“AI語音解決方案”,為人賦能,幫助人們更好的進行“有聲創作”、幫助各種機構更好的提供“有聲服務”,從根本上推動“聲音產業”和“人工智能產業”的發展,從這個意義上來說,其未來發展具有廣闊的空間。