闡述各類配音問題,以及“聲音混血”的應用、技術和未來想象空間。
配音問題困擾了很多人,用戶主要有一些這樣的困擾:
1、聲音不好聽。
2、普通話不標準。
3、沒有專業的錄音設備和安靜的錄音環境 。
4、找真人配音太貴了。
5、自己配音太麻煩了,還花費時間。
為解決以上這些配音困擾,可以選擇使用軟件配音,讓不同的AI配音員竭誠為你服務。比如人工智能公司出門問問推出AI配音神器——魔音工坊,目前擁有上百種音色可供選擇。女主播里,既有御姐,也有蘿莉,更有甜美可愛的,也有情感電臺風的。男主播里,既有類似毒舌風格的解說員,也有磁性渾厚的,更有支持多種風格的「百變艦長」。
不過對配音而言,目前一個大的場景是段視頻配音,除了聲音好聽,其實還有一個需求是聲音能做到個性化,也就是不雷同,有獨家特色。為了解決這個問題,魔音工坊也推出了面向用戶的聲音定制服務。需要合作的自媒體人,既可以選擇克隆自己或者朋友的聲音,也可以讓魔音工坊去幫忙尋找主播。
其中,有一些用戶,自身的聲音不算太好聽或不標準,很自然地會產生“能不能幫我給聲音一鍵美顏?”的需求和想法。也就是說,為自己的聲音進行一層“濾鏡美顏”,在自身聲音的基礎上,讓用戶的聲音更專業一些,聽著舒服一些,但依然可聽出來是自己的聲音。
聲音「一鍵美顏」的AI技術原理
我們知道,聲音的音色是和人的發音器官相關的,而聲音的節奏和韻律等,則是可以后天習得的。讀個播音專業,或者是業余參加個配音培訓班,都可以改進自己的聲音品質。那么,AI技術是否可以幫用戶做到「一鍵美顏」呢?答案是顯然的,這個技術就是說話人轉換,魔音工坊里,產品功能叫做「聲音轉換」。
說話人轉換(屬于voice conversion技術的一小類),它的功能是把A的說話風格(節奏和韻律等)遷移到B上。轉換后的聲音,會有B的音色,并擁有A的節奏和韻律等信息。我們嘗試給這個功能取了幾個不同的名字,大家也可以稱之為聲音的「移花接木」,「鸚鵡學舌」功能,聽名字可能就會「顧名思義」一番,聯想到它的功能。
這個功能得益于出門問問的MeetVC技術。同時采用出門問問自研語音識別技術(wenet等),去除發音人音色信息,得到與音色無關的內容信息,經過encoder-decoder(編碼-解碼)變聲模型訓練,從而獲取目標發音人的音色信息,最終經過聲碼器得到語音。原理框架圖如下所示:
打造DIY的“聲音混血”神器
有了聲音轉換之后,魔音工坊做了幾個事情:
1,給魔音工坊自研的一些聲音,開發了一些“混血模型”。比如魔音平臺最火的男聲叫做魔天輪,最火的女聲是魔伊莉,我們就會訓練兩個模型,蔣魔伊莉的節奏嫁接到魔天輪上,讓魔天輪保持磁性的音色的同時,也有魔伊莉獨有的柔情節奏。
2,面向用戶提供“聲音混血”服務。如果某位用戶的音色不錯,只是播音基礎不太好,讀起來沒有很好的節奏。這時候,我們可以讓他進棚錄制一定的數據,然后魔音訓練他的模型,并讓用戶選擇一位他喜歡的主播,從而幫他訓練一個混血模型,嫁接某個AI主播專業的節奏感和韻律給他,從而讓他的AI聲音聽起來更舒服,卻聽著像他。
我們都知道,顏值經濟早已經到來。人們未來變得好看,購買各種化妝品、保養、美容,大家都愿意為美付費。而聲音和視覺一樣,都有著天然的魅力。人們喜歡看好看的帥哥美女,也喜歡聽好聽的聲音。如果某個人擁有驚人的外貌,卻天生一把公鴨子嗓,不免會讓人心生感嘆。因此,我們認為,未來,聲音的美容也會成為愛美人士的新需求。如果希望天然的,那就是接受聲音的培訓,就如同音樂苗子經過培訓成長為專業歌手,不好聽的聲音,經過配音,也會變得更加悅耳。
對于直播、短視頻、有聲書里的聲音,則未來借助技術,如何有效低成本地美化聲音,將成為趨勢。而說話人轉換技術,以及在聲音克隆時提供的聲音混血服務,必將逐漸流行。正如美容需要參照高顏值明顯的五官比例,聲音混血則需要采樣聲音好聽(專業的一般比較好聽,但是非專業也可能好聽)的主播的說話風格和節奏。魔音工坊正在和各路好聲音合作(包括知名支持人、主播、配音演員等),構建業界領先的聲音商店,從而學習到好聲音的各種知識,為更好地提供聲音混血服務提供優質樣本。
歡迎有獨特配音需求的自媒體從業者,有聲書主播和魔音工坊合作,通過克隆自己的好聲音,或者開發定制美化版本的聲音,來提高內容制作過程中的配音效率,為繁榮中國的有聲內容添磚加瓦。