俺来也色官网色老头,国产精品久久无码视频,久久精品亚洲日本佐佐木明希

李秀林，中科院聲學(xué)所博士，10余年語(yǔ)音相關(guān)技術(shù)研發(fā)和相關(guān)的學(xué)術(shù)研究，專利數(shù)30多項(xiàng)，涉及文本處理、韻律預(yù)測(cè)、聲學(xué)模型、拼接系統(tǒng)、模型自適應(yīng)、神經(jīng)網(wǎng)絡(luò)、情感合成等多個(gè)關(guān)鍵領(lǐng)域。曾作為百度語(yǔ)音合成技術(shù)負(fù)責(zé)人帶領(lǐng)團(tuán)隊(duì)折桂百度百萬(wàn)美元最高獎(jiǎng)。現(xiàn)任標(biāo)貝科技聯(lián)合創(chuàng)始人&CTO。

【導(dǎo)讀】近幾年AI人工智能迅猛發(fā)展，語(yǔ)音識(shí)別技術(shù)也逐漸走向成熟，2020年疫情防控更是加速了智能語(yǔ)音交互技術(shù)在多場(chǎng)景落地。致力于智能語(yǔ)音交互和AI數(shù)據(jù)服務(wù)的標(biāo)貝科技近日也完成了語(yǔ)音合成TTS3.0解決方案的升級(jí)迭代，在使用全新的聲學(xué)模型和聲碼器優(yōu)勢(shì)下，深度學(xué)習(xí)端到端系統(tǒng)，可以實(shí)現(xiàn)承載更多的聲音細(xì)節(jié)，顯著提升TTS語(yǔ)音合成穩(wěn)定性及表現(xiàn)力，助力更多場(chǎng)景落地。

語(yǔ)音合成，讓機(jī)器人開口說(shuō)話

語(yǔ)音合成技術(shù)解決的是從文本到語(yǔ)音轉(zhuǎn)換，為服務(wù)機(jī)器人擔(dān)當(dāng)“嘴巴”的角色。為了讓機(jī)器開口說(shuō)話，與人類更進(jìn)一步交流，語(yǔ)音合成的自然度、多語(yǔ)種能力、快速定制能力也就十分重要。

從技術(shù)架構(gòu)來(lái)看，語(yǔ)音合成主要經(jīng)歷了三次大變革。

九十年代初，隨著PSOLA方法的提出和計(jì)算機(jī)能力的發(fā)展，基于大語(yǔ)料庫(kù)的單元挑選與波形拼接合成方法出現(xiàn)，可以合成出高質(zhì)量的自然人語(yǔ)音。法語(yǔ)、德語(yǔ)、英語(yǔ)、日語(yǔ)等語(yǔ)種的文語(yǔ)轉(zhuǎn)換系統(tǒng)相繼研制成功。但波形語(yǔ)音合成法是一種相對(duì)簡(jiǎn)單的 TTS語(yǔ)音技術(shù)，通常只能合成有限詞匯的語(yǔ)音段。

由于波形拼接方法需要的語(yǔ)音語(yǔ)料庫(kù)非常占用資源而且要求設(shè)計(jì)精細(xì)，訓(xùn)練模型的時(shí)間長(zhǎng)，為了解決這個(gè)難題，20世界末，隱馬爾科夫模型（HMM）結(jié)合諧波加噪聲模型一起面世了。這種方法也被看作是最有用的統(tǒng)計(jì)建模方法，靈活度高、庫(kù)小、建構(gòu)時(shí)間也少，非常適合移動(dòng)嵌入式平臺(tái)。

第三個(gè)階段就是利用深度神經(jīng)網(wǎng)絡(luò)了，這是語(yǔ)音合成技術(shù)的一次飛躍式進(jìn)步。深度學(xué)習(xí)的算法可以更好地模擬人聲變化規(guī)律，音色、情感上的改善讓語(yǔ)音合成效果越來(lái)越接近真人水平，使合成的聲音更加自然和個(gè)性。谷歌的 WaveNet、Tacotron，百度的 ClariNet，都是基于深度神經(jīng)網(wǎng)絡(luò)的TTS系統(tǒng)。

標(biāo)貝TTS語(yǔ)音合成技術(shù)，打造更溫暖的聲音

事實(shí)上，也是隨著智能語(yǔ)音音質(zhì)的提升，越來(lái)越多新的場(chǎng)景開始出現(xiàn)對(duì)語(yǔ)音技術(shù)的強(qiáng)烈需求，智能語(yǔ)音市場(chǎng)初現(xiàn)規(guī)模。也正是看準(zhǔn)了這一時(shí)機(jī)，標(biāo)貝科技作為一家專注于做語(yǔ)音技術(shù)的創(chuàng)業(yè)公司，在積累了豐富的語(yǔ)音合成數(shù)據(jù)基礎(chǔ)上，于2018年正式推出語(yǔ)音合成TTS1.0行業(yè)解決方案。

李博士介紹，為了提高語(yǔ)音合成的自然流暢度，標(biāo)貝科技的語(yǔ)音合成技術(shù)在聲學(xué)、韻律上采用了基于Attention機(jī)制的深度神經(jīng)網(wǎng)絡(luò)技術(shù)模型，充分利用文本數(shù)據(jù)，構(gòu)建前端模塊、選擇合適的聲碼器，降低運(yùn)算量，創(chuàng)新語(yǔ)音合成模型，實(shí)現(xiàn)合成的語(yǔ)音發(fā)音自然、清晰、韻律感流暢，讓機(jī)器與人的互動(dòng)顯得更親近。

而隨著市場(chǎng)的發(fā)展，人們對(duì)智能語(yǔ)音技術(shù)有了更高的要求。比如企業(yè)的智能客服需要嗓音輕柔甜美，新聞虛擬主播需要吐字清晰流暢，兒童有聲讀物則需要親切可人等。為了滿足不同客戶群體需求，標(biāo)貝科技在音色和場(chǎng)景豐富度上持續(xù)發(fā)力。基于海量語(yǔ)音數(shù)據(jù)的優(yōu)勢(shì)，標(biāo)貝科技對(duì)音色庫(kù)進(jìn)行充分?jǐn)U容，推出可以支持男女老幼多音色，中文、英文、中英混讀、小語(yǔ)種等多語(yǔ)種的TTS2.0解決方案，可以根據(jù)用戶個(gè)性化需求定制，滿足多場(chǎng)景業(yè)務(wù)需求。

“其實(shí)我們第二版的TTS技術(shù)相對(duì)來(lái)說(shuō)已經(jīng)算是很成熟了，不管市場(chǎng)需求如何變化，我們始終聚焦AI語(yǔ)音的應(yīng)用價(jià)值，在語(yǔ)音合成技術(shù)的基礎(chǔ)上，不斷拓展場(chǎng)景應(yīng)用邊界，打造豐富的技術(shù)產(chǎn)品及方案，構(gòu)建更加完善的業(yè)務(wù)體系。“李博士表示。

“例如，在語(yǔ)音技術(shù)方面，我們打造聲音復(fù)刻、情感合成、聲音轉(zhuǎn)換與AI歌曲等多元化語(yǔ)音技術(shù)服務(wù)。其中，聲音復(fù)刻與情感合成是語(yǔ)音技術(shù)本身的創(chuàng)新應(yīng)用，通過(guò)復(fù)刻聲音和讓聲音更富有情感的表現(xiàn)力，來(lái)挖掘合成語(yǔ)音的個(gè)性化價(jià)值，更好的匹配有聲閱讀、AI教育場(chǎng)景應(yīng)用，而聲音轉(zhuǎn)換和歌曲合成，則是語(yǔ)音技術(shù)延展能力的體現(xiàn)，在虛擬偶像、短視頻方等方面有巨大的市場(chǎng)應(yīng)用空間。“說(shuō)到標(biāo)貝科技語(yǔ)音交互技術(shù)的落地應(yīng)用，李博士很自豪。

”在解決方案上，我們?nèi)峦瞥隽薃I數(shù)字虛擬人、智能客服、智慧媒體等一站式解決方案；在產(chǎn)品方面，推出標(biāo)貝悅讀、恐龍貝克兩大C端產(chǎn)品，從原有的單點(diǎn)語(yǔ)音技術(shù)升級(jí)至語(yǔ)音、圖像、虛擬人等多點(diǎn)技術(shù)融合。“

標(biāo)貝TTS升級(jí)，實(shí)現(xiàn)端到端完美融合

2020年是智能語(yǔ)音交互技術(shù)加速落地的一年。防疫常態(tài)化的要求下，遠(yuǎn)程會(huì)議、在線教育、在線辦公的已成為人們生活中的標(biāo)配，智能語(yǔ)音交互技術(shù)規(guī)模化發(fā)展由此得到了極大的推動(dòng)。為了賦予聲音更豐富的情感表現(xiàn)力和個(gè)性化特點(diǎn)，讓語(yǔ)音合成技術(shù)能夠“恰好”適配到各種非標(biāo)準(zhǔn)化的場(chǎng)景中，在原有的技術(shù)基礎(chǔ)上，標(biāo)貝再一次進(jìn)行“升級(jí)改造”。

“我們這次TTS3.0的迭代采用了全新的聲學(xué)模型和聲碼器，同時(shí)也保持對(duì)TTS2.0舊模型的全部兼容，最大程度地保證無(wú)縫升級(jí)。”李博士強(qiáng)調(diào)。

全新升級(jí)的TTS3.0技術(shù)采用全新的聲學(xué)模型在發(fā)音效果上有了顯著提升，普通人自然講話、刻意帶情緒講話、角色模仿講話等場(chǎng)景下，對(duì)角色和情感表達(dá)的判斷更加準(zhǔn)確，輸出的音質(zhì)穩(wěn)定、清晰、順暢，音色富有表現(xiàn)力；聲碼器則采用GAN結(jié)構(gòu)，可以高效且真實(shí)的還原波形，增加了合成聲音的真實(shí)質(zhì)感。

此外，李博士還介紹到，此次TTS3.0升級(jí)在一些細(xì)節(jié)及專業(yè)領(lǐng)域的發(fā)音上也進(jìn)行了優(yōu)化。“例如，對(duì)多音字的處理，我們基于Mask-based Model神經(jīng)網(wǎng)絡(luò)多音字模型，對(duì)所有多音字進(jìn)行統(tǒng)一建模，提升了語(yǔ)音合成時(shí)多音字發(fā)音的準(zhǔn)確率。在韻律方面，采用多任務(wù)的神經(jīng)網(wǎng)絡(luò)模型，利用韻律間的層次關(guān)系，在同個(gè)模型結(jié)構(gòu)下對(duì)多個(gè)韻律等級(jí)進(jìn)行建模，在朗讀時(shí)高低音、停頓處更加自然流暢。“

如今，標(biāo)貝科技語(yǔ)音合成解決方案已經(jīng)實(shí)現(xiàn)全面支持中文普通話、中文方言、粵語(yǔ)、英語(yǔ)等多種語(yǔ)言。不論是溫柔甜美的女聲，清爽端正的男聲，活波可愛(ài)的童聲，標(biāo)貝科技的語(yǔ)音合成技術(shù)都能快速實(shí)現(xiàn)企業(yè)個(gè)性化需求，打造專屬“聲音”形象。

“需要注意的是，合成一個(gè)理想的聲音的前提是要有足夠多的不同特征的語(yǔ)料，也就是聲音樣本。標(biāo)貝科技以數(shù)據(jù)服務(wù)起家，在這方面擁有顯著優(yōu)勢(shì)。我們擁有400余種音庫(kù)，大量?jī)?yōu)質(zhì)發(fā)音人的資源儲(chǔ)備，比如普通音庫(kù)、明星音庫(kù)以及深受小朋友熱捧的卡通IP音庫(kù)等。用戶可通過(guò) SDK、API 技術(shù)接口隨時(shí)調(diào)取自己中意的語(yǔ)音數(shù)據(jù)進(jìn)行使用，快速搭建自己的語(yǔ)音產(chǎn)品。“說(shuō)到這里，李博士不忘夸一下自家強(qiáng)大的語(yǔ)音數(shù)據(jù)基礎(chǔ)。

打破有聲內(nèi)容生產(chǎn)壁壘強(qiáng)勢(shì)助推有聲場(chǎng)景落地

在最后，李博士還結(jié)合當(dāng)下趨勢(shì)提到了今年標(biāo)貝產(chǎn)品布局的主要方向。“TTS升級(jí)是結(jié)合了我們最新的語(yǔ)音技術(shù)、海量的文本和聲學(xué)數(shù)據(jù)以及大規(guī)模計(jì)算能力，對(duì)語(yǔ)音合成技術(shù)進(jìn)行的一次全面優(yōu)化，讓機(jī)器的聲音情感表現(xiàn)力更加真實(shí)自然，這也是為我們發(fā)力有聲讀物和虛擬人的應(yīng)用場(chǎng)景打下基礎(chǔ)。”

據(jù)中國(guó)新聞出版研究院發(fā)布的2020年第十七次全國(guó)國(guó)民閱讀調(diào)查報(bào)告顯示，成年國(guó)民和未成年人有聲閱讀繼續(xù)較快增長(zhǎng)，成為國(guó)民閱讀新的增長(zhǎng)點(diǎn)，移動(dòng)有聲App平臺(tái)已經(jīng)成為聽書的主流選擇。在碎片化信息時(shí)代，有聲讀物越來(lái)越受到更多人的青睞。在此背景下，有聲書、音頻已成為出版業(yè)數(shù)字化轉(zhuǎn)型的重要發(fā)展方向。

“其實(shí)去年我們推出的情感合成技術(shù)已經(jīng)在有聲閱讀場(chǎng)景得到落地應(yīng)用，例如面向兒童有聲內(nèi)容市場(chǎng)的恐龍貝殼App ，一經(jīng)推出就引發(fā)熱烈反響。今年，我們將繼續(xù)發(fā)力有聲讀物市場(chǎng)，借助于標(biāo)貝科技更具表現(xiàn)力以及個(gè)性化的語(yǔ)音合成技術(shù)，細(xì)化有聲讀物場(chǎng)景，給有聲閱讀市場(chǎng)提供更多個(gè)性化玩法，滿足現(xiàn)代人求新的需求，提升用戶對(duì)有聲閱讀 App 專屬聲音的 “粘性”。“李博士表示，“近期，我們的TTS3.0就將上線到標(biāo)貝官網(wǎng)，對(duì)外提供升級(jí)的TTS服務(wù)，需要的客戶可以多關(guān)注一下標(biāo)貝官網(wǎng)動(dòng)態(tài)。”

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

標(biāo)貝科技CTO李秀林：標(biāo)貝語(yǔ)音合成技術(shù)升級(jí)，賦予AI語(yǔ)音更強(qiáng)表現(xiàn)力

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

每日養(yǎng)生app2018-06-03

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03