近日,國際AI頂尖學(xué)術(shù)會議ACL 2021(Annual Meeting of the Association for Computational Linguistics)公布了論文錄用結(jié)果。網(wǎng)易伏羲共有三項研究被本屆ACL收錄,內(nèi)容包括自然語言生成、無監(jiān)督文本表示學(xué)習(xí)等方向,相關(guān)技術(shù)已應(yīng)用于游戲、文創(chuàng)及智慧文旅等行業(yè)。
ACL由國際計算語學(xué)協(xié)會主辦,是自然語言處理(NLP)與計算語言學(xué)領(lǐng)域最高級別的學(xué)術(shù)會議,被中國計算機(jī)學(xué)會(CCF)列為A類國際學(xué)術(shù)會議,涵蓋語言分析、信息抽取、機(jī)器翻譯與自動問答等各個領(lǐng)域。本屆ACL共收到3350篇論文投稿,其中主會論文錄用率為21.3%。
(AI頂會ACL 2021放榜,網(wǎng)易伏羲三篇論文入選)
除三篇收錄論文外,網(wǎng)易伏羲提交的一篇演示論文(Demo Paper)也引發(fā)了評審高度關(guān)注。該論文主要探討手游《遇見逆水寒》中所采用的“大宋傀儡戲”玩法。
傀儡戲起源于漢代,又名木偶戲。游戲中,AI就像傀儡,而玩家則是提線操控的“傀儡師”。根據(jù)玩家輸入的語句,AI能自動編寫故事,與玩家共創(chuàng)劇本。
據(jù)了解,“大宋傀儡戲”玩法是中文領(lǐng)域首個采用大規(guī)模預(yù)訓(xùn)練語言模型的開放域文字游戲,融入了網(wǎng)易伏羲的多項算法創(chuàng)新。一方面,網(wǎng)易伏羲通過設(shè)置劇情目標(biāo)、任務(wù)獎勵等玩法創(chuàng)新方式,規(guī)避了游戲中濫用AI編劇的情況發(fā)生;另一方面,通過在模型壓縮、推理加速等多個環(huán)節(jié)進(jìn)行創(chuàng)新,線上服務(wù)的成本也得以有效降低。目前,網(wǎng)易伏羲正在利用更大規(guī)模的預(yù)訓(xùn)練語言模型,持續(xù)優(yōu)化該玩法,為玩家?guī)ジ玫捏w驗。
(紫色對話框為網(wǎng)易伏羲AI自動撰寫)
以下為ACL 2021網(wǎng)易伏羲錄用文章介紹:
1、《OpenMEVA:一個評估開放式故事生成指標(biāo)的基準(zhǔn)數(shù)據(jù)集》
(OpenMEVA: A Benchmark for Evaluating Open-ended Story Generation Metrics)
在自然語言生成(NLG)領(lǐng)域,如何盡量客觀、準(zhǔn)確地評價AI自動生成的文本質(zhì)量,是一大行業(yè)難題。
目前,主要有兩種評估NLG系統(tǒng)的方法:人工評估和自動評估指標(biāo)。相較之下,人工評估在準(zhǔn)確性和有效性上更勝一籌,自動評估指標(biāo)則在成本和效率上更具優(yōu)勢。隨著NLG的快速發(fā)展,現(xiàn)有的評估方式越來越難以滿足行業(yè)痛點(diǎn),一系列評估NLG系統(tǒng)質(zhì)量的新方法也應(yīng)運(yùn)而生。
由于缺乏標(biāo)準(zhǔn)化的基準(zhǔn)數(shù)據(jù)集,無論是全面衡量指標(biāo)的能力,還是比較不同指標(biāo)的性能,都極為困難。為此,網(wǎng)易伏羲與清華大學(xué)的黃民烈老師團(tuán)隊合作提出了一個針對自動評估指標(biāo)的基準(zhǔn)數(shù)據(jù)集“OpenMEVA”。借助“OpenMEVA”,可以全面評估針對開放式故事的自動評估指標(biāo)性能:包括自動生成指標(biāo)與人工評估的相關(guān)性,對不同模型輸出和數(shù)據(jù)集的泛化能力,故事語篇連貫性能力,以及對擾動的穩(wěn)健性等。
2、《人工位置信息殘留會通過MLM預(yù)訓(xùn)練模型動態(tài)詞向量傳播》
(Positional Artefacts Propagate Through Masked Language Model Embeddings)
文本表示學(xué)習(xí),是指將文本字符串表示轉(zhuǎn)化成計算機(jī)能處理的分布式表示的過程。文本表示學(xué)習(xí)是基于深度學(xué)習(xí)的自然語言處理的基礎(chǔ),良好的文本表示可以大幅提升算法效果。
本研究中,網(wǎng)易伏羲基于掩碼語言模型(Masked Language Model),從預(yù)訓(xùn)練語言模型中抽取了各層文本分布式表示,并從中發(fā)現(xiàn)了一個共同但并不理想的特征:在BERT和RoBERTa的隱狀態(tài)向量中,持續(xù)存在有離群神經(jīng)元的情況。
(在SST-2和QQP數(shù)據(jù)集上的Bert-base各層平均向量)
為研究該問題的根源,網(wǎng)易伏羲引入了一種神經(jīng)元級別的分析方法。該方法顯示,異常值與位置嵌入(Position Embedding)所捕獲的信息密切相關(guān),而這些異常值是造成編碼器原始向量空間各向異性的主要原因。
通過剪除這些異常值,可以提高各向量的相似度。剪切后的向量可以更準(zhǔn)確地區(qū)分詞義;同時,使用均值池化(Mean Pooling)后,可以得到更好的句子嵌入。
3、《通過對句子層面和語篇層面的一致性進(jìn)行建模來生成長文本》
(Long Text Generation by Modeling Sentence-Level and Discourse-Level Coherence)
(預(yù)訓(xùn)練任務(wù)示意圖)
AI自動生成連貫的長文本,本身就是一項極具挑戰(zhàn)的任務(wù)。而故事生成這類開放式的文本生成任務(wù)則更為困難。
盡管在句內(nèi)連貫性上,現(xiàn)有的大規(guī)模語言模型表現(xiàn)不俗,但要保持整體生成文本的連貫性,依舊非常困難。這是因為在上下文中,很難捕捉到超越token級別共現(xiàn)的高級語義和語篇結(jié)構(gòu)。
本研究中,網(wǎng)易伏羲和清華大學(xué)黃民烈老師團(tuán)隊合作提出了一個長文本生成模型,可以在解碼過程中,在句子層面和語篇層面上表示上下文。借助兩個預(yù)訓(xùn)練任務(wù),模型通過預(yù)測句子間的語義相似性、區(qū)分正常和打亂的句子順序來學(xué)習(xí)表征。實(shí)驗表明,在生成文本的連貫性上,該模型優(yōu)于現(xiàn)有最先進(jìn)的基線模型。