語言技術(shù)平臺(tái)(Language Technology Platform,LTP)是哈工大社會(huì)計(jì)算與信息檢索研究中心(HIT-SCIR)歷時(shí)多年研發(fā)的一整套高效、高精度的中文自然語言處理開源基礎(chǔ)技術(shù)平臺(tái)。該平臺(tái)集詞法分析(分詞、詞性標(biāo)注、命名實(shí)體識(shí)別)、句法分析(依存句法分析)和語義分析(語義角色標(biāo)注、語義依存分析)等多項(xiàng)自然語言處理技術(shù)于一體。
其中句法分析、語義分析等多項(xiàng)關(guān)鍵技術(shù)多次在CoNLL國際評(píng)測中獲得了第1名。此外,平臺(tái)還榮獲了2010年中國中文信息學(xué)會(huì)科學(xué)技術(shù)一等獎(jiǎng)、2016年黑龍江省科技進(jìn)步一等獎(jiǎng)。國內(nèi)外眾多研究單位和知名企業(yè)通過簽署協(xié)議以及收費(fèi)授權(quán)的方式使用該平臺(tái)。
哈工大SCIR本科生馮云龍等同學(xué)在車萬翔教授指導(dǎo)下,于近日對LTP進(jìn)行了新一輪的全面升級(jí),并推出了LTP 4.0版本。此次升級(jí)的主要改進(jìn)為:
-
基于多任務(wù)學(xué)習(xí)框架進(jìn)行統(tǒng)一學(xué)習(xí),使得全部六項(xiàng)任務(wù)可以共享語義信息,達(dá)到了知識(shí)遷移的效果。既有效提升了系統(tǒng)的運(yùn)行效率,又極大縮小了模型的占用空間
-
基于預(yù)訓(xùn)練模型進(jìn)行統(tǒng)一的表示 ,有效提升了各項(xiàng)任務(wù)的準(zhǔn)確率
-
基于教師退火模型蒸餾出單一的多任務(wù)模型,進(jìn)一步提高了系統(tǒng)的準(zhǔn)確率
-
基于PyTorch框架開發(fā),提供了原生的Python調(diào)用接口,通過pip包管理系統(tǒng)一鍵安裝,極大提高了系統(tǒng)的易用性
下表列出了新舊版LTP在精度、效率和模型大小方面的對比:
為了模型的小巧易用,本次發(fā)布的版本基于哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布的中文ELECTRA Small預(yù)訓(xùn)練模型。后續(xù)將陸續(xù)發(fā)布基于不同預(yù)訓(xùn)練模型的版本,從而為用戶提供更多準(zhǔn)確率和效率平衡點(diǎn)的選擇。
測試環(huán)境如下:
-
Python 3.7
-
LTP 4.0 Batch Size = 1
-
centos 3.10.0-1062.9.1.el7.x86_64
-
Intel(R) Xeon(R) CPU E5-2640 v4 @ 2.40GHz
備注:速度數(shù)據(jù)在人民日報(bào)命名實(shí)體測試數(shù)據(jù)上獲得,速度計(jì)算方式均為所有任務(wù)順序執(zhí)行的結(jié)果。另外,語義角色標(biāo)注與語義依存新舊版采用的語料不相同,因此無法直接比較(新版語義依存使用SemEval 2016語料,語義角色標(biāo)注使用CTB語料)。