引言:ICASSP 全稱 International Conference on Acoustics, Speech and Signal Processing(國際聲學、語音與信號處理會議),是由 IEEE 主辦的全世界最大的,也是最全面的信號處理及其應用方面的頂級學術年會。
睿企科技ICASSP 2021獲錄用的論文
近日,由ICASSP2021組委會正式通知,北京睿企信息科技有限公司(以下簡稱:睿企科技)副總裁王全修作為主要作者,與北京大學軟件工程國家工程研究中心合作的論文《IMPROVING EVENT DETECTION BY EXPLOITING LABEL HIERARCHY》成功被ICASSP 2021錄用,論文概述如下:
Improving Event Detection By Exploiting label hierarchy
Xiangyu Xi1,2, Wei Ye1,†, Tong Zhang1, Quanxiu Wang3, Shikun Zhang1,†, Huixing Jiang2, Wei Wu2
1 National Engineering Research Center for Software Engineering, Peking University, Beijing, China 2 Meituan Group, Beijing, China
3 RICH AI, Beijing, China
事件檢測
事件檢測已經作為人工智能領域的一項基礎核心技術,被廣泛應用到事件圖譜的構建以及文本摘要的生成。事件檢測中優質的結構化知識信息,能夠指導我們的智能模型具備更深層的事物理解、更精準的任務查詢以及一定程度上的邏輯推理能力,從而對海量的信息分析起到至關重要的作用。
事件作為信息的一種表現形式,其定義為特定的人及物在特定的時間特定的地點相互作用的事實。事件的組成元素包含觸發詞、事件類型、論元以及論元角色:
觸發詞:事件發生的核心詞,多為動詞和名詞。
事件類型:ACE2005 定義了8種事件類型和33種子類型。其中,大多數事件抽取均采用33 種事件類型。
論元:事件的參與者。
論元角色:事件論元在事件中充當的角色。共有35類角色,例如,攻擊者 、受害者等。
例如:在Baghdad,當一個美國坦克對著 Palestine 酒店開火時一個攝影師死去了。該事件信息如下表所示:
事件檢測任務,需要從文本中檢測:事件觸發詞 (trigger) 和論元 (argument) 。「事件觸發詞」是一個事件指稱中最能代表事件發生的詞,是決定事件類別的重要特征,一般指動詞或名詞。「論元」是事件中的參與者,是組成事件的核心部分,它與事件觸發詞構成了事件的整個框架。識別出事件觸發詞 (trigger) 和論元 (argument) 后再對這兩個元素進行下一步分類處理,由事件觸發詞分類得到事件類型,由論元分類得到論元角色。利用事件檢測技術,用戶可以:
免于被大量的無序非結構化文本所湮沒;
讓用戶能夠更快捷地了解到短期內發生的重大事件;
判斷與歷史事件是否存在內容上的關聯;
檢測每一件事件是否涉及新事件,實時地在某事件發生時識別出該事件。
然而,由于用戶手頭的文本往往在很短的時間間隔內呈現井噴式的增長,這使得準確、高效的事件檢測研究非常具有挑戰性。
在事件檢測任務中,主流方法一般將候選觸發詞(trigger word)直接分類為細粒度事件,會忽略觸發詞中的層次結構。為了提高對細粒度事件類型的檢測能力,在ICASSP2021會議中,睿企科技與美團和北大合作,提出了一種挖掘事件類型的層次結構中有價值的語義信息的細粒度事件檢測方法。
該方法認為事件類型層次中有豐富且有價值的語義相關性,提出了結合事件的層次信息提供輔助的監督信息的方法,來改進細粒度事件檢測。值得注意的是,該方法是第一個利用事件類型的層次結構來改進細粒度事件檢測的。
根據文章中的描述,該方法把事件可以劃分為兩種不同粒度的層級,從粗粒度(父類)的層級中挖掘與細粒度(子類)層級事件之間的豐富的語義相關性,可以讓細粒度事件的識別更加準確,即達到提高對細粒度事件類型的檢測能力的目的。并通過一種新的 Logits Mapping (LM) 策略,利用標簽層次中的補充監督信息,通過對細粒度類型的 Logits 的啟發式映射,來生成粗粒度類型的 Logits (輸入到分類器的中間表示)。這樣,補充的監督信息可以幫助編碼器通過反向傳播產生更精確的 Logits ,從而提供了一種簡單而且不需要額外的參數,并且有效的方法來改善目標任務。
目前睿企科技已在政務、警務等實際業務場景中落地該論文提及的先進技術。同時,睿企NLP能力開放平臺也將向廣大開發者陸續開放自主研發的NLP算法服務能力。
睿企NLP能力開放平臺
睿企科技是一家專注于自然語言處理與決策引擎的認知智能高科技公司,自成立以來,致力于對大規模文本數據進行分析與價值挖掘,通過技術與業務的深度融合,為政府提供決策支持,為企業提供商機信息。睿企NLP能力開放平臺,提供了70+種細分的場景化能力,包括實體抽取理解、關系挖掘、關鍵詞提取、文本分類、文字識別等,其中僅實體抽取理解就包括證號類實體、人物類實體、地點類實體等11個大類48個服務能力,這些能力可以直接在產品和應用中調用使用。
為使開發者快速上手體驗,睿企NLP能力開放平臺開放的所有能力均可免費試用,以普惠、開放、易用及一站式等特性為客戶提供服務。開發者可靈活高效地調用NLP服務,并快速集成到產品中,落地政務、警務、金融、醫療、商業、教育等垂直領域。