2月2-9日,AAAI 2021于線上隆重召開。AAAI(美國人工智能協會)作為人工智能領域的主要學術組織之一,其主辦的年會被列為國際人工智能領域的 A 類頂級會議。深蘭科技DeepBlueAI團隊首次參加AAAI挑戰賽,便在NLP(自然語言處理)領域的“首字母縮寫詞消歧”賽道中與阿里巴巴等知名機構同臺競技,并獲得冠軍。而深蘭科技自研的智能數據標注平臺、自動化機器學習平臺和AI開放平臺中,都已對NLP的進行了有效應用。
NLP是人工智能中最困難的問題之一。“首字母縮寫詞消歧”是詞義消歧的一種,用于確定多義詞在給定上下文語境中的意義,也是NLP領域中重要的研究課題。它在許多英文文獻和文檔中,特別是在科學和醫療領域十分常見,且在諸多領域都具有實際應用價值。
首字母縮寫詞可用于信息檢索,能實現在搜索文檔時,查詢結果中不僅包含縮寫詞內容,同時也包含縮寫詞對應擴展全稱的內容,反之亦然;可用于機器翻譯,當文本從一種語言翻譯至另一種語言時,如果源文本包含首字母縮寫詞,那么其對應含義也能夠被正確翻譯;也可應用于閱讀理解,當理解縮寫詞的正確擴展全稱時,能夠使上下文的語義理解更為準確;還可應用于文本摘要,通過使用正確的縮寫詞實現更精簡的摘要。
DeepBlueAI團隊在競賽中,根據預訓練模型BERT,融合了多種訓練策略,提出一種基于二分類思想的模型,有效解決了首字母縮寫詞消歧的問題。團隊選用SCIBERT作為基礎預訓練模型,然后利用任務自適應預訓練方式得到新的預訓練模型,在此模型上再利用動態負采樣技術和對抗訓練的方式得到二分類模型。隨后,利用該分類模型對未標注的數據集進行偽標簽判斷,得到新的可以加入訓練的數據,再以此為新的訓練集重復上述訓練過程,得到最終的二分類模型。
語言是人類智慧的結晶,而NLP正是人工智能工具與人類進行交流的重要橋梁,深蘭科技自成立以來始終厚植科研沃土,已在CVPR、ICCV、ECCV、NeurIPS、KDD等多個人工智能國際頂會上拔得頭籌。今后,將繼續秉持“人工智能,服務民生”的理念,矢志不渝地從事人工智能核心技術的基礎研究,為人工智能應用落地持續注入強勁能量。