容聯云研發并積累了面向業務知識圖譜敏捷構建與應用的核心算法能力,可快速響應業務需求,并利用“知識”增強現有的語義理解技術,解決用戶的知識查詢等問題。
近日,容聯云知識及語義計算技術問鼎"千言數據集:實體鏈指評測。
“千言”是中國計算機學會、百度、中國中文信息學會發起中文自然語言處理數據共建計劃,共同推動中文信息處理技術的進步。
作為人工智能領域處理大規模文本數據的核心技術的自然語言處理(NLP),它在信息檢索、智能問答、智能推薦等眾多領域扮演著重要的角色,具有很高的商業價值,實體鏈指(Entity Linking,EL)則是其中關鍵的研究課題之一。
本次舉辦的“千言數據集:實體鏈指評測,數據來自于互聯網網頁標題、UGC短視頻標題、搜索Query。對于給定的一個中文短文本(如搜索查詢、微博、對話內容、文章/視頻/圖片的標題等),EL將其中的實體與給定知識庫中對應的實體進行關聯。
相較于傳統針對長文本的實體鏈指任務,此評測任務更強調短文本的語義理解,對模型的語義理解能力提出了更高的要求。長文本擁有豐富的上下文信息能輔助實體的歧義消解并完成鏈指。因此,中文短文本的實體鏈指存在很大的挑戰,
主要原因如下:
(1)口語化嚴重,導致實體歧義消解困難;
(2)短文本上下文語境不豐富,須對上下文語境進行精準理解;
(3)相比英文,中文由于語言自身的特點,在短文本的鏈指問題上更有挑戰。
短文本上下文語境不豐富,平均長度只有22個字符,須充分理解上下文及已知信息,因此在此次比賽中,容聯云AI研究院算法團隊創新性地提出短文本語義計算框架,設計多輪匹配、驗證的模式,實時引入已匹配實體的信息,為句子內多個實體的消歧提供了更豐富的信息,并利用命名實體類別信息輔助實體鏈接,在此次比賽中拿到榜首。
實體鏈接能夠利用知識庫豐富的語義信息,在許多領域發揮非常重要的基礎性作用,例如問答系統(question answering)、語義搜索(semantic search)和信息抽取(information extraction)等。
這些任務都需要以文本中提及(mention)確切的、唯一的語義為前置條件,而該參賽系統實際上是從容聯云知識圖譜問答中實體鏈接技術方案改造而來的,此次比賽也證明了容聯云語義理解、知識圖譜、智能問答的基礎實力,充分展現了在AI領域的技術積淀和先進性。
知識圖譜在人工智能應用中的重要價值日益突顯,在先進技術與理論研發的同時,容聯云深耕垂直商業場景。容聯云研發并積累了面向業務知識圖譜敏捷構建與應用的核心算法能力,可快速響應業務需求,并利用“知識”增強現有的語義理解技術,解決用戶的知識查詢等問題。
真正高效的人工智能的溝通價值在于高效理解用戶需求,為用戶解決問題、創造企業價值。容聯云AI研究院持續深耕并不斷取得突破的技術體系是通訊+AI一體化,連接B端客戶,和業務場景密切結合,對接更多的行業,應用在企業營銷與服務的售前、售中、售后等核心環節,而不僅僅是簡單的響應式的服務。”
經過多年通訊與AI的積累,容聯云已經進化為通訊+AI一體化的AI能力平臺,成為數智化趨勢下賦能各行業的新型基礎設施。