自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學于一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯系,但又有重要的區別。自然語言處理并不是一般地研究自然語言,而在于研制能有效地實現自然語言通信的計算機系統,特別是其中的軟件系統。因而它是計算機科學的一部分。
自然語言處理(NLP)是計算機科學,人工智能,語言學關注計算機和人類(自然)語言之間的相互作用的領域。
【課程內容】
自然語言分析利器
自然語言分析工具包——NLTK入門
編程實戰:NLTK包的安裝與常用方法介紹
語料庫的獲取與詞頻分析
編程實戰:詞條頻率分布圖的繪制
原始文本資料的讀取與處理
編程實戰:使用正則表達式實現英文分詞
中文分詞的算法與實現
編程實戰:結巴分詞器的使用
詞條分類與詞條屬性
編程實戰:中英文詞性標注
文本挖掘之文本分類器
編程實戰:新聞類別分類
文本挖掘之文本聚類
編程實戰:百度詞條聚類分析
文本信息提取
編程實戰:結構化數據提取系統
句子語法分析
編程實戰:自動語法樹構建系統
讓計算機讀懂我們——文本語義分析實現
編程實現:智能問答系統
語言數據管理
編程實踐:語料庫的設計與創建