Python自然語言分析課程
2016年11月
這是一門基于Python實踐自然語言處理典型應用場景的實戰課程。自然語言,作為人類情感思想最基本、最直接、最方便的表達工具,無時無刻不充斥在世界的每個角落。隨著信息時代的到來,越來越多的自然語言被以各種方式記錄下來,是我們面對最多的數據類型。然而,由于自然語言的多樣性、靈活性與廣泛性,在過去我們并無合適的處理手段,自然語言處理技術近幾十年來的迅猛發展,特別是近年來基于統計和機器學習手段的興起,為解決這一高難應用領域帶來曙光。
自然語言處理是機器學習當前最神秘,最紅火,最具難度,也最讓引人關注的分支。在搜索引擎,語音識別,情感分析,大批量文檔處理,機器翻譯,自動應答等各個領域有著前程無可限量的應用。可以試想一臺能理解自然語言,并且和人類能用語言純熟交流的機器,那還能叫機器么?文本挖掘(Text Mining)是數據挖掘以及自然語言處理技術衍生的一個分支,挖掘對象通常是非結構化的文本數據,常見的文本挖掘對象包括網頁所產生的BBS留言、博客、微博、新聞跟貼與轉貼等。此外,擁有大型呼叫中心或郵件系統的企業,call center或mail積攢下來的大量語言記錄也可以通過文本挖掘獲得眾多具有商業價值的知識。我們用計算機去處理文字,語音,理解語言,這些本來是高等生物人類才能做的事情,使到系統能產生“機器也具有人類同樣的智慧”的震驚效果,無需置疑肯定會給顧客和觀眾留下極其深刻的印象。
Python作為一門主流的編程語言,在自然語言的處理中也是有非常多的應用。那么就讓我們一起來學習怎么使用Python進行自然語言處理吧!xa0 xa0xa0 xa0xa0xa0
課程大綱xa0
第一課:自然語言分析利器——Python入門
第二課:自然語言分析工具包——NLTK入門。編程實戰:NLTK包的安裝與常用方法介紹
第三課:語料庫的獲取與詞頻分析。編程實戰:詞條頻率分布圖的繪制
第四課:原始文本資料的讀取與處理。編程實戰:使用正則表達式實現英文分詞
第五課:中文分詞的算法與實現。編程實戰:結巴分詞器的使用
第六課:詞條分類與詞條屬性。編程實戰:中英文詞性標注
第七課:文本挖掘之文本分類器。編程實戰:新聞類別分類
第八課:文本挖掘之文本聚類。編程實戰:百度詞條聚類分析
第九課:文本信息提取。編程實戰:結構化數據提取系統
第十課:句子語法分析。編程實戰:自動語法樹構建系統
第十一課:讓計算機讀懂我們——文本語義分析實現。編程實現:智能問答系統
第十二課:語言數據管理。編程實踐:語料庫的設計與創建