日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

自然語言是指人類相互交流的語言,而自然語言處理是將數據以可理解的形式進行預處理,使計算機能夠理解的一種方法。簡單地說,自然語言處理(NLP)是幫助計算機用自己的語言與人類交流的過程。

自然語言處理是最廣泛的研究領域之一。許多大公司在這個領域投資很大。NLP為公司提供了機會,讓他們能夠根據消費者的情緒和文本很好地了解他們。NLP的一些最佳用例是檢測假電子郵件、對假新聞進行分類、情感分析、預測你的下一個單詞、自動更正、聊天機器人、個人助理等等。

解決任何NLP任務前要知道的7個術語

標記:它是將整個文本分割成小標記的過程。占卜是根據句子和單詞兩個基礎來完成的。

text = "Hello there, how are you doing today? The weather is great today. Python/ target=_blank class=infotextkey>Python is awsome"
##sentece tokenize (Separated by sentence)
['Hello there, how are you doing today?', 'The weather is great today.', 'python is awsome']
##word tokenizer (Separated by words)
['Hello', 'there', ',', 'how', 'are', 'you', 'doing', 'today', '?', 'The', 'weather', 'is', 'great', 'today', '.','python', 'is', 'awsome']

停止詞:一般來說,這些詞不會給句子增加太多的意義。在NLP中,我們刪除了所有的停止詞,因為它們對分析數據不重要。英語中總共有179個停止詞。

詞干提取:它是通過去掉后綴和前綴將一個單詞還原為詞根的過程。

詞形還原:它的工作原理與詞干法相同,但關鍵的區別是它返回一個有意義的單詞。主要是開發聊天機器人、問答機器人、文本預測等。

Wor.NET:它是英語語言名詞、動詞、形容詞和副詞的詞匯數據庫或詞典,這些詞被分組為專門為自然語言處理設計的集合。

詞性標注:它是將一個句子轉換為一個元組列表的過程。每個元組都有一個形式(單詞、標記)。這里的標簽表示該單詞是名詞、形容詞還是動詞等等。

text = 'An sincerity so extremity he additions.'
--------------------------------
('An', 'DT'), ('sincerity', 'NN'), ('so', 'RB'), ('extremity', 'NN'), ('he', 'PRP'), ('additions', 'VBZ')]

詞袋:它是一個將文本轉換成某種數字表示的過程。比如獨熱編碼等。

sent1 = he is a good boy
sent2 = she is a good girl
|
|
girl good boy
sent1 0 1 1
sent2 1 0 1

現在,讓我們回到我們的主題,看看可以幫助您輕松預處理數據的庫。

NLTK

毫無疑問,它是自然語言處理最好和使用最多的庫之一。NLTK是自然語言工具包的縮寫。由Steven Bird 和Edward Loper開發的。它帶有許多內置的模塊,用于標記化、詞元化、詞干化、解析、分塊和詞性標記。它提供超過50個語料庫和詞匯資源。

安裝:pip install nltk

讓我們使用NLTK對給定的文本執行預處理

import nltk
#nltk.download('punkt')
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
import re
ps = PorterStemmer()
text = 'Hello there,how are you doing today? I am Learning Python.'
text = re.sub("[^a-zA-Z0-9]"," ",text)
text = word_tokenize(text)
text_with_no_stopwords = [ps.stem(word) for word in text if word not in stopwords.words('english')]
text = " ".join(text_with_no_stopwords)
text
-----------------------------------------------OUTPUT------------------------------------
'hello today I learn python'

TextBlob

Textblob是一個簡化的文本處理庫。它提供了一個簡單的API,用于執行常見的NLP任務,如詞性標記、情感分析、分類、翻譯等。

安裝:pip install textblob

spacy

這是python中最好用的自然語言處理庫之一,它是用cpython編寫的。它提供了一些預訓練的統計模型,并支持多達49種以上的語言進行標記化。它以卷積神經網絡為特征,用于標記、解析和命名實體識別。

安裝:pip install spacy

import spacy
nlp = spacy.load('en_core_web_sm')
text = "I am Learning Python Nowdays"
text2 = nlp(text)
for token in text2:
print(token,token.idx)
------------------------------OUTPUT-----------------------
I 0
am 2
Learning 5
Python 14
Nowdays 21

Gensim

它是一個Python庫,專門用于識別兩個文檔之間的語義相似性。它使用向量空間建模和主題建模工具包來尋找文檔之間的相似之處。它是設計用來處理大型文本語料庫的算法。

安裝:pip install gensim

CoreNLP

Stanford CoreNLP的目標是簡化對一段文本應用不同語言工具的過程。這個庫運行速度非常快,并且在開發中工作得很好。

安裝:pip install stanford-corenlp

分享到:
標簽:Python
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定