好久之前便有存眷到TF-IDF的相干引見,年夜部門的解說皆是環繞觀點去講,許多人把TF-IDF稱做“算法”,筆者通讀了許多文章,以至正在本人的網站停止了使用。鑒于許多伴侶道觸及到太多公式,沒有簡單了解,本文用簡樸的真例闡明,道道我對TF-IDF的一些睹解,沒有講龐大的公式,期望能協助到列位!

尾先,TF詞頻的觀點取SEO倡議
TF是指詞頻,查詢的樞紐詞正在文檔中呈現的次數統計。相干文檔是那樣引見的,假定查詢樞紐詞正在統一個文檔中呈現的次數越多,代表那個樞紐詞越主要,越能代表文檔的主題意義,文章主題取樞紐詞意義越靠近,那末做SEO怎樣使用那個常識面呢?
假定有一篇文章的題目是:“SEO效勞中包”,從字里上了解,文章次要是以SEO效勞為中心,“中包”為拓展詞。假定文章內容里SEO效勞呈現20次,效勞呈現25次,中包呈現10次,根據TF詞頻的劃定規矩,那末SEO效勞是文章主題,那個很好了解。
實踐上有些時分寫文章時,正在意義很明白的狀況下,會省略主詞。好比SEO效勞中包價錢、SEO效勞中包流程、SEO效勞中包公司引見,會縮寫成:中包價錢、中包流程、中包公司引見。那樣會招致中包呈現的次數年夜于效勞,TF詞頻則會以為中包是主題,呈現毛病的判定。
那既然是那樣,做SEO樞紐詞規劃的時分,該當要恰當思索主樞紐詞的呈現頻次年夜于副詞。固然搜刮引擎判定網頁主題有許多維度,那里只是單從TF詞頻的角度思索,小我私家以為那樣做會收縮搜刮引擎判定網頁主題的工夫,對SEO去道是有益的。
第2、怎樣快速了解“IDF順文檔頻次”
那個觀點假如看文檔的話有面易了解,當初筆者看百度百科好幾回才大白。觸及到龐大的公式正在那里便沒有講,分離TF一同去了解,TF-IDF的意義是,一篇文章中某樞紐詞呈現的次數越多,且正在搜刮引擎的材料庫中包羅該樞紐詞文檔數越少,則闡明那個樞紐詞越能代表此網頁的主題。
舉個例子去闡明,假定有一篇文章,有兩個樞紐詞:“SEO劣化”戰“SEO效勞”,正在文章中,那兩個樞紐詞呈現的材料皆是20次,可是正在百度的材料庫中,包羅SEO劣化的文檔統共有一萬萬個,包羅SEO效勞的文檔有五百萬個,那末則闡明,SEO效勞越能代表那文章的意義。大概搜刮引擎材料庫中包羅樞紐詞的文檔數目一樣,文章中呈現次數越多的樞紐詞越能代表網頁主題。
從SEO的層里講,IDF那個值是客不雅存正在的,沒必要來窮究,只需大白差別樞紐詞之間的文檔數幾便止,以百度為例,搜刮任何一個樞紐詞,正在搜刮框上面會有一個:“百度為您找到相干成果約XXX個”的那樣句子,內里的數值能夠做為文檔數參考。每一個搜刮引擎的包羅樞紐詞的文檔數能夠紛歧樣,可是團體的相比照例值該當是好沒有多的。并且跟著工夫的推移,文檔數也會不竭發作改動。

閉于TF-IDF類似度計較劃定規矩的解說,便分享到那里,小我私家鄙意,不敷的地方歡送拍磚。本文出自【光谷SEO效勞:http://www.guangguseo.com/】,專注SEO整站劣化效勞,愛研究搜刮引擎算法,歡送取我交換進修。轉載說明出處,開開!