一般我們采集規則寫好后,比較郁悶的就是內容里的鏈接了,因為我不想看到內容里有別人網站的鏈接,當然更不用說廣告了。這里需要說明的是,下面的方式只可以替換掉一些規則或者相對規則的鏈接和廣告,只要那些比較變態的網站在內容里加很多隨機文字的,那就沒辦法了。
過濾廣告最簡單的方式是在“過濾廣告正則”的輸入框里輸入相應的正則,4.7以前的沒有帶,4.7以后的系統帶的有,下面是個比較全些的廣告過濾正則:
<a[!--ad--]>,</a>,<A[!--ad--]>,</A>,<div[!--ad--]>,</div>,<DIV[!--ad--]>,</DIV>,<iframe[!--ad--]</iframe>,<IFRAME[!--ad--]</IFRAME>
基本上已經夠了。
如果過濾內容里的鏈接呢?這里可以在 過濾選項 的 替換:(針對標題與內容) 里輸入正則,多個用逗號分開,但是不要在這里寫,,,,這樣的正則,因為這樣你會采不到頁面,呵呵,它把你采集的頁面都給過濾了。