老實說我并不主張網站采集,不過做為站長,網頁采集實在是一大利器。拿帝國CMS來說,采集功能很強大。雖然帝國CMS采集方法簡單易學,但還是有朋友為采集規則而絞盡腦汁。以下是我悼念的一些帝國CMS的采集正則。
從文章的源代碼中獲得的
第一種:
<p align='center'><b><font color='red'>[1]</font> <a href='/Eat/RMenu/200806/38611_2.html'>[2]</a> <a href='/Eat/RMenu/200806/38611_3.html'>[3]</a> <a href='/Eat/RMenu/200806/38611_4.html'>[4]</a> <a href='/Eat/RMenu/200806/38611_2.html'>下一頁</a> </b></p>
編寫的規則:
選全部列出式區域正則:
<p align='center'><b><font color='red'>[!--smallpageallzz--]'>下一頁
鏈接正則:
<a href='[!--pageallzz--]'>
第二種
采集代碼
<p align='center'><b><font color='red'>[1]</font> <a href='/lw/3/lw_31205_2.html'>[2]</a> <a href='/lw/3/lw_31205_2.html'>下一頁</a> </b></p> <center>《
編寫的規則:
選用上下導航式:
分頁區域正則:<font color='red'>[!–smallpagezz–]下一頁
分頁鏈接正則:<a href='[!–pagezz–]'
新聞正文正則:
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script></td>
</tr>
</table>[!--newstext--]</td>
</tr>
<tr>
<td width=5></td>
過濾廣告正則:
</p> <center>[!--ad--]</center>,</p><p align='center'>[!--ad--]</b>
例如:https://www.daixiao360.cn/js/271.html
第三種
<p align="center"><img src="/bgy/Images_1/sy8.gif" border="0" align="absbottom"> <FONT style="COLOR: #ff0000">【1】</font> <a class=page href="094221656-2.html" target=_self>【2】</a> <a class=page href="094221656-3.html" target=_self>【3】</a> <a class=page href="094221656-4.html" target=_self>【4】</a> <a class=page href="094221656-5.html" target=_self>【5】</a> <a href="094221656-2.html"><img src="/gwy/Images1/xy.gif" border="0" align="absbottom"></a></p>
編寫的規則:
"全部列出"式正則設置:
分頁區域正則(無)
分頁鏈接正則: <a class=page href="[!–pageallzz–]" target=_self>
第四種:
<DIV class=pageContainer> <DIV class=pager><span class="nextprev"><< 前一頁</span><span class="current">1</span><a href="0731_3493_686224_1.shtml" title="轉到第2頁">2</a><a href="0731_3493_686224_2.shtml" title="轉到第3頁">3</a><a href="0731_3493_686224_1.shtml" class="nextprev" title="后一頁">后一頁 >></a></DIV></DIV></DIV>
</div>
選全部列出式區域正則:
<DIV class=pageContainer> <DIV class=pager><span class="nextprev">[!--smallpageallzz--]" class="nextprev" title="后一頁">
鏈接正則:
<a href="[!--pageallzz--]"