帝國cms怎么采集信息?
帝國cms是我們用得比較多得php的建站系統,在建站過程中,如果自己沒有信息源,只能靠手工不斷的重復copy和粘貼,這樣費時費力,于是我們就要使用帝國cms自帶的采集功能來完成信息的錄入。為了深入了解帝國cms采集功能,下面我們以“新浪各地新聞”欄目為例來進行實戰采集。
一、增加采集節點
1、添加節點:
2、選擇要增加采集的欄目:
3、進入增加節點表單:
4、在節點名稱框里起個名字,然后把要采集的新浪各地新聞列表地址copy過來:
5、下來發現好多選項,如“采集頁面地址方式二,內容頁地址前綴...”先不要理他,后面再一一詳解,直接拉到 “信息鏈接區域正則”這里:
6、這里是設置采集的列表信息鏈接區域正則,我們點擊查看新浪各地新聞列表“源文件”:
7、把源文件代碼copy到Dreamweaver里,在Dreamweaver里選定要采集的信息鏈接區域:
8、切換到Dreamweaver代碼方式,
就是信息鏈接區域:
9、得到信息鏈接區域正則:
10、得到信息頁鏈接正則:
11、注意:如果信息頁鏈接是相對地址,例如,那么“內容頁地址前綴”要加域名:
12、現在要采集內容頁的標題和內容:
13、查看新聞頁“源文件”,找title標簽:
14、取得標題正則:
15、這里是要采集的內容區域:
16、取得新聞內容正則:
(注意:新聞內容正則里的 d_id='*' 用了通配符,因為每一篇新聞的d_id值是不同的,所以可以用*來代替它,“*”可以代替任意字符。)
17、點擊提交按鈕就完成了整個采集節點:
二、預覽采集節點是否正確
1、提交按鈕后返回管理節點:
2、點擊“預覽”采集,進入節點預覽結果:
3、采集內容頁列表:
4、采集內容頁頁面:
三、采集
1、預覽采集節點無誤后,然后返回“管理節點”,點擊“開始采集”鏈接就開始進行采集:
2、系統正在采集中:
3、采集完后顯示本地臨時入庫的信息,這時可以對臨時入庫的信息進行修改或者刪除:
4、修改信息頁面如圖:
5、對采集的信息進行審核并入庫,點擊“入庫全部信息按鈕”:
6、確定操作:
7、信息入庫完畢提示:
信息入庫完畢后下來點擊”管理信息“:
我們可以看到剛剛采集入庫的新聞信息:
最后到“數據更新”刷新首頁、欄目、和內容頁就可以完成網站的信息采集了。