基本信息 |
節點名稱 |
此節點的名稱 |
父節點 |
可選擇上級節點,主要方便管理,比如你可以把所有新聞的采集都歸到一個父節點里。 |
采集頁面地址 |
要采集的頁面列表,如果是多個列表用回車格開。 |
|
采集頁面為直接內容頁:說明填寫的地址為直接內容頁面地址。 |
采集頁面地址方式二 |
由系統自己生成列表,但必須是有數字規律的。 |
如:“http://www.phome.net/index.php?page=[page]”([page]則為頁碼的范圍) |
內容頁地址前綴 |
信息頁鏈接的地址前綴。如地址前面沒域名的話,系統會加上此前綴。 如:http://www.phome.net+/news/2006/1.html |
圖片/FLASH地址前綴 |
新聞內容的圖片/FLASH地址為相對地址時使用。(針對newstext字段,遠程保存時有效) |
入庫欄目 |
采集的數據要入庫的欄目。如本節點不是采集節點,請不選。(只列出屬于此系統模型的欄目) |
入庫專題 |
采集的數據要入庫的專題。 |
節點生效時間 |
“開始時間”與“結束時間”這個目前可隨意設置。這主要是以后版本擴展之用。 |
備注 |
備注或說明 |
選項 |
默認相關關鍵字 |
截取標題前幾個字符作為相關鏈接的“關鍵字”,推薦設為0,這樣入庫效率更高。 |
采集記錄數 |
可設置只采集前多少條記錄。("0"為不限,系統會從頭采到頁面尾) |
遠程保存圖片到本地 |
選擇后入庫時系統會遠程保存圖片到本地,還可設置是否加水印。(針對newstext字段) |
遠程保存FLASH到本地 |
選擇后入庫時系統會遠程保存FLASH到本地。(針對newstext字段) |
標題圖片設置 |
可設置選擇遠程保存第幾個圖片作為標題圖片及生成縮圖設置。 |
每組列表采集個數 |
采集列表頁每組記錄數,單采集列表頁請填1。 |
每組信息采集個數 |
采集信息頁數據每組記錄數 |
每組入庫數 |
如果要遠程保存圖片/FLASH則請設小,如設為1。(為防止入庫超時,系統推薦將php的超時設為360以上) |
每組采集時間間隔 |
針對部分網站限制了頁面刷新時間間隔而設置的項 |
附加選項 |
頁面編碼轉換 |
頁面編碼的轉換設置。 |
是否重復采集同一鏈接 |
可設置同一鏈接是否重復采集。 |
是否隱藏已導入的信息 |
推薦選隱藏。否則入庫后的記錄依然會顯示到入庫列表里。 |
采集后自動入庫 |
可設置采集后自動入庫,不需要人工去入庫。但有可能入庫超時中斷。 |
入庫后自動刪除已導入的信息:入庫后同時刪除備份的驗證記錄。 |
整體頁面過濾正則 |
格式:“廣告開始[!–pad–]廣告結束”。多個可用“,”格開。 |
針對整個頁面代碼進行過濾。 |
對整個頁面字符替換 |
原字符多個請用","格開,如果是新字符是多個,可以用","格開,系統會一一對應進行替換。 |
過濾選項 |
采集關鍵字 |
標題包含關鍵字的信息才會采集。如不限制,請留空。多個請用","格開 |
替換 |
原字符多個請用","格開,如果是新字符是多個,可以用","格開,系統會一一對應進行替換。 |
(針對標題與內容) |
過濾廣告正則 |
格式:“廣告開始[!–ad–]廣告結束”,多個請用","格開。(針對newstext字段) |
內容為空不采集 |
如果newstext內容為空不采集設置項。 |
過濾相似 |
可設置不采集標題相似超過多少個字符的信息。如不限制請填"0"。 |
可設置不采集標題完全相同的信息 |
截取內容簡介 |
如果信息簡介(smalltext)沒有值的話,系統會依此設置截取新聞內容(newstext)多少字符作為簡介。 |
列表頁正則 |
信息鏈接區域正則 |
通常不需要設置。一般是設置只采集頁面某一區域的鏈接或縮小采集范圍才設置的 |
在要采集鏈接區域的代碼地方加上“[!–smallurl–]” |
信息頁鏈接正則 |
采集“內容頁鏈接”的正則(列表頁里) |
在信息頁鏈接的地方加上“[!–newsurl–]” |
標題圖片正則 |
采集“標題圖片地址”的正則,可設置遠程保存與地址前綴(列表頁里,如圖片在內容頁,請留空) |
在標題圖片地址的地方加上“[!–titlepic–]” |
內容頁分頁采集設置:(如沒有分頁請留空,針對newstext字段) |
說明:如果是全部列表式,則只需看第一頁的頁面HTML代碼。 |
入庫是否保留原分頁 |
如果選擇“不保留分頁”則入庫后的信息都不分頁。 |
分頁形式 |
有“上下頁導航式”與“全部列出式”兩種形式。(一般全部列出式用的比較多) |
"全部列出"式正則設置 |
分頁區域正則([!–smallpageallzz–]) |
分頁鏈接正則([!–pageallzz–]) |
"上下頁導航"式正則設置 |
分頁區域正則([!–smallpagezz–]) |
分頁鏈接正則([!–pagezz–]) |