采集功能的使用方法 --- 不含分頁的普通文章之一_織夢CMS幫助中心

Dedecms采集功能的使用方法 --- 不含分頁的普通文章（一）

前言：這篇文章是為了初次接觸Dedecms采集功能的朋友所寫的。所選取的目標站點為文章內容頁麵不含有分頁的Dedecms官方網站的dreameaver欄目文章，通過圖文並茂的形式，詳細地介紹了如何創建一個基本的采集規則。本文共分為三節：第一節，主要是介紹如何進入采集界麵和新增采集節點中的第一步：設置基本信息及網址索引頁規則；第二節，主要是介紹新增采集節點中的第二步：設置字段獲取規則；第三節，主要是介紹如何采集指定節點和如何導出采集內容。下麵進入第一節。

1.1進入采集節點管理界麵

如（圖1）所示，在後台管理界麵的主菜單中單擊“采集”，然後單擊“采集節點管理”，即可進入采集節點管理界麵，如（圖2）所示。

圖1-後台管理界麵

圖2-采集節點管理界麵

1.2. 增加新節點

在采集節點管理界麵中，單擊左下角的“增加新節點”或者右上角的“添加新節點”（如圖2），都可進入“選擇內容模型”界麵，如（圖3）所示，

圖3-選擇內容模型界麵

在“選擇內容模型”界麵的下拉列表框中，有“普通文章”和“圖片集”可供選擇。根據被采集頁麵的類型，選擇相應的內容模型。本文這裏選擇“普通文章”，單擊確定後，便可進入“新增采集節點：第一步設置基本信息及網址索引頁規則”界麵，如（圖4）所示，

圖4-新增采集節點：第一步設置基本信息及網址索引頁規則

1.2.1 設置節點基本信息

圖5-節點基本信息

如（圖5）所示，

節點名稱：給新建立的節點起一個名字，這裏填上“采集測試（一）”；

目標頁麵編碼：設定被采集目標頁的編碼格式，有GB2312、UTF8和BIG5三種。可通過在被采集目標頁麵上，單擊右鍵後選擇“查看源文件”來獲取。

操作步驟：

（a）打開被采集的目標頁：https://www.dedecms.com/knowledge/web-based/dreamweaver/；

（b）單擊右鍵後選擇“查看源文件”，找到“charset”，如（圖6）所示，

圖6-查看源文件

其等號後麵的代碼就是所需的“編碼格式”，這裏是“gb2312”。

“區域匹配模式”：設定如何匹配所需采集的內容部分，可采用字符串或者正則表達式。係統默認的模式是字符串。如果比較了解正則表達式的朋友，可以在這裏選擇正則表達式的模式。

“內容導入順序”：指定文章列表導入時候的順序，可以選擇“與目標站一致”或“與目標站相反”。

“防盜鏈模式”：針對被采集的目標站點有無刷新限製。一開始很難判斷出來，需要測試後才能知道。如果有的話，這裏需要設置一下“資源下載超時時間”。

“引用網址”：填入任何一個即將被采集的文章內容頁麵的網址。

具體操作步驟：

（a）在已打開的文章列表頁中，單擊第一篇文章的

標題“在Dreamweaver中為插入的Flash添加透明”，以打開文章內容頁麵，如（圖7）所示，

圖7-文章內容頁麵

（b）此時在瀏覽器的URL地址欄中顯示的網址，即為需要填寫在“引用網址”處的網址，如（圖8）所示，

圖8-瀏覽器的URL地址欄

到這裏，“節點基本信息”就設置完成了。最後結果，如（圖9）所示，

圖9-設置後的節點基本信息

檢查無誤後，進入下一步設置。

1.2.2 設置列表網址獲取規則

如（圖10）所示，

圖10-列表網址獲取規則

這裏是設置被采集的文章列表頁的匹配規則。如果被采集的文章列表頁有一定的規律，可選擇“批量生成列表網址”；如果被采集的文章列表頁完全沒有規律可循，那麼可選擇“手工指定列表網址”；如果被采集的站點提供了RSS，則可以選擇“從RSS中獲取”。對於特殊情況，例如：部分列表頁有規律，而其餘的又沒有規律，則可在“匹配網址”中填上有規律的部分，然後把沒有規律的部分填寫在“手動指定網址”。

具體操作步驟：

（a）首先，回到已打開的文章列表頁，找到瀏覽器的URL地址欄中顯示的網址（圖8）和頁麵底部的換頁部分。如（圖11）所示，

圖11-換頁

（b）單擊“2”，打開文章列表頁的第二頁，此時瀏覽器的URL地址欄中所顯示的網址和頁麵底部的換頁部分，如（圖12）和（圖13）所示，

圖12-第二頁的網址

圖13-第二頁的換頁部分

（c）在已打開的文章列表頁的第二頁上麵，單擊（1），打開文章列表頁的首頁，這時頁麵底部的換頁部分與圖11相同，而瀏覽器的URL地址欄中所顯示的網址與之前圖8並不相同，如（圖14）所示，

圖14-第一頁的網址

（d）由（b）和（c）推知，此處被采集的文章列表頁的網址所遵循規律為：

https://www.dedecms.com/knowledge/web-based/dreamweaver/list_47_(*).html。穩妥起見，請自行測試更多列表頁。確定規律後，在“匹配網址”中，填入文章列表頁所遵循的規律。

（e）最後，指定需要采集的頁碼或者規律數字，並設定其遞增規律。

到這裏，“列表網址獲取規則”部分就設置結束了。最後結果，如（圖15）所示，

圖15-設置後的列表網址獲取規則

確定正確後，進入下一步設置。

1.2.3設置文章網址匹配規則

如（圖16）所示，

圖16-文章網址匹配規則

這裏是設置被采集文章列表頁的匹配規則。

具體操作步驟：

（a）對於“區域開始的HTML”，可通過在打開的文章列表首頁上，單擊右鍵後選擇“查看源文件”。在源文件中，找到第一篇文章的標題“在Dreamweaver中為插入的Flash添加透明”，如（圖17）所示，

圖17-查看源文件中，第一篇文章的標題

通過觀察，不難看出“<div class=“arc_list”>”為整個文章列表的開始部分。因此，在“區域開始的HTML”中，填入”<div class=“arc_list”>”。

（b）在源文件中，找到最後一篇文章標題“通過Dreamweaver設計網頁時組織CSS的建議”，如（圖18）所示，

圖18-查看源文件中，最後一篇文章的標題

結合文章列表的開始部分並通過觀察可知，第一個“</div>”為整個文章列表的結束部分。因此，在“區域結束的HTML”中，應填入”</div>”。

“如果鏈接中含有圖片”：設置對鏈接中含有圖片的處理方式，有不處理和采集為縮略圖可選。可根據實際需要選擇。

“對區域網址進行再次篩選”：可以使用正則表達式對區域網站進行再次篩選，這是針對一些需要被保留或者需要濾掉的內容，尤其是混編的列表頁麵，通過使用“必須包含”或者“不能包含”過濾掉所希望獲取或者不希望獲取的文章內容頁麵的網址。

具體操作步驟：

回到正在打開的文章列表首頁的源文件，通過觀察可知，每一個文章內容頁麵地址的擴展名均為.html。因此，可在“必須包含”中，填入“.html”。

到這裏，“文章網址匹配規則“就設置結束了。最後結果，如（圖19）所示，

圖19-設置後的文章網址匹配規則

通過1.2.1小節、1.2.2小節和1.2.3小節，新增采集節點的第一步就已經設置完成了。設置後的結果，如（圖20）所示，

圖20-設置後的新增采集節點：第一步設置基本信息及網址索引頁規則

全部完成並檢查無誤後，單擊“保存信息並進入下一步設置“。如果之前設置正確，單擊後，將會進入“新增采集節點：測試基本信息及網址索引頁規則設置的網址獲取規則測試”頁麵並看到相應的文章列表地址。如（圖21）所示，

圖21-網址獲取規則測試

確定正確無誤後，單擊“保存信息並進入下一步設置”。否則，請單擊“返回上一步進行修改“。

到這裏，第一節就結束了。下麵進入第二節。。。

最後更新：2016-12-29 14:26:05

采集功能的使用方法 --- 不含分頁的普通文章之一_織夢CMS幫助中心

Dedecms采集功能的使用方法 --- 不含分頁的普通文章（一）

1.1進入采集節點管理界麵