296
gooseeker集搜客
采集安居客經紀人電話
采集安居客二手房經紀人電話的流程如下所示:
第一步 加載頁麵
確定需要采集數據的網址(稱為樣本頁麵),這裏我們選擇 https://shenzhen.anjuke.com/tycoon/nanshan/p1/ 作為本次教程的樣本頁麵。

1.將樣本頁麵網址複製粘貼到MS謀數台的網址欄處,點擊鍵盤的Enter回車鍵,等到頁麵加載。
2.頁麵信息加載完成,可以在下方的瀏覽器頁麵看到頁麵信息。
3.在右上方的主題名處填寫主題名,點擊查重(因為主題名是作為區別不同主題的字段,所以需要保證唯一性,主題名被他人占用將導致無法保存規則)。
4.直到彈出主題名可用的彈窗,即說明這個主題名沒有被占用,就可以進行下一步操作。
第二步 內容映射
內容映射即對頁麵需要采集的信息做標記,告訴程序需要采集這些信息。

1.點擊右上方的創建規則
2.點擊需要采集的信息,這裏我們先采集經紀人姓名,點擊一次,經紀人姓名背景變黃,說明該信息被選中,再點擊一次,會彈出輸入框,輸入“經紀人”,點擊√。
3.彈出整理箱輸入框(整理箱可以理解為是裝采集信息的箱子),整理箱名稱隨意取,這裏我們輸入“列表”,點擊“確定”。
1.點擊電話,選中電話後再點擊一次,同樣對電話彈出的輸入框輸入“電話”。
2.可以看到右上方有整理箱“列表”和兩個采集信息“經紀人”、“電話”。
1.點擊測試(測試可以預覽當前所做的規則采集到的信息,通過測試查看信息是否完整再作修改)。
2.彈出提示框(關鍵內容是規則判斷是否采集這一頁麵的標記,如果頁麵沒有出現關鍵內容,則運行時會報錯,所以通常給所有頁麵都會出現的信息勾選關鍵內容)。
1.這裏我們對“經紀人”勾選關鍵內容,右上方選中經紀人,勾選關鍵內容。
2.再次點擊測試,可以預覽目前可采集到的內容。
第三步 樣例複製
目前隻能采集第一個經紀人的名字和電話,接下來采集這一頁全部的經紀人信息,我們稱之為樣例複製。
1.選中整理箱“列表”,勾選啟用。
2.點擊第一個經紀人,黃色背景覆蓋第一個經紀人的全部信息,上方會自動定位到對應的div節點。 注意:這裏要選對節點,否則下麵的樣例複製會報錯,正確的節點應該是當前節點(即定位編號為1150的div節點)能包含第一個經紀人的全部信息,而同級下一個節點(即定位編號為1245的div節點)包含第二個經紀人的全部信息。
1.選中div後,右擊-樣例複製映射-第一個,這樣操作後可以看到右邊的樣例1顯示編號1150。
1.同樣選中包含第二個經紀人信息的div節點,右擊-樣例複製映射-第二個,可以看到右邊的樣例2顯示編號1245。
1.這樣操作後,再次點擊測試,可以看到下方顯示了一整頁的經紀人信息。
第四步 翻頁采集
到了這裏我們已經把一整頁的經紀人的信息采集下來,如果需要采集第二頁、第三頁以及後麵全部的信息,就要做翻頁采集(我們稱之為翻頁線索)。

1.點擊“爬蟲路線”。
2.點擊“新建”,選擇“記號線索”。
3.勾選“連貫抓取”。
4.點擊“定位選項”,選擇“偏好class”。
1.點擊翻頁標誌“下一頁>”,默認定位到a節點,點擊a節點前麵的三角或雙擊a節點可以展開,找到包含“下一頁>”的text節點。
2.選擇text節點,右擊-線索映射-記號線索,可以看到記號值顯示“下一頁>”,同時記號定位編號顯示對應值5226。
1.點擊整個翻頁區域,找到包含整個翻頁區域的節點div(通過觀察黃色背景是否覆蓋整個翻頁區域來判斷節點是否正確),選擇該節點後,右擊-線索映射-定位-線索1。可以看到右上方的線索1下麵的定位編號顯示對應的編號值5173。
第五步 存規則 抓數據
以上步驟就完成了規則的定義,接下來需要保存規則。
采集結果格式為XML,默認存放在本地電腦的C盤,當前Windows賬戶的DataScraperWorks下,會新建一個以主題名命名的文件夾存放結果文件,可以通過在DS打數機的“文件-存儲路徑”修改結果存放位置。
最後更新:2017-01-09 14:08:11