閱讀1001 返回首頁    go 火車采集器


網站抓取精靈火車采集器V9最全術語解釋

網站抓取精靈火車采集器V9最全術語解釋

作者:dong 發布於:2016-4-25 13:38 Monday 分類:官方公告

網站抓取精靈火車采集器是目前功能最全麵的采集軟件,使用者隻需稍加學習即可快速上手,這裏是火車采集器V9 的操作術語解釋。

1.采集任務

    采集任務是火車采集器中對於數據采集和數據發布任務的完整配置,包含采集規則和發布模塊。

2.采集規則

    即我們對如何采集和采集什麼的問題給出一些設置讓采集器按照設置的規則來執行,這個設置可以從火車采集器裏麵導出保存為.ljobx文件,
    也可以再次導入火車采集器。 

3.發布模塊

    在火車采集器中,發布模塊是對“將已經采集到的數據發布到哪裏”進行的設置。包括WEB在線發布模塊和數據庫發布模塊,其設置分別可以導出保存為.wpm文件       和.dbm文件,並可以再次導入火車采集器,多次使用。

4.發布接口

    發布接口是一個小型的頁麵程序,通常和WEB在線發布模塊配合使用來滿足用戶的特定需求。即采集器將采集的數據發送到發布接口文件中,接口文件得到數據,

    並按照用戶特定需求靈活地處理數據。

5.標簽

    是指用來提取某項內容信息的一個字段名字,由用戶在編輯規則的時候指定,比如標題、手機號、郵件、作者,內容標簽采集到的信息在發布模塊中就可以通過

    該標簽名對應獲取到,格式為[標簽:標簽名]如[標簽:標題]。標簽在火車采集器裏麵有分為兩種:分別為列表頁標簽和內容頁標簽,顧名思義列表頁標簽就是在獲取列表頁時(即采網址時)就獲取到內容信息,內容頁標簽是在獲取內容頁或多頁內容時(采內容)才獲取內容信息。

注:通常還有一種說法為 html標簽,這裏的標簽是指一些html代碼裏麵的屬性標識符,如:<a href裏麵的a標簽,裏麵的font標簽為html標簽,該術語在內容處理的html標簽排除項出現。

6.(*)

    在使用火車采集器時經常會遇到這個符號,它是變量的通用符號,如果我們隻需要知道這個變量的變化規律,而不需要關心這個變量到底是什麼,這時就可使用這個
    符號代替。

7.[參數]

    用來匹配某項準備提取信息的標記標簽,如想要在代碼中提取組合出某種格式。以從代碼"mClk(this,'108484','134217', '168475','1');"中提取組合出新
    的地址格式為例。"mClk(this,'[參數]','[參數]', '[參數]','1'); ",按照次序,108484參數就是參數1,依次類推。實際需要的地址為以下的地址格式:
    bbs/read.php?id=[參數1]& sort=[參數3]&action=[參數2],上麵代碼中的3個參數和下麵地址中的id,soft和action參數要對應相應的值,次序不要顛倒。
    這樣就組合成了新的地址格式。

8.起始網址

    用來獲取下級鏈接地址的入口網址,可以為一條或多條,可以通過添加起始網址向導添加同格式多條網址或導入文本網址。如果沒有定義多級網址的獲取方法,
    這些地址即作為內容頁網址進行內容采集。

9.多級網址

    依次根據列表裏麵的多級網址順序采集分析地址,通過依次采集分析到最後一級得到內容頁地址。多級網址的獲取可以使用頁麵自動分析和手動獲取的方法采集
    下級網址,在采集的過程中,可以同時采集列表分頁及提取列表頁附加參數。

10.Cookie

    是在Http請求訪問中記錄您的用戶信息即登錄信息的一段用於與服務器進行交互的字符串。在瀏覽器中使用時通常還會以文本形式記錄到您的IE緩存目錄中,
    以便下次在有效期內不用輸入用戶信息即可繼續訪問驗證權限的網頁。

11.User-Agent

    瀏覽器標識,是用來向服務器通知您使用的客戶端類型,在某些需要登錄的網頁可能需要同時驗證Cookie和User-Agent,所以需要您將其設置為與本機瀏覽器
    同樣的格式。

12.分頁

    列表或內容頁麵較長,分成多個頁麵顯示,采集時需要將所有子頁的內容組合起來,這樣的子頁麵就是分頁(列表分頁或內容分頁)。

13.多頁

    有些情況下,需要采集一個頁麵對應的網址,圖片等內容時,需要另外打開一個新的頁麵才能采集到這些信息,這些另外打開的頁麵則稱為多頁。

14.網頁編碼

    是在網頁中指定其特定字符編碼格式的庫,例如一般在網頁中都要有如下一句:<meta http-equiv="Content-Type"content="text/html;charset=gb2312">,

    這樣的字句指示此網頁的字符集編碼是GB2312。火車采集器對一般的網頁可以做到自動識別,也羅列出了大部分的網頁編碼格式,可以直接在采集器中手動選擇指定

    相應的編碼格式。

15.代理

    是指網絡中的代理服務器,可以代理網絡用戶去取得所需要的網絡信息。代理的功能有可以突破自身ip的訪問限製訪問國外站點,訪問一些單位或團體內部資源,
    突破電信的ip封鎖和隱藏真實的ip等。

16.插件

    在火車采集器,插件是指可以對采集到的數據進行特定處理的一個外部程序,編寫好插件後,采集器可以把數據傳遞給插件,然後對數據進行處理,
    再把數據傳給采集器。(可自行開發,也可聯係客服定製。)

17.Cron表達式

    在火車采集器計劃任務管理器的設置中,可以設置完整的cron表達式來表示對任務的計劃執行。它是一個由6或7個子表達式組成的字符串。每一個表達
    式代表一個域,每個域描述了一個單獨的日程細節且每個域之間使用空格分隔,它由兩種格式組成。

Seconds Minutes Hours DayofMonth Month DayofWeek Year
Seconds Minutes Hours DayofMonth Month DayofWeek
一個Cron表達式至少有6或7個有空格分隔的時間元素,每個時間元素都使用數字,但還可以出現如下特殊字符,他們的含義分別表示:
1.Seconds 秒 (允許值為0-59,允許的特殊符號,- * /)
2.Minutes 分鍾 (允許值為0-59,允許的特殊符號,- * /)
3.Hours 小時 (允許值為0-23,允許的特殊符號,- * /)
4.Day-of-Month 月中的天 (允許值為1-31,允許的特殊符號,- * / ? L W C)
5.Month 月 (允許值為1-12或者JAN-DEC,允許的特殊符號,- * /)
6.Day-of-Week 周中的天 (允許值為1-7或者SUN-SAT,允許的特殊符號,- * / ? L C #)
7.Year (optional field) 年(可選的域,允許值為留空或者1970-2099,允許的特殊符號,- * /)
特殊字符含義:
(1) * 表示該域的任意值。如在Minutes域使用,即表示每分鍾都會觸發事件。
(2) ? 隻能用在DayofMonth和DayofWeek兩個域。實際上不會匹配域的任意值,因為DayofMonth和DayofWeek會相互影響。如想在 每月的20日觸發調度,

不管20日是周幾,則隻能使用如下寫法:13 13 15 20 * ?,其中最後一位隻能用?,而不能用,如果使用*表示每月的20號15時13分13秒不管是周幾都會觸發,實際上不是的。
(3) – 表示範圍,如在Minutes域中使用5-20,表示5到20分鍾每分鍾觸發一次
(4) / 表示起始時間開始觸發,然後每隔固定時間觸發一次。如在Minutes域中使用5/20,表示從分鍾數5開始每隔20分鍾觸發一次,結果25,45,05等分別觸發一次。
(5) , 表示列出枚舉值。如在Minutes域中使用5,20,則表示5分鍾和20分鍾每分鍾觸發一次。
(6) L 表示最後,隻能出現在DayofMonth和DayofWeek域。
(7) W 表示有效工作日(周一到周五),隻能出現在DayofMonth域中,係統將在離指定日期最近的有效工作日觸發事件。另外,W的最近尋找不會跨過月份。
(8) # 用於確定每個月第幾個星期幾,隻能出現在DayofMonth域中。如4#2表示某月的第二個星期四。
    完整的corn表達式如0 15 08 ? * MON-FRI 表示每周一到周五的早上8點15分開始定時更新數據。

18.任務網址庫

    采集器在文件夾DataLocoySpiderPageUrl下,該站點下的每一個任務都會生成一個獨立或公用的網址庫用來對比網址重複之用。

19.HTTP請求

瀏覽器打開網頁時實際就是發送一個又一個Http請求,火車采集器也一樣,從指定的地址獲取內容的過程就是發送Http請求,然後對根據請求得到的內容進行處理。
當瀏覽器向web服務器發送請求時,它向服務器傳遞了一個數據塊,也就是請求信息。Http請求信息由3部分組成:請求方法URI協議/版本,請求頭(Request Header)
和請求正文。
如下圖:

1.png

而客戶就可以從請求的信息中得到有用的數據。

 初學者掌握以上術語後,搭配教程進行學習,很快就可以靈活使用火車采集器V9來實現網站的高效抓取。


標簽: 火車采集器V9 網站抓取精靈

相關日誌:

福利來啦:6.8折優惠碼太給力!

網頁抓取工具帶你走進大數據營銷

玩轉網頁抓取工具,2016年讓大數據更接地氣!

網頁抓取工具透析大數據生態圈技術層

網頁抓取工具助力大數據基礎建設

« 網絡爬蟲火車瀏覽器特色功能之生成exe程序 | 網頁抓取工具抓取圖片時如何加減水印»

發表評論:

最後更新:2017-05-09 01:06:03

  上一篇:go 網站抓取精靈火車采集器如何定時自動運行?
  下一篇:go 網頁抓取工具火車采集器V9靈活提速五大招