閱讀168 返回首頁    go 火車采集器


抓取網頁數據工具標簽組合的使用方法

抓取網頁數據工具標簽組合的使用方法

作者:dong 發布於:2016-7-22 13:59 Friday 分類:官方公告

   抓取網頁數據工具火車采集器V9將標簽組合功能放在了數據獲取方式選項中,即可以通過標簽組合來獲取標簽數據,下麵講解一下該功能如何使用。學習之前需要注意以下幾種情況:

1.標簽組合是組合文件下載前的內容

    有的朋友發現,a標簽中下載了某個文件,原始地址是aaa,下載後或是探測的地址為bbb,那麼,如果您在b標簽中組合使用a標簽,a標簽的值是aaa.為何使用這種處理方法,是因為文件下載是在標簽組合之後進行的。如何達到標簽內容是文件下載完後的結果呢?可以新建一個標簽,選“自定義固定格式數據”,將您標簽組合的內容放進去。這裏的替換會在文件下載後執行。

2.內容頁標簽循環采集並添加為新記錄

    如果組合的兩個標簽都是內容頁標簽,這兩個標簽在組合時,會按循環數最大的記錄產生新的同樣數目的循環記錄。如果某個標簽的循環數較少,則新產生的標簽中該標簽的值為空。例如標簽a,b組合生成標簽c。a的循環數是5,b的循環數是3,則會生成5個c,其中,前3個標簽的值分別是a,b一一對應的。最後兩個值中,b的值為空。比如我們假設a的值是11、22、33、44、55,而b的值為aa、bb、cc,那麼c是由[標簽:a][標簽:b]組合的,則產生的c的值為11aa、22bb、33cc、44、55,後麵兩個b值為空。

3.列表頁標簽和內容頁標簽組合

如果兩個標簽中一個是內容頁,一個是列表頁,則內容頁是會參加第2條中的循環處理,在這個過程中列表頁先當作一個字符串處理。合並完成後,程序會再進行數據處理操作。最後,組合標簽中的列表頁標簽內容將被替換成實際的值。組合後的結果中,可以再提取下載。比如內容頁a和列表頁b組合生成c,其中a的值為11、22、33,b的值為bb,那麼,c第一次組合結果是11[標簽:b]、22[標簽:b]、33[標簽:b],然後進行數據處理:如果b的值是bb,那麼最後的結果就是11bb、22bb、33bb。
下麵來實際操作下,已有標簽的組合操作示例如下:

  我們把“標題”和“來源”標簽組合成一個新標簽“標題+來源”,之間用“___”隔開,我們測試下結果如下圖,查看該標簽內容可以看到測試結果和預期效果是一樣的。

那麼生成固定格式數據的組合方式怎麼操作呢?看下圖:

再測試一下,可以看到測試結果和已有標簽組合的結果是一致的。

標簽: 火車采集器V9

相關日誌:

福利來啦:6.8折優惠碼太給力!

網頁抓取工具帶你走進大數據營銷

玩轉網頁抓取工具,2016年讓大數據更接地氣!

網頁抓取工具透析大數據生態圈技術層

網頁抓取工具助力大數據基礎建設

« 網頁抓取工具打造大數據“智媒體” | 網頁抓取工具:幫助電子商務獲取大數據財富»

發表評論:

最後更新:2017-05-09 01:06:04

  上一篇:go DedeCMS5.6文章免登陸發布接口(2012.10.24)
  下一篇:go 網頁抓取工具:火車采集器V9版免費下載