閱讀974 返回首頁    go 火車采集器


關於標簽組合功能的使用說明

關於標簽組合功能的使用說明

作者:小文 發布於:2012-7-18 9:41 Wednesday 分類:功能介紹

v7版本增加了一個標簽組合的功能,許多朋友在使用中發現組合的結果和自己想要的結果不一致,下麵我來說明一下該功能的使用。

1.標簽組合組合的是文件下載前的內容

有的朋友發現,a標簽中下載了某個文件,原始地址是aaa,下載後或是探測的地址為bbb,那麼,如果您在b標簽中組合使用a標簽,a標簽的值是aaa.為何使用這種處理方法,是因為文件下載是在標簽組合之後進行的。如何達到標簽內容是文件下載完後的結果呢?可以新建一個標簽,選“自定義固定格式數據”,將您標簽組合的內容放進去。這裏的替換會在文件下載後執行。

2.內容頁標簽循環采集並添加為新記錄

如果組合的兩個標簽都是內容頁標簽,這兩個標簽在組合時,會按循環數最大的記錄產生新的同樣數目的循環記錄。如果某個標簽的循環數較少,則新產生的標簽中該標簽的值為空。例如標簽a,b組合生成標簽c。a的循環數是5,b的循環數是3,則會生成5個c,其中,前3個標簽的值分別是a,b一一對應的。最後兩個值中,b的值為空。假設a的值是11,22,33,44,55,b的值為aa,bb,cc.c是由[標簽:a][標簽:b]組合, 則產生的c的值為11aa,22bb,33cc,44,55.

3.列表頁標簽和內容頁標簽組合

如果兩個標簽中一個是內容頁,一個是列表頁,則內容頁是會參加第2條中的循環處理,在這個過程中列表頁當作一個字符串處理。合並完成後,程序會再進行數據處理操作。最後,組合標簽中的列表頁標簽內容將被替換成實際的值。組合後的結果中,可以再提取下載。比如內容頁a和列表頁b組合生成c,其中a的值為11,22,22,b的值為bb,那麼,c第一次組合結果是 11[標簽:b],22[標簽:b],33[標簽:b],然後進行數據處理。如果b的值是bb,那麼最後的結果就可能是11bb,22bb,33bb.

 

有的朋友可能會說,幹嘛將這個功能搞這麼複雜的。其實,這個功能主要是為第一條的功能使用的,其它的組合方式可能會產生和原想法不一樣的結果。建議大家不要濫用這個功能,不要將它想像成萬能的。

相關日誌:

網站抓取精靈火車采集器如何定時自動運行?

網頁抓取工具 火車采集器版本選擇攻略

學會網頁數據抓取讓互聯網成為你的私人數據庫

使用網站采集軟件必備偽原創秘笈

火車采集器V9:網頁抓取工具成圖文數據獲取捷徑

« v7版計劃任務增加cron表達式測試工具 | E商統計預覽版»

評論:

鋼絞線
2012-07-22 09:56
這個使用還是可以支持的

發表評論:

最後更新:2017-05-09 01:05:59

  上一篇:go 趕集網電話號碼識別
  下一篇:go 火車采集器v7版新浪評論采集插件