168
火車采集器
抓取網頁數據工具標簽組合的使用方法
抓取網頁數據工具標簽組合的使用方法
作者:dong 發布於:2016-7-22 13:59 Friday 分類:官方公告
抓取網頁數據工具火車采集器V9將標簽組合功能放在了數據獲取方式選項中,即可以通過標簽組合來獲取標簽數據,下麵講解一下該功能如何使用。學習之前需要注意以下幾種情況:
1.標簽組合是組合文件下載前的內容
有的朋友發現,a標簽中下載了某個文件,原始地址是aaa,下載後或是探測的地址為bbb,那麼,如果您在b標簽中組合使用a標簽,a標簽的值是aaa.為何使用這種處理方法,是因為文件下載是在標簽組合之後進行的。如何達到標簽內容是文件下載完後的結果呢?可以新建一個標簽,選“自定義固定格式數據”,將您標簽組合的內容放進去。這裏的替換會在文件下載後執行。
2.內容頁標簽循環采集並添加為新記錄
如果組合的兩個標簽都是內容頁標簽,這兩個標簽在組合時,會按循環數最大的記錄產生新的同樣數目的循環記錄。如果某個標簽的循環數較少,則新產生的標簽中該標簽的值為空。例如標簽a,b組合生成標簽c。a的循環數是5,b的循環數是3,則會生成5個c,其中,前3個標簽的值分別是a,b一一對應的。最後兩個值中,b的值為空。比如我們假設a的值是11、22、33、44、55,而b的值為aa、bb、cc,那麼c是由[標簽:a][標簽:b]組合的,則產生的c的值為11aa、22bb、33cc、44、55,後麵兩個b值為空。
3.列表頁標簽和內容頁標簽組合
如果兩個標簽中一個是內容頁,一個是列表頁,則內容頁是會參加第2條中的循環處理,在這個過程中列表頁先當作一個字符串處理。合並完成後,程序會再進行數據處理操作。最後,組合標簽中的列表頁標簽內容將被替換成實際的值。組合後的結果中,可以再提取下載。比如內容頁a和列表頁b組合生成c,其中a的值為11、22、33,b的值為bb,那麼,c第一次組合結果是11[標簽:b]、22[標簽:b]、33[標簽:b],然後進行數據處理:如果b的值是bb,那麼最後的結果就是11bb、22bb、33bb。
下麵來實際操作下,已有標簽的組合操作示例如下:
我們把“標題”和“來源”標簽組合成一個新標簽“標題+來源”,之間用“___”隔開,我們測試下結果如下圖,查看該標簽內容可以看到測試結果和預期效果是一樣的。
那麼生成固定格式數據的組合方式怎麼操作呢?看下圖:
再測試一下,可以看到測試結果和已有標簽組合的結果是一致的。
標簽: 火車采集器V9
最後更新:2017-05-09 01:06:04
上一篇:
DedeCMS5.6文章免登陸發布接口(2012.10.24)
下一篇:
網頁抓取工具:火車采集器V9版免費下載
A debugger has been found running in your system.Please,unload it from memory and restart 。。。
分頁采集教程
網頁抓取工具抓取圖片時如何加減水印
新建任務在站點上不顯示的問題
如何將同一張圖片在不同的標簽中多次下載
安裝免費的SQL Server Express來保存數據到SqlServer中去。
V8版Wordpress3.5群發助手(最後更新2014-09-10)
火車采集器抓取的數據能直接存入oracle的blob字段
V8新浪博客發布擴展(最後更新2014.6.25)
關於標簽組合功能的使用說明