閱讀499 返回首頁    go Siteserver CMS


信息采集概述

Web是一個巨大的資源寶庫,目前頁麵數目已超過400億,每小時還以驚人的速度增長,裏麵有你需要的大量有價值的信息,例如潛在客戶的列表與聯係信息,競爭產品的價格列表,實時金融新聞,供求信息,論文摘要等等。 可是由於關鍵信息都是以半結構化或自由文本形式存在於大量的HTML網頁中,很難直接加以利用。

SiteServer CMS 信息采集功能的主要目標就是解決網絡信息的采集問題,係統通過一些定製的采集邏輯,自動從指定網站或數據庫中獲取內容並保存到網站中。

一、主要功能

SiteServer CMS 提供強大的信息采集功能模塊,用戶隻需要告訴係統目標網頁並簡單地設置頁麵規則,很快就可以直接得到所需要的數據了。

除了典型的Web頁麵信息采集外,係統還提供數據庫信息采集與單文件頁采集功能:
Web頁麵信息采集用於自動從指定網站中獲取內容;
數據庫信息采集用於自動從指定數據庫中獲取內容;
單文件頁采集用於將指定網頁采集到本地的對應文件中。

二、係統特點

 結果數據高度準確
 對目標網站進行信息自動抓取,支持HTML頁麵內各種數據的采集,如文本信息、圖片、附件、日期等
 用戶對每類信息自定義來源與分類
 可以下載圖片與各類文件
 支持定時任務,可以與SiteServer CMS 定時模塊相配合,定期抽取目標網站
 支持記錄唯一索引,避免相同信息重複入庫
 支持智能替換功能,可以將內容中嵌入的所有的無關部分如廣告去除
 支持下一頁自動瀏覽功能 
 支持數據的多種後期處理方式 
 數據直接進入數據庫而不是文件中,因此與利用這些數據的網站程序或者桌麵程序之間沒有任何耦合
 支持數據庫表結構完全自定義,充分利用現有數據庫結構
 支持多個欄目的信息采集可用同一配置一對多處理
 保證信息的完整性與準確性,絕不會出現亂碼

三、運用行業

通過信息采集功能,用戶將在信息來源,資源整合方麵節約大量的人力與資金。
廣泛應用於門戶網站,新聞媒體,科研單位、企業網站等領域。

最後更新:2017-01-07 22:37:23

  上一篇:go 站點通用配置概述
  下一篇:go 圖片水印配置