閱讀963 返回首頁    go 阿裏雲 go 技術社區[雲棲]


天泰OpenWAF開源防惡意爬蟲模塊

天泰OpenWAF開源防惡意爬蟲模塊

最近在網上看到一個有趣的問題:整個互聯網的流量中,真人的占比有多少?根據 Aberdeen Group在近期發布的以北美幾百家公司數據為樣本的爬蟲調查報告顯示,最近三年網站流量中的真人訪問平均僅為總流量的50%,剩餘的流量由28.11%的善意爬蟲和21.89%的惡意爬蟲構成,可見爬蟲數量是多麼驚人。
什麼是網絡爬蟲?
網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
如何定義惡意爬蟲?
正常的爬蟲,會先訪問/robots.txt文件,看哪些路徑允許爬,哪些路徑禁爬。惡意的爬蟲,會無視禁爬路徑,依然對那些路徑進行訪問,甚至都不去訪問/robots.txt文件
123

惡意爬蟲的危害
可能很多人認為,惡意爬蟲隻會威脅到少數以文本為核心價值的網站,其實這些能改變自己請求路徑和請求方式的偽裝者可能潛伏在任何一個網站的每一個角落,文本、圖片、價格、評論、接口、架構等方方麵麵均有可能成為爬蟲的囊中物。
核心文件被爬不說,商品信息,價格或者注冊賬號被掃描等都將會給運營者帶來大量的麻煩和損失。
為什麼惡意爬蟲屢禁不止?
爬與反爬的鬥爭從未間斷。過去的初級爬蟲能很明顯從異常的Headers信息甄別,但爬蟲製造者從一次次爬與反爬中總結出可能被封的原因,通過不斷的測試和改善爬蟲程序,更新換代後的高持續性惡意爬蟲通常具有以下特點中的某幾個:
1.模仿真人行為
2.加載 JavaScript 和外部資源
3.模擬cookie和 useragent
4.瀏覽器自動化操作
5.變化的IP地址池
這些,無疑都給防惡意爬蟲帶來了巨大的麻煩。


天泰OpenWAF的防爬蟲功能
針對惡意爬蟲,OpenWAF針對以下行為進行分析,有效攔截惡意爬蟲
1.訪問禁爬路徑(暗鏈陷阱)
2.訪問過/robots.txt文件,且訪問除了GET和HEAD還有其他方法,如POST請求
3.攜帶惡意爬蟲cookie進行訪問
OpenWAF行為分析引擎中,包含惡意爬蟲檢測模塊。針對不訪問/robots.txt文件的爬蟲,OpenWAF設置暗鏈陷阱,凡是訪問此暗鏈的均為惡意爬蟲。對於沒有/robots.txt文件的站點也不用擔心,OpenWAF會自動生成一個/robots.txt文件,供他人訪問。
有些爬蟲工具不帶有js模塊,OpenWAF返回的惡意爬蟲cookie,下次請求時不會攜帶此cookie。針對這類工具,OpenWAF會在內存中將此工具進行標記(默認5分鍾),即使不帶有此cookie,再次訪問時,依然會被識別出來。
其實防掃描也是一個道理,我們會在第一次訪問的時候辨別是否為掃描。如果OpenWAF認為請求不合法,會在內存中標記該行為,並在他再次訪問時進行阻止。


我們始終堅信“愈分享,愈安全”,希望有更多人能夠嚐試OpenWAF,並加入防護WEB安全的隊伍,並給我們提出您的寶貴意見。附阿裏雲上OpenWAF的Docker鏈接https://cr.console.aliyun.com/?spm=5176.2020520152.209.d103.l60zo5

如您需要獲取安全建議,可以通過以下方式聯係我們:
400服務熱線:4006786569
企業支持QQ:4006786569
技術支持郵箱:support@titansec.com.cn

想要了解更多安全資訊,請用微信掃下方二維碼
_8cm_

最後更新:2017-04-12 23:25:18

  上一篇:go 一天學會PostgreSQL應用開發與管理 - 7 函數、存儲過程和觸發器
  下一篇:go 一天學會PostgreSQL應用開發與管理 - 5 數據定義