閱讀426 返回首頁    go gooseeker集搜客


模擬真人行為的反爬蟲的一些研究



最近沉浸在反爬研究,先用百度拓詞工具搜集了所有關於反爬的內容,最後歸納一下其實反爬策略也不多。反正每種反爬策略都是抬高了爬蟲運行成本,直到高到讓爬數據的感覺不劃算。那麼在爬蟲開發者方麵,就要想辦法怎樣進一步提高效率降低運行成本。
具體那些常見的反爬就不說了(可以看《反爬蟲應對方法》),我隻說說最近在做的事情應對反爬。
最近主要研究網站的機器人識別程序,有些網站使用了很複雜的機器人識別程序。我先做了一個專門的行為錄製程序(在MS謀數台的開發者工具菜單欄中),用來錄製大量的真人瀏覽網頁的行為和瀏覽器事件,並且進行標注,然後,從這些數據中抽取特征,用一些算法,包括有監督的機器學習,建立行為模型。本來想用來破解滑動驗證碼,不過滑動驗證碼太弱了,需要找一個更加複雜的網站檢驗這個模型

最後更新:2017-01-09 14:08:09

  上一篇:go DS打數機采集數據
  下一篇:go Python爬蟲實戰(3):安居客房產經紀人信息采集