自己動手編寫CSDN博客備份工具-blogspider

來源：https://blog.csdn.net/gzshun

我之前一直在看lucene，nutch，發現有這麼一個現成的小應用，特轉來學習下！mark一下。

網絡爬蟲（又被稱為網頁蜘蛛，網絡機器人），是一種按照一定的規則，自動的抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻，自動索引，模擬程序或者蠕蟲。

網絡爬蟲最重要的任務，就是從互聯網搜索出需要的信息，將網頁抓取下來並分析，很多搜索引擎，比如百度，穀歌，後台都有一隻很強悍的網絡爬蟲，用來訪問互聯網上的網頁，圖片，視頻等內容，並建立索引數據庫，使用戶能在百度搜索引擎中搜索到您網站的網頁、圖片、視頻等內容。

我們常見的幾個大型搜索引擎公司的爬蟲名稱：
1.穀歌（Google） -> Googlebot
2.百度（Baidu）爬蟲名稱：Baiduspider
3.雅虎（Yahoo） -> Yahoo! Slurp
4.有道（Yodao） -> YodaoBot
5.搜狗（sogou） -> Sogou spider
6.MSN -> msmbot
7.騰訊搜搜 -> Sosospider

最近我突然想自己動手寫一隻小型的博客爬蟲，將自己在CSDN博客網站寫的文章給抓取下來，想做個博客備份工具。當了解到網絡爬蟲的用途後，就來動手實現一個應用，用來備份自己在CSDN的博客，這樣即使沒有網絡，或者文章丟失了，我手頭都有一個備份。記得上次在微博看過CSDN創始人蔣濤先生說的一句話，他想做一個CSDN博客生成PDF文檔的工具，其實那也相當於對自己博客的備份，這樣就能很方便的瀏覽自己的寫的文章。

我寫的這個"blogspider"程序，將會把自己博客信息提取出來，並將所有的文章下載到本地。這裏隻是簡單的下載網頁而已，裏麵的圖片我沒有下載，那得涉及到太多的東西。如果電腦有網絡，將會很容易的看到博客裏麵的圖片，如果沒有網絡，圖片將無法顯示。

blogspider程序由C語言編寫的，基於Linux平台，我編寫該程序的環境如下：

[plain] view plain copy

gzshun@ubuntu:~$ uname -a
Linux ubuntu 2.6.32-24-generic-pae #39-Ubuntu SMP Wed Jul 28 07:39:26 UTC 2010 i686 GNU/Linux
gzshun@ubuntu:~$ gcc -v
Using built-in specs.
Target: i486-linux-gnu
Configured with: ../src/configure -v --with-pkgversion='Ubuntu 4.4.3-4ubuntu5' --with-bugurl=file:///usr/share/doc/gcc-4.4/README.Bugs --enable-languages=c,c++,fortran,objc,obj-c++ --prefix=/usr --enable-shared --enable-multiarch --enable-linker-build-id --with-system-zlib --libexecdir=/usr/lib --without-included-gettext --enable-threads=posix --with-gxx-include-dir=/usr/include/c++/4.4 --program-suffix=-4.4 --enable-nls --enable-clocale=gnu --enable-libstdcxx-debug --enable-plugin --enable-objc-gc --enable-targets=all --disable-werror --with-arch-32=i486 --with-tune=generic --enable-checking=release --build=i486-linux-gnu --host=i486-linux-gnu --target=i486-linux-gnu
Thread model: posix
gcc version 4.4.3 (Ubuntu 4.4.3-4ubuntu5)

本人在putty終端測試程序，可以正確的顯示中文，要設置為UTF-8，或者GB2312，如果顯示亂碼，切換一下字符集試試。

一.blogspider的功能簡介：

1.獲取博客的基本信息:
博客標題
博客訪問量
博客積分
博客排名
博客原創文章數量
博客轉載文章數量
博客譯文文章數量
博客評論數量

2.下載博客到本地:
博客主題
博客發表日期
博客閱讀次數
博客評論次數

二.blogspider涉及到的知識點:
1.文件I/O
2.網絡編程socket
3.數據結構-鏈表
4.內存分配

三.blogspider程序執行流程:
以我的博客為例：
1.將"https://blog.csdn.net/gzshun"主頁下載到本地
2.分析該主頁，獲取到博客的URL
3.將博客的URL添加到爬蟲鏈表
4.遍曆爬蟲鏈表，將博客下載到本地
5.將下載日誌保存在gzshun.log

四.blogspider程序的重要部分:

1.爬蟲鏈表的結構體

自己動手編寫CSDN博客備份工具-blogspider

上一篇： 各大網站收錄入口| 各大搜索引擎提交 | 搜索引擎提交地址

下一篇： iPhone上安裝Android係統詳細步驟

相關內容

熱門內容

最新內容

上一篇：各大網站收錄入口| 各大搜索引擎提交 | 搜索引擎提交地址