閱讀788 返回首頁    go 阿裏雲


處理-訪問日誌統計分析__最佳實踐_日誌服務-阿裏雲

場景

用戶使用ECS搭建網站,網站的訪問日誌(Nginx,Apache訪問日誌)收集到阿裏雲日誌服務中供查詢。為了從訪問日誌中挖掘出更多價值,日誌服務提供了一個docker鏡像,用於實時統計和展示網站訪問的一係列指標,例如PV,UV,延時,地理,狀態碼,爬蟲,網絡流量等指標。

日誌字段

  1. 192.168.1.101 - - [17/Mar/2016:10:28:30 +0800] "GET /fonts/fontawesome-webfont.woff?v=4.2.0 HTTP/1.1" 0.021 1207 304 0 "https://sls.console.aliyun.com/css/lib.css" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.87 Safari/537.36"

以上述日誌為例,分別提取的字段包括

字段名 字段樣例
ip 192.168.1.101
method GET
path /fonts/fontawesome-webfont.woff?v=4.2.0
latency 0.021
request_length 1207
status 304
response_length 0
referer https://sls.console.aliyun.com/css/lib.css
user_agent Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.87 Safari/537.36

指標

PV

分別以5分鍾、1小時、1天為統計周期,統計每個周期內的日誌總數。

UV

分別以1小時、1天為統計周期,統計每個周期內的IP總數。

頁麵

以天為統計周期,統計訪問最多的頁麵路徑,以及訪問最多的參數。例如請求/fonts/fontawesome-webfont.woff?v=4.2.0,提取出頁麵/fonts/fontawesome-webfont.woff 和參數v = 4.2.0

方法

方法指的是HTTP方法,包括GET,POST,DELETE,PUT等。以小時和天為統計周期,統計每個周期內每個方法的日誌條數。

地理

統計每個IP所屬的省份,展示所選時間段內每個省份的分布圖。

狀態碼

狀態碼指的是HTTP狀態碼,包括200,401,403,500等常見狀態碼。以小時和天為統計周期,統計每個周期內的狀態碼次數。

瀏覽器

瀏覽器分為多個子指標,分別統計每一個子指標出現的PV、UV。包括

  • 終端類型
    • 移動終端
    • 非移動終端
  • 瀏覽器類型

    • chrome
    • safari
    • IE
    • firefox
  • 操作係統

    • mac
    • window
    • linux
  • 瀏覽器內核

    • webkit
    • gecko

爬蟲

統計常見的爬蟲訪問量,常見爬蟲包括百度、Google、360、今日頭條。

來源頁

根據referer統計的來源域名,統計來源最高的20個域名。

延時

  • 統計每5分鍾內的網絡請求的延時的平均值和最大值。
  • 統計每天分布最多的延時的分布情況。出現次數較少的延時區間不會加入統計,比如一天內隻有一次延時為8s,大部分的延時都在0.3s 到 0.5s之間,那麼隻會統計0.3->0.4, 0.4->0.5的延時分布。
  • 統計每個小時延時最大的日誌。

流量

以小時為單位,根據request_length字段和response_length字段,統計訪問的入網流量和出網流量的大小。

和Google Analytics的比較

Google Analytics 基於日誌服務的訪問統計
實現方式 在瀏覽器端加JS,用戶訪問時觸發統計 根據服務端訪問日誌統計
是否能看到爬蟲信息
能否看到請求延時

開始使用

請參考使用文檔

最後更新:2016-11-23 17:16:06

  上一篇:go 處理-搭建監控係統__最佳實踐_日誌服務-阿裏雲
  下一篇:go 處理-使用訪問日誌統計__最佳實踐_日誌服務-阿裏雲