959 技術社區[雲棲]

一篇文讀懂緩存在大型分布式係統中的最佳應用

本文大綱：

緩存概述
CDN緩存
反向代理緩存
分布式緩存
本地緩存
緩存架構示例
緩存常見問題

一、緩存概述

緩存是分布式係統中的重要組件，主要解決高並發，大數據場景下，熱點數據訪問的性能問題。提供高性能的數據快速訪問。

1、緩存的原理

將數據寫入/讀取速度更快的存儲（設備）；
將數據緩存到離應用最近的位置；
將數據緩存到離用戶最近的位置。

2、緩存分類

在分布式係統中，緩存的應用非常廣泛，從部署角度有以下幾個方麵的緩存應用。

CDN緩存；
反向代理緩存；
分布式Cache；
本地應用緩存；

3、緩存媒介

常用中間件：Varnish，Ngnix，Squid，Memcache，Redis，Ehcache等；
緩存的內容：文件，數據，對象；
緩存的介質：CPU，內存（本地，分布式），磁盤（本地，分布式）

4、緩存設計

緩存設計需要解決以下幾個問題：

緩存什麼？

哪些數據需要緩存：1.熱點數據；2.靜態資源。

緩存的位置？

CDN，反向代理，分布式緩存服務器，本機（內存，硬盤）

如何緩存的問題？

過期策略
固定時間：比如指定緩存的時間是30分鍾；
相對時間：比如最近10分鍾內沒有訪問的數據；
同步機製
實時寫入；（推）
異步刷新；（推拉）

二、CDN緩存

CDN主要解決將數據緩存到離用戶最近的位置，一般緩存靜態資源文件（頁麵，腳本，圖片，視頻，文件等）。國內網絡異常複雜，跨運營商的網絡訪問會很慢。為了解決跨運營商或各地用戶訪問問題，可以在重要的城市，部署CDN應用。使用戶就近獲取所需內容，降低網絡擁塞，提高用戶訪問響應速度和命中率。

1、CND原理

CDN的基本原理是廣泛采用各種緩存服務器，將這些緩存服務器分布到用戶訪問相對集中的地區或網絡中，在用戶訪問網站時，利用全局負載技術將用戶的訪問指向距離最近的工作正常的緩存服務器上，由緩存服務器直接響應用戶請求。

（1）未部署CDN應用前

網絡請求路徑：

請求：本機網絡（局域網）——》運營商網絡——》應用服務器機房
響應：應用服務器機房——》運營商網絡——》本機網絡（局域網）

在不考慮複雜網絡的情況下，從請求到響應需要經過3個節點，6個步驟完成一次用戶訪問操作。

（2）部署CDN應用後

網絡路徑：

請求：本機網絡（局域網）——》運營商網絡
響應：運營商網絡——》本機網絡（局域網）

在不考慮複雜網絡的情況下，從請求到響應需要經過2個節點，2個步驟完成一次用戶訪問操作。

與不部署CDN服務相比，減少了1個節點，4個步驟的訪問。極大的提高的係統的響應速度。

2、CDN優缺點

優點（摘自百度百科）：

本地Cache加速：提升訪問速度，尤其含有大量圖片和靜態頁麵站點。

鏡像服務：消除了不同運營商之間互聯的瓶頸造成的影響，實現了跨運營商的網絡加速，保證不同網絡中的用戶都能得到良好的訪問質量。

遠程加速：遠程訪問用戶根據DNS負載均衡技術智能自動選擇Cache服務器，選擇最快的Cache服務器，加快遠程訪問的速度。

帶寬優化：自動生成服務器的遠程Mirror（鏡像）cache服務器，遠程用戶訪問時從cache服務器上讀取數據，減少遠程訪問的帶寬、分擔網絡流量、減輕原站點WEB服務器負載等功能。

集群抗攻擊：廣泛分布的CDN節點加上節點之間的智能冗餘機製，可以有效地預防黑客入侵以及降低各種D.D.o.S攻擊對網站的影響，同時保證較好的服務質量。

缺點：

動態資源緩存，需要注意實時性；

解決：主要緩存靜態資源，動態資源建立多級緩存或準實時同步；

如何保證數據的一致性和實時性需要權衡考慮；

解決：

（1）設置緩存失效時間（1個小時，最終一致性）；

（2）數據版本號；

3、CND架構參考

摘自《雲宙視頻CDN係統》

4、CND技術實踐

目前，中小型互聯網公司，綜合成本考慮，一般租用第三方CDN服務，大型互聯網公司，采用自建或第三方結合的方式。比如淘寶剛開始使用第三方的，當流量很大後，第三方公司無法支撐其CDN流量，淘寶最後采用自建CDN的方式實現。

淘寶CDN，如下圖（來自網絡）：

三、反向代理緩存

反向代理是指在網站服務器機房部署代理服務器，實現負載均衡、數據緩存、安全控製等功能。

1、緩存原理

反向代理位於應用服務器機房，處理所有對WEB服務器的請求。如果用戶請求的頁麵在代理服務器上有緩衝的話，代理服務器直接將緩衝內容發送給用戶。如果沒有緩衝則先向WEB服務器發出請求，取回數據，本地緩存後再發送給用戶。通過降低向WEB服務器的請求數，從而降低了WEB服務器的負載。

反向代理一般緩存靜態資源，動態資源轉發到應用服務器處理。常用的緩存應用服務器有Varnish、Ngnix、Squid。

2、Squid示例

Squid 反向代理一般隻緩存靜態資源，動態程序默認不緩存。根據從 WEB 服務器返回的 HTTP 頭標記來緩衝靜態頁麵。有四個最重要 HTTP 頭標記：

Last-Modified：告訴反向代理頁麵什麼時間被修改
Expires：告訴反向代理頁麵什麼時間應該從緩衝區中刪除
Cache-Control：告訴反向代理頁麵是否應該被緩衝
Pragma用來包含實現特定的指令，最常用的是 Pragma:no-cache

Squid 反向代理加速網站實例

通過DNS的輪詢技術，將客戶端的請求分發給其中一台 Squid 反向代理服務器處理；
如果這台 Squid 緩存了用戶的請求資源，則將請求的資源直接返回給用戶；
否則這台 Squid 將沒有緩存的請求根據配置的規則發送給鄰居 Squid 和後台的 WEB 服務器處理；
這樣既減輕後台 WEB 服務器的負載，又提高整個網站的性能和安全性。

2、代理緩存比較

常用的代理緩存有Varnish，Squid，Ngnix，簡單比較如下：

（1）varnish和squid是專業的cache服務，nginx需要第三方模塊支持；

（2） Varnish采用內存型緩存，避免了頻繁在內存、磁盤中交換文件，性能比Squid高；

（3）Varnish由於是內存cache，所以對小文件如css,js,小圖片啥的支持很棒，後端的持久化緩存可以采用的是Squid或ATS；

（4）Squid功能全而大，適合於各種靜態的文件緩存，一般會在前端掛一個HAProxy或nginx做負載均衡跑多個實例；

（5）Nginx采用第三方模塊ncache做的緩衝，性能基本達到varnish，一般作為反向代理使用，可以實現簡單的緩存。

四、分布式緩存

CDN，反向代理緩存，主要解決靜態文件，或用戶請求資源的緩存，數據源一般為靜態文件或動態生成的文件（有緩存頭標識）。

而分布式緩存，主要指緩存用戶經常訪問數據的緩存，數據源為數據庫。一般起到熱點數據訪問和減輕數據庫壓力的作用。

目前分布式緩存設計，在大型網站架構中是必備的架構要素。常用的中間件有Memcache，Redis。

1、Memcache

Memcache是一個高性能，分布式內存對象緩存係統，通過在內存裏維護一個統一的巨大的hash表，它能夠用來存儲各種格式的數據，包括圖像、視頻、文件以及數據庫檢索的結果等。簡單的說就是將數據調用到內存中，然後從內存中讀取，從而大大提高讀取速度。

Memcache特性：

（1）使用物理內存作為緩存區，可獨立運行在服務器上。每個進程最大2G，如果想緩存更多的數據，可以開辟更多的Memcache進程（不同端口）或者使用分布式Memcache進行緩存，將數據緩存到不同的物理機或者虛擬機上。

（2）使用key-value的方式來存儲數據，這是一種單索引的結構化數據組織形式，可使數據項查詢時間複雜度為O(1)。

（3）協議簡單：基於文本行的協議，直接通過telnet在memcached服務器上可進行存取數據操作，簡單，方便多種緩存參考此協議。

（4）基於Libevent高性能通信：Libevent是一套利用C開發的程序庫，它將BSD係統的kqueue，Linux係統的epoll等事件處理功能封裝成一個接口，與傳統的select相比，提高了性能。

（5）內置的內存管理方式：所有數據都保存在內存中，存取數據比硬盤快，當內存滿後，通過LRU算法自動刪除不使用的緩存，但沒有考慮數據的容災問題，重啟服務，所有數據會丟失。

（6）分布式：各個memcached服務器之間互不通信，各自獨立存取數據，不共享任何信息。服務器並不具有分布式功能，分布式部署取決於Memcache客戶端。

（7）緩存策略：memcached的緩存策略是LRU（最近最少使用）到期失效策略。在memcached內存儲數據項時，可以指定它在緩存的失效時間，默認為永久。當memcached服務器用完分配的內時，失效的數據被首先替換，然後也是最近未使用的數據。在LRU中，memcached使用的是一種Lazy Expiration策略，自己不會監控存入的key/vlue對是否過期，而是在獲取key值時查看記錄的時間戳，檢查key/value對空間是否過期，這樣可減輕服務器的負載。

Memcache工作原理：

Memcache的工作流程如下：

（1）先檢查客戶端的請求數據是否在memcached中，如有，直接把請求數據返回，不再對數據庫進行任何操作。

（2）如果請求的數據不在memcached中，就去查數據庫，把從數據庫中獲取的數據返回給客戶端，同時把數據緩存一份到memcached中（memcached客戶端不負責，需要程序實現）。

（3）每次更新數據庫的同時更新memcached中的數據，保證一致性。

（4）當分配給memcached內存空間用完之後，會使用LRU（Least Recently Used，最近最少使用）策略加上到期失效策略，失效數據首先被替換，然後再替換掉最近未使用的數據。

Memcache集群

memcached 雖然稱為“分布式 ” 緩存服務器，但服務器端並沒有 “ 分布式 ” 功能。每個服務器都是完全獨立和隔離的服務。 memcached 的分布式，是由客戶端程序實現的。

當向memcached集群存入/取出key value時，memcached客戶端程序根據一定的算法計算存入哪台服務器，然後再把key value值存到此服務器中。

存取數據分二步走，第一步，選擇服務器，第二步存取數據。

分布式算法(Consistent Hashing)：

選擇服務器算法有兩種，一種是根據餘數來計算分布，另一種是根據散列算法來計算分布。

餘數算法：

先求得鍵的整數散列值，再除以服務器台數，根據餘數確定存取服務器。

優點：計算簡單，高效。

缺點：在memcached服務器增加或減少時，幾乎所有的緩存都會失效。

散列算法：（一致性Hash）

先算出memcached服務器的散列值，並將其分布到0到2的32次方的圓上，然後用同樣的方法算出存儲數據的鍵的散列值並映射至圓上，最後從數據映射到的位置開始順時針查找，將數據保存到查找到的第一個服務器上，如果超過2的32次方，依然找不到服務器，就將數據保存到第一台memcached服務器上。

如果添加了一台Memcached服務器，隻在圓上增加服務器的逆時針方向的第一台服務器上的鍵會受到影響。

一致性Hash算法：解決了餘數算法增加節點命中大幅額度降低的問題，理論上，插入一個實體節點，平均會影響到：虛擬節點數 /2 的節點數據的命中。

2、Redis

Redis 是一個開源（BSD許可）的，基於內存的，多數據結構存儲係統。可以用作數據庫、緩存和消息中間件。支持多種類型的數據結構，如字符串（strings），散列（hashes），列表（lists），集合（sets），有序集合（sorted sets）與範圍查詢， bitmaps， hyperloglogs 和地理空間（geospatial）索引半徑查詢。

內置了複製（replication），LUA腳本（Lua scripting）， LRU驅動事件（LRU eviction），事務（transactions）和不同級別的磁盤持久化（persistence），並通過 Redis哨兵（Sentinel）和自動分區（Cluster）提供高可用性（high availability）。

Redis常用數據類型

String

常用命令：set，get，decr，incr，mget。

應用場景：String是最常用的一種數據類型，與Memcache的key value存儲方式類似。

實現方式：String在Redis內部存儲默認就是一個字符串，被redisObject所引用，當遇到incr，decr等操作時會轉成數值型進行計算，此時redisObject的encoding字段為int。

Hash

常用命令：hget，hset，hgetall 。

應用場景：以存儲一個用戶信息對象數據，為例：

實現方式：Redis Hash對應的Value，內部實際就是一個HashMap，實際這裏會有2種不同實現。

（1）Hash的成員比較少時Redis為了節省內存會采用類似一維數組的方式來緊湊存儲，而不會采用真正的HashMap結構，對應的value redisObject的encoding為zipmap。

（2）當成員數量增大時會自動轉成真正的HashMap，此時encoding為ht。

List

常用命令：lpush,rpush,lpop,rpop,lrange。

應用場景：Redis list的應用場景非常多，也是Redis最重要的數據結構之一，比如twitter的關注列表，粉絲列表等都可以用Redis的list結構來實現。

實現方式：Redis list的實現為一個雙向鏈表，可以支持反向查找和遍曆，方便操作。不過帶來了部分額外的內存開銷，Redis內部的很多實現，包括發送緩衝隊列等也都是用的這個數據結構。

Set

常用命令：sadd,spop,smembers,sunion。

應用場景：Redis set對外提供的功能與list類似是一個列表的功能，特殊之處在於set是可以自動排重的，當你需要存儲一個列表數據，又不希望出現重複數據時，set 是一個很好的選擇，並且set提供了判斷某個成員是否在一個set集合內的重要接口，這個也是list所不能提供的。

實現方式：set的內部實現是一個value永遠為null的HashMap，實際就是通過計算hash的方式來快速排重的，這也是set能提供判斷一個成員是否在集合內的原因。

Sorted set

常用命令：zadd、zrange、zrem、zcard。

使用場景：Redis sorted set的使用場景與set類似，區別是set不是自動有序的，而sorted set可以通過用戶額外提供一個優先級(score)的參數來為成員排序，並且是插入有序的，即自動排序。當你需要一個有序的並且不重複的集合列表，可以選擇sorted set數據結構，比如twitter 的public timeline可以以發表時間作為score來存儲，這樣獲取時就是自動按時間排好序的。

實現方式：Redis sorted set的內部使用HashMap和跳躍表(SkipList)來保證數據的存儲和有序，HashMap裏放的是成員到score的映射，而跳躍表裏存放的是所有的成員，排序依據是HashMap裏存的score,使用跳躍表的結構可以獲得比較高的查找效率，並且在實現上比較簡單。

Redis集群

（1）通過keepalived實現的高可用方案

切換流程：

當Master掛了後，VIP漂移到Slave；Slave 上keepalived 通知redis 執行：slaveof no one ,開始提供業務；
當Master起來後，VIP 地址不變，Master的keepalived 通知redis 執行slaveof slave IP host ，開始作為從同步數據；
依次類推。

主從同時Down機情況：

非計劃性，不做考慮，一般也不會存在這種問題
計劃性重啟，重啟之前通過運維手段SAVE DUMP 主庫數據；需要注意順序：

關閉其中一台機器上所有redis，是得master全部切到另外一台機器（多實例部署，單機上既有主又有從的情況）；並關閉機器
依次dump主上redis服務
關閉主
啟動主，並等待數據load完畢
啟動從
刪除DUMP 文件（避免重啟加載慢）

（2）使用Twemproxy 實現集群方案

由twitter開源的c版本proxy，同時支持memcached和redis，目前最新版本為：0.2.4，持續開發中;https://github.com/twitter/twemproxy .twitter用它主要減少前端與緩存服務間網絡連接數。

特點：快、輕量級、減少後端Cache Server連接數、易配置、支持ketama、modula、random、常用hash分片算法。

這裏使用keepalived實現高可用主備方案，解決proxy單點問題。

優點：

對於客戶端而言，redis集群是透明的，客戶端簡單，遍於動態擴容；
Proxy為單點、處理一致性hash時，集群節點可用性檢測不存在腦裂問題；
高性能，CPU密集型，而redis節點集群多CPU資源冗餘，可部署在redis節點集群上，不需要額外設備。

3、Memcache與Redis的比較

（1）數據結構：Memcache隻支持key value存儲方式，Redis支持更多的數據類型，比如Key value、hash、list、set、zset；

（2）多線程：Memcache支持多線程，Redis支持單線程；CPU利用方麵Memcache優於Redis；

（3）持久化：Memcache不支持持久化，Redis支持持久化；

（4）內存利用率：Memcache高，Redis低（采用壓縮的情況下比Memcache高）；

（5）過期策略：Memcache過期後，不刪除緩存，會導致下次取數據數據的問題，Redis有專門線程，清除緩存數據；

五、本地緩存

本地緩存是指應用內部的緩存，標準的分布式係統，一般有多級緩存構成。本地緩存是離應用最近的緩存，一般可以將數據緩存到硬盤或內存。

1、硬盤緩存

將數據緩存到硬盤到，讀取時從硬盤讀取。原理是直接讀取本機文件，減少了網絡傳輸消耗，比通過網絡讀取數據庫速度更快。可以應用在對速度要求不是很高，但需要大量緩存存儲的場景。

2、內存緩存

直接將數據存儲到本機內存中，通過程序直接維護緩存對象，是訪問速度最快的方式。

六、緩存架構示例

職責劃分：

CDN：存放HTML、CSS、JS等靜態資源；

反向代理：動靜分離，隻緩存用戶請求的靜態資源；

分布式緩存：緩存數據庫中的熱點數據；

本地緩存：緩存應用字典等常用數據。

請求過程：

（1）瀏覽器向客戶端發起請求，如果CDN有緩存則直接返回；

（2）如果CDN無緩存，則訪問反向代理服務器；

（3）如果反向代理服務器有緩存則直接返回；

（4）如果反向代理服務器無緩存或動態請求，則訪問應用服務器；

（5）應用服務器訪問本地緩存；如果有緩存，則返回代理服務器，並緩存數據；（動態請求不緩存）

（6）如果本地緩存無數據，則讀取分布式緩存；並返回應用服務器；應用服務器將數據緩存到本地緩存（部分）；

（7）如果分布式緩存無數據，則應用程序讀取數據庫數據，並放入分布式緩存。

七、緩存常見問題

1、數據一致性

緩存是在數據持久化之前的一個節點，主要是將熱點數據放到離用戶最近或訪問速度更快的介質中，加快數據的訪問，減小響應時間。

因為緩存屬於持久化數據的一個副本，因此不可避免的會出現數據不一致問題。導致髒讀或讀不到數據的情況。數據不一致，一般是因為網絡不穩定或節點故障導致。根據數據的操作順序，主要有以下幾種情況。

場景介紹

（1）先寫緩存，再寫數據庫

如下圖：

假如緩存寫成功，但寫數據庫失敗或響應延遲，則下次讀取（並發讀）緩存時，就出現髒讀。

（2）先寫數據庫，再寫緩存

如下圖：

假如寫數據庫成功，但寫緩存失敗，則下次讀取（並發讀）緩存時，則讀不到數據。

（3）緩存異步刷新

指數據庫操作和寫緩存不在一個操作步驟中，比如在分布式場景下，無法做到同時寫緩存或需要異步刷新（補救措施）時候。

此種情況，主要考慮數據寫入和緩存刷新的時效性。比如多久內刷新緩存，不影響用戶對數據的訪問。

解決方法

第一個場景：這個寫緩存的方式，本身就是錯誤的，需要改為先寫持久化介質，再寫緩存的方式。

第二個場景：

（1）根據寫入緩存的響應來進行判斷，如果緩存寫入失敗，則回滾數據庫操作；此種方法增加了程序的複雜度，不建議采用；

（2）緩存使用時，假如讀緩存失敗，先讀數據庫，再回寫緩存的方式實現。

第三個場景：

（1）首先確定，哪些數據適合此類場景；

（2）根據經驗值確定合理的數據不一致時間，用戶數據刷新的時間間隔。

其他方法

（1）超時：設置合理的超時時間；

（2）刷新：定時刷新一定範圍內（根據時間，版本號）的數據；

以上是簡化數據讀寫場景，實際中會分為：

（1）緩存與數據庫之間的一致性；

（2）多級緩存之前的一致性；

（3）緩存副本之前的一致性。

2、緩存高可用

業界有兩種理論，第一套緩存就是緩存，臨時存儲數據的，不需要高可用。第二種緩存逐步演化為重要的存儲介質，需要做高可用。

本人的看法是，緩存是否高可用，需要根據實際的場景而定。臨界點是是否對後端的數據庫造成影響。

具體的決策依據需要根據，集群的規模（數據，緩存），成本（服務器，運維），係統性能（並發量，吞吐量，響應時間）等方麵綜合評價。

解決方法

緩存的高可用，一般通過分布式和複製實現。分布式實現數據的海量緩存，複製實現緩存數據節點的高可用。架構圖如下：

其中，分布式采用一致性Hash算法，複製采用異步複製。

其他方法

（1）複製雙寫：緩存節點的複製，由異步改為雙寫，隻有兩份都寫成功，才算成功。

（2）虛擬層：一致性Hash存在，假如其中一個HASH環不可用，數據會寫入臨近的環，當HASH可用時，數據又寫入正常的HASH環，會導致數據偏移問題。這種情況，可以考慮在HASH環前麵加一個虛擬層實現。

（3）多級緩存：比如一級使用本地緩存，二級采用分布式Cahce，三級采用分布式Cache+本地持久化；

方式很多，需要根據業務場景靈活選擇。

3、緩存雪崩

雪崩是指當大量緩存失效時，導致大量的請求訪問數據庫，導致數據庫服務器，無法抗住請求或掛掉的情況。

解決方法：

（1）合理規劃緩存的失效時間；

（2）合理評估數據庫的負載壓力；

（3）對數據庫進行過載保護或應用層限流；

（4）多級緩存設計，緩存高可用。

4、緩存穿透

緩存一般是Key，value方式存在，當某一個Key不存在時會查詢數據庫，假如這個Key，一直不存在，則會頻繁的請求數據庫，對數據庫造成訪問壓力。

解決方法：

（1）對結果為空的數據也進行緩存，當此key有數據後，清理緩存；

（2）一定不存在的key，采用布隆過濾器，建立一個大的Bitmap中，查詢時通過該bitmap過濾。

作者介紹侯忠好

網名：ITFLY8，十年工作經驗，目前從事電商係統開發，熟悉設計模式，架構模式，分布式係統設計。業餘時間致力於技術總結和架構知識的傳播。

原文發布時間為：2017-02-14

本文來自雲棲社區合作夥伴DBAplus

最後更新：2017-05-15 18:02:09

一篇文讀懂緩存在大型分布式係統中的最佳應用

上一篇：一次馬失前蹄的SQL優化：遞歸查詢引發的血案

下一篇：從0到1構建大數據生態係列1：數據蠻荒中的拓荒之舉

相關內容

熱門內容

最新內容

一篇文讀懂緩存在大型分布式係統中的最佳應用

上一篇： 一次馬失前蹄的SQL優化：遞歸查詢引發的血案

下一篇： 從0到1構建大數據生態係列1：數據蠻荒中的拓荒之舉

相關內容

熱門內容

最新內容

上一篇：一次馬失前蹄的SQL優化：遞歸查詢引發的血案

下一篇：從0到1構建大數據生態係列1：數據蠻荒中的拓荒之舉