閱讀512 返回首頁    go 阿裏雲 go 技術社區[雲棲]


Jedis常見異常匯總

Jedis雖然使用起來比較簡單,但是如果不能根據使用場景設置合理的參數(例如連接池參數),不合理的使用一些功能(例如Lua和事務)也會產生很多問題,本文對這些問題逐個說明:

一.無法從連接池獲取到Jedis連接

1.異常堆棧

(1) 連接池參數blockWhenExhausted = true(默認)

如果連接池沒有可用Jedis連接,會等待maxWaitMillis(毫秒),依然沒有獲取到可用Jedis連接,會拋出如下異常:

redis.clients.jedis.exceptions.JedisConnectionException: Could not get a resource from the pool
    …
Caused by: java.util.NoSuchElementException: Timeout waiting for idle object
    at org.apache.commons.pool2.impl.GenericObjectPool.borrowObject(GenericObjectPool.java:449)

(2) 連接池參數blockWhenExhausted = false

設置如果連接池沒有可用Jedis連接,立即拋出異常:

redis.clients.jedis.exceptions.JedisConnectionException: Could not get a resource from the pool
    …
Caused by: java.util.NoSuchElementException: Pool exhausted
    at org.apache.commons.pool2.impl.GenericObjectPool.borrowObject(GenericObjectPool.java:464)

2.異常描述

1

上述異常是客戶端沒有從連接池(最大maxTotal個)拿到可用Jedis連接造成的,具體可能有如下原因:

(1) 連接泄露 (**較為常見**)

JedisPool默認的maxTotal=8,下麵的代碼從JedisPool中借了8次Jedis,但是沒有歸還,當第9次(jedisPool.getResource().ping())

GenericObjectPoolConfig poolConfig = new GenericObjectPoolConfig();
JedisPool jedisPool = new JedisPool(poolConfig, "127.0.0.1", 6379);
//向JedisPool借用8次連接,但是沒有執行歸還操作。
for (int i = 0; i < 8; i++) {
    Jedis jedis = null;
    try {
        jedis = jedisPool.getResource();
        jedis.ping();
    } catch (Exception e) {
        logger.error(e.getMessage(), e);
    }
}
jedisPool.getResource().ping();

所以推薦使用的代碼規範是:

執行命令如下:
Jedis jedis = null;
try {
    jedis = jedisPool.getResource();
    //具體的命令
    jedis.executeCommand()
} catch (Exception e) {
    //如果命令有key最好把key也在錯誤日誌打印出來,對於集群版來說通過key可以幫助定位到具體節點。
    logger.error(e.getMessage(), e);
} finally {
    //注意這裏不是關閉連接,在JedisPool模式下,Jedis會被歸還給資源池。
    if (jedis != null) 
        jedis.close();
}
(2) 業務並發量大,maxTotal確實設置小了。

舉個例子:

  • 一次命令時間(borrow|return resource + Jedis執行命令(含網絡) )的平均耗時約為1ms,一個連接的QPS大約是1000

  • 業務期望的QPS是50000

那麼理論上需要的資源池大小是50000 / 1000 = 50個,實際maxTotal可以根據理論值進行微調。

(3) Jedis連接還的太慢

例如Redis發生了阻塞(例如慢查詢等原因),所有連接在超時時間範圍內等待,並發量較大時,會造成連接池資源不足。

(4) 其他問題

例如丟包、DNS、客戶端TCP參數配置,具體可以參考:Jedis介紹及常見問題分析

3.解決方法:

可以看到這個問題稍微複雜一些,不要被異常的表象所迷惑,簡單地認為連接池不夠就盲目加大maxTotal,要具體問題具體分析。

連接池參數優化可以參考:JedisPool資源池優化

4.處理人

客戶先確認,如解決不了,需要借助值班同學處理

二、客戶端緩衝區異常

1.異常堆棧

redis.clients.jedis.exceptions.JedisConnectionException: Unexpected end of stream.
    at redis.clients.util.RedisInputStream.ensureFill(RedisInputStream.java:199)
    at redis.clients.util.RedisInputStream.readByte(RedisInputStream.java:40)
    at redis.clients.jedis.Protocol.process(Protocol.java:151)
......

2.異常描述:

這個異常是客戶端緩衝區異常,產生這個問題可能有三個原因:

(1) 常見原因:多個線程使用一個Jedis連接,正常的情況是一個線程使用一個Jedis連接,可以使用JedisPool管理Jedis連接,實現線程安全,防止出現這種情況,例如下麵代碼中兩個線程用了一個Jedis連接:
new Thread(new Runnable() {

    public void run() {
        for (int i = 0; i < 100; i++) {
            jedis.get("hello");
        }
    }
}).start();

new Thread(new Runnable() {

    public void run() {
        for (int i = 0; i < 100; i++) {
            jedis.hget("haskey", "f");
        }
    }
}).start();
(2) 客戶端緩衝區滿了

例如將普通客戶端的輸出緩衝區設置為1M 1M 60:

config set client-output-buffer-limit "normal 1048576 1048576 60 slave 268435456 67108864 60 pubsub 33554432 8388608 60"

如果使用get命令獲取一個bigkey(例如3M),就會出現這個異常。

(3) 長時間閑置連接被服務端主動斷開,可以查詢timeout配置的設置以及自身連接池配置是否需要做空閑檢測。

3.解決方法和處理人:

客戶:排查自身代碼是否使用JedisPool管理Jedis連接,是否存在並發操作Jedis的情況。

值班同學: 排查(2)(3),阿裏雲Redis中timeout=0,也就是不會主動關閉空閑連接,緩衝區設置為0 0 0 也就是不會對客戶端緩衝區進行限製,一般不會有問題

三、非法客戶端地址

1.異常堆棧

Caused by: redis.clients.jedis.exceptions.JedisDataException: ERR illegal address
    at redis.clients.jedis.Protocol.processError(Protocol.java:117)
    at redis.clients.jedis.Protocol.process(Protocol.java:151)
    at redis.clients.jedis.Protocol.read(Protocol.java:205)
    ......

2.異常描述:

Redis實例配置了白名單,但當前訪問Redis的客戶端(IP)不在白名單中。

3.解決方法:

添加該客戶端(IP)的白名單

4.處理人

客戶或者值班同學都可以操作

四、客戶端連接數達到最大值

1.異常堆棧

redis.clients.jedis.exceptions.JedisDataException: ERR max number of clients reached

2.異常描述:

如果客戶端連接數超過了Redis實例配置的最大maxclients

3.解決方法:

聯係值班同學幫助臨時調大最大連接數,並讓客戶找到連接數暴漲的原因(因為上述調整隻是臨時調整),

4.處理人

  • 值班同學:臨時調整最大連接數,協助定位問題
  • 客戶:定位自身問題(可以定位連接最多的客戶端),找到問題原因(例如連接池配置等)

五、客戶端讀寫超時

1.異常堆棧

redis.clients.jedis.exceptions.JedisConnectionException: java.net.SocketTimeoutException: Read timed out

2.異常描述:

該問題原因可能有如下幾種:
(1) 讀寫超時設置的過短。
(2) 有慢查詢或者Redis發生阻塞。
(3) 網絡不穩定。

3.解決方法:

客戶提供讀寫超時時間,值班同學定位相關原因

4.處理人:

值班同學。

六、密碼相關的異常

1.異常堆棧

Redis設置了密碼,客戶端請求沒傳密碼:

Exception in thread "main" redis.clients.jedis.exceptions.JedisDataException: NOAUTH Authentication required.
    at redis.clients.jedis.Protocol.processError(Protocol.java:127)
    at redis.clients.jedis.Protocol.process(Protocol.java:161)
    at redis.clients.jedis.Protocol.read(Protocol.java:215)

Redis沒有設置密碼,客戶端傳了密碼:

Exception in thread "main" redis.clients.jedis.exceptions.JedisDataException: ERR Client sent AUTH, but no password is set
    at redis.clients.jedis.Protocol.processError(Protocol.java:127)
    at redis.clients.jedis.Protocol.process(Protocol.java:161)
    at redis.clients.jedis.Protocol.read(Protocol.java:215)

2.解決方法:弄清楚到底有沒有密碼

七、事務異常

1.異常堆棧

redis.clients.jedis.exceptions.JedisDataException: EXECABORT Transaction discarded because of previous errors

2.異常描述:

這個是Redis的事務異常:事務中包含了錯誤的命令,例如如下sett是個不存在的命令。

127.0.0.1:6379> multi
OK
127.0.0.1:6379> sett key world
(error) ERR unknown command 'sett'
127.0.0.1:6379> incr counter
QUEUED
127.0.0.1:6379> exec
(error) EXECABORT Transaction discarded because of previous errors.

3.解決方法和處理人:

客戶修複自身代碼錯誤。

八、類轉換錯誤

1.異常堆棧

java.lang.ClassCastException: java.lang.Long cannot be cast to java.util.List
         at redis.clients.jedis.Connection.getBinaryMultiBulkReply(Connection.java:199)
         at redis.clients.jedis.Jedis.hgetAll(Jedis.java:851)
         at redis.clients.jedis.ShardedJedis.hgetAll(ShardedJedis.java:198)   
java.lang.ClassCastException: java.util.ArrayList cannot be cast to [B
         at redis.clients.jedis.Connection.getBinaryBulkReply(Connection.java:182)
         at redis.clients.jedis.Connection.getBulkReply(Connection.java:171)
         at redis.clients.jedis.Jedis.rpop(Jedis.java:1109)
         at redis.clients.jedis.ShardedJedis.rpop(ShardedJedis.java:258)
.......

2.異常描述:

Jedis正確的使用方法是:一個線程操作一個Jedis,通常來講產生該錯誤是由於沒有使用JedisPool造成的,例如如下代碼在兩個線程並發使用了一個Jedis。(get、hgetAll返回類型也是不一樣的)


new Thread(new Runnable() {

    public void run() {
        for (int i = 0; i < 100; i++) {
            jedis.set("hello", "world");
            jedis.get("hello");
        }
    }
}).start();

new Thread(new Runnable() {

    public void run() {
        for (int i = 0; i < 100; i++) {
            jedis.hset("hashkey", "f", "v");
            jedis.hgetAll("hashkey");
        }
    }
}).start();

3.解決方法和處理人:

客戶排查自身代碼是否存在上述問題

九、命令使用錯誤

1.異常堆棧

Exception in thread "main" redis.clients.jedis.exceptions.JedisDataException: WRONGTYPE Operation against a key holding the wrong kind of value
    at redis.clients.jedis.Protocol.processError(Protocol.java:127)
    at redis.clients.jedis.Protocol.process(Protocol.java:161)
    at redis.clients.jedis.Protocol.read(Protocol.java:215)
.....

2.異常描述:

例如key="hello"是字符串類型的鍵,而hgetAll是哈希類型的鍵,所以出現了錯誤。

jedis.set("hello","world");
jedis.hgetAll("hello");

3.解決方法和處理人:

請客戶修改自身代碼錯誤。

十、Redis使用的內存超過maxmemory配置

1.異常堆棧

redis.clients.jedis.exceptions.JedisDataException: OOM command not allowed when used memory > 'maxmemory'.

2.異常描述:

Redis節點(如果是集群,則是其中一個節點)使用大於該實例的內存規格(maxmemory配置)。

3.解決方法:

原因可能有以下幾個:

  • 業務數據正常增加
  • 客戶端緩衝區異常:例如使用了monitor、pub/sub使用不當等等
  • 純緩存使用場景,但是maxmemory-policy配置有誤(例如沒有過期鍵的業務配置volatile-lru)

緊急處理,可以臨時找值班同學幫助臨時調整maxmeory,後續谘詢用戶是否升配或者調整配置。

4.處理人

  • 客戶:找到內存增大的原因。
  • 值班同學:協助臨時調整maxmeomry,如果客戶需要,可以協助解決

十一、Redis正在加載持久化文件

1.異常堆棧

redis.clients.jedis.exceptions.JedisDataException: LOADING Redis is loading the dataset in memory

2.異常描述:

Jedis調用Redis時,如果Redis正在加載持久化文件,無法進行正常的讀寫。

3.解決方法:

正常情況下,阿裏雲Redis不會出現這種情況,如果出現聯係值班同學處理。

4.處理人:

聯係值班同學處理

十二、Lua腳本超時

1.異常堆棧

redis.clients.jedis.exceptions.JedisDataException: BUSY Redis is busy running a script. You can only call SCRIPT KILL or SHUTDOWN NOSAVE.

2.異常描述:

如果Redis當前正在執行Lua腳本,並且超過了lua-time-limit,此時Jedis調用Redis時,會收到下麵的異常

3.解決方法:

按照異常提示:You can only call SCRIPT KILL or SHUTDOWN NOSAVE. (使用script kill:kill掉Lua腳本)

4.處理人:

最好客戶自己處理,如果解決不了,值班人員可以協助操作。

十三 連接超時

1.異常堆棧

redis.clients.jedis.exceptions.JedisConnectionException: java.net.SocketTimeoutException: connect timed out

2.異常描述:

可能產生的原因:

  • 連接超時設置的過短。
  • tcp-backlog滿,造成新的連接失敗。
  • 客戶端與服務端網絡不正常。

3.解決方法:

客戶提供連接超時時間,值班同學定位相關原因。

4.處理人:

值班同學

十四 Lua腳本寫超時

1.異常堆棧

(error) UNKILLABLE Sorry the script already executed write commands against the dataset. You can either wait the script termination or kill the server in a hard way using the SHUTDOWN NOSAVE command.

2.異常描述:

如果Redis當前正在執行Lua腳本,並且超過了lua-time-limit,並且已經執行過寫命令,此時Jedis調用Redis時,會收到上麵的異常

3.解決方法:

聯係值班同學做緊急處理,值班同學要做重啟或者切換Redis節點。

4.處理人:

值班同學

十五、類加載錯誤

1.異常堆棧

例如找不到類和方法:

Exception in thread "commons-pool-EvictionTimer" java.lang.NoClassDefFoundError: redis/clients/util/IOUtils
    at redis.clients.jedis.Connection.disconnect(Connection.java:226)
    at redis.clients.jedis.BinaryClient.disconnect(BinaryClient.java:941)
    at redis.clients.jedis.BinaryJedis.disconnect(BinaryJedis.java:1771)
    at redis.clients.jedis.JedisFactory.destroyObject(JedisFactory.java:91)
    at      org.apache.commons.pool2.impl.GenericObjectPool.destroy(GenericObjectPool.java:897)
    at org.apache.commons.pool2.impl.GenericObjectPool.evict(GenericObjectPool.java:793)
    at org.apache.commons.pool2.impl.BaseGenericObjectPool$Evictor.run(BaseGenericObjectPool.java:1036)
    at java.util.TimerThread.mainLoop(Timer.java:555)
    at java.util.TimerThread.run(Timer.java:505)
Caused by: java.lang.ClassNotFoundException: redis.clients.util.IOUtils
......

2.異常描述:

運行時,Jedis執行命令,拋出異常:某個類找不到。一般此類問題都是由於加載多個jedis版本(例如jedis 2.9.0和jedis 2.6),在編譯期代碼未出現問題,但類加載器在運行時加載了低版本的Jedis,造成運行時找不到類。

3.解決方法:

通常此類問題,可以將重複的jedis排除掉,例如利用maven的依賴樹,把無用的依賴去掉或者exclusion掉。

4.處理人

客戶排查自身代碼

十六、服務端命令不支持

1.異常堆棧

例如客戶端執行了geoadd命令,但是服務端返回不支持此命令

redis.clients.jedis.exceptions.JedisDataException: ERR unknown command 'GEOADD'

2.異常描述:

該命令不能被Redis端識別,有可能有兩個原因:

  • 社區版的一些命令,阿裏雲Redis的不支持,或者隻在某些小版本上支持(例如geoadd是Redis 3.2添加的地理信息api)。
  • 命令本身是錯誤的(不過對於Jedis來說還好,不支持直接組裝命令,每個API都有固定的函數)。

3.解決方法:

其次谘詢值班同學是否有Redis版本支持該命令,如支持可以讓客戶做小版本升級。

4.處理人

  • 值班同學:確認版本是否支持該命令
  • 客戶:值班同學確認後,做小版本升級

其他問題:

1.Jedis版本如何選擇:

原則上選擇最新的release版本,但最好選擇release一段時間後的版本,因為jedis曆史上出現過一次問題較大的release版本,目前來說2.9.0比較穩定。

<dependency>
    <groupId>redis.clients</groupId>
    <artifactId>jedis</artifactId>
    <version>2.9.0</version>
    <type>jar</type>
    <scope>compile</scope>
</dependency>

2.Jedis中的JedisCluster是阿裏雲Redis集群版的客戶端嗎?

答:不是,使用阿裏雲集群版的客戶端,直接使用Jedis和JedisPool即可。因為官方集群和阿裏雲Redis集群是不同的架構,具體參考:redis4.0、codis、阿裏雲redis 3種redis集群對比分析

......其他待補充......

附贈連接池參數

1. 資源設置和使用

序號 參數名 含義 默認值 使用建議
1 maxTotal 資源池中最大連接數 8 設置建議見下節
2 maxIdle 資源池允許最大空閑的連接數 8 設置建議見下節
3 minIdle 資源池確保最少空閑的連接數 0 設置建議見下節
4 blockWhenExhausted 當資源池用盡後,調用者是否要等待。隻有當為true時,下麵的maxWaitMillis才會生效 true 建議使用默認值
5 maxWaitMillis 當資源池連接用盡後,調用者的最大等待時間(單位為毫秒) -1:表示永不超時 不建議使用默認值
6 testOnBorrow 向資源池借用連接時是否做連接有效性檢測(ping),無效連接會被移除 false 業務量很大時候建議設置為false(多一次ping的開銷)。
7 testOnReturn 向資源池歸還連接時是否做連接有效性檢測(ping),無效連接會被移除 false 業務量很大時候建議設置為false(多一次ping的開銷)。
8 jmxEnabled 是否開啟jmx監控,可用於監控 true 建議開啟,但應用本身也要開啟

2.空閑資源監測

空閑Jedis對象檢測,下麵四個參數組合來完成,testWhileIdle是該功能的開關。

序號 參數名 含義 默認值 使用建議
1 testWhileIdle 是否開啟空閑資源監測 false true
2 timeBetweenEvictionRunsMillis 空閑資源的檢測周期(單位為毫秒) -1:不檢測 建議設置,周期自行選擇,也可以默認也可以使用下麵JedisPoolConfig中的配置
3 minEvictableIdleTimeMillis 資源池中資源最小空閑時間(單位為毫秒),達到此值後空閑資源將被移除 1000 * 60 * 30 = 30分鍾 可根據自身業務決定,大部分默認值即可,也可以考慮使用下麵JeidsPoolConfig中的配置
4 numTestsPerEvictionRun 做空閑資源檢測時,每次的采樣數 3 可根據自身應用連接數進行微調,如果設置為-1,就是對所有連接做空閑監測

廣告

雲數據庫Redis版(ApsaraDB for Redis)是一種穩定可靠、性能卓越、可彈性伸縮的數據庫服務。基於飛天分布式係統和全SSD盤高性能存儲,支持主備版和集群版兩套高可用架構。提供了全套的容災切換、故障遷移、在線擴容、性能優化的數據庫解決方案。歡迎各位購買使用:雲數據庫 Redis 版

招聘:阿裏雲-技術專家-KVstore

崗位描述:

  • 負責阿裏雲Redis源碼開發維護
  • 負責阿裏雲Redis cluster開發與設計

崗位要求:

  • 精通C/C++,熟悉TCP, Linux Kernel等優先
  • 數據結構,算法等基礎知識紮實
  • 5年後台係統的設計與開發,或3年分布式係統的設計與開發,運維過大型分布式係統
  • 精通至少一項開源NoSQL產品。Redis,mongodb,memcached等優先。
  • 有雲服務產品或基於SSD的係統開發經驗優先
  • 善於創新,樂於挑戰,有責任心,良好團隊精神
  • 良好的表達能力,能夠清晰和準確地描述問題,發現並解決問題能力

最後更新:2017-11-08 20:35:11

  上一篇:go  11月8日雲棲精選夜讀:如何讓測試少加班?阿裏Mock平台使用方法揭秘!
  下一篇:go  JedisPool資源池優化