在我們?nèi)粘i_發(fā)中如果使用redis做緩存,那么使用最多的可能為String類型,String類型使用簡(jiǎn)單而且容易理解但這只是開發(fā)方面,如果業(yè)務(wù)數(shù)據(jù)量過大使用String類型存儲(chǔ)可行性是否還是最高,我們可以依靠在線Redis內(nèi)存預(yù)估統(tǒng)計(jì)工具h(yuǎn)ttp://www.redis.cn/redis_memory/如下統(tǒng)計(jì)
模擬1億個(gè)String類型的鍵值對(duì),key占用4個(gè)字節(jié)value占用4個(gè)字節(jié),僅key,value占用內(nèi)存800M,那Redis的String類型需要占用多少呢?如下所示
key和value單純的內(nèi)存消耗只占據(jù)了Redis的String類型所需總內(nèi)存的十分之一,也是說有十分之九是存儲(chǔ)其它信息,那到底是什么呢?如下分析。
簡(jiǎn)單動(dòng)態(tài)字符串SDS
Redis使用的String類型底層實(shí)現(xiàn)就是SDS簡(jiǎn)單動(dòng)態(tài)字符串,為什么Redis需要封裝而不是c自帶的字符串呢?
SDS的優(yōu)勢(shì)
- SDS獲取字符串的長(zhǎng)度時(shí)間復(fù)雜度為O(1),而C語言自帶的需要遍歷數(shù)組時(shí)間復(fù)雜度為O(N)。
- SDS有效避免緩沖區(qū)溢出(在長(zhǎng)度不足時(shí)可以擴(kuò)容)。
- SDS可以減少修改字符串帶來的內(nèi)存分配(C語言字符串修改N次都需要重新分配內(nèi)存,SDS最多需要重新分配N次內(nèi)存)。
SDS結(jié)構(gòu)
SDS底層結(jié)構(gòu)從3.x到6.x版本變化挺大需要分開學(xué)習(xí),3.x結(jié)構(gòu)簡(jiǎn)單如下所示
typedef char *sds;
struct sdshdr {
// 記錄buf數(shù)組已使用的長(zhǎng)度
unsigned int len;
// 記錄buf數(shù)組沒有使用的長(zhǎng)度
unsigned int free;
// 字符串保存位置
char buf[];
};
需要注意的是buf結(jié)尾是結(jié)束符'''是一定存在的,占用一個(gè)字節(jié),但是在計(jì)算len時(shí)是不會(huì)計(jì)算結(jié)束標(biāo)識(shí)符''的。
6.x版本SDS結(jié)構(gòu)代碼如下所示
typedef char *sds;
/*
* Note: sdshdr5 is never used, we just access the flags byte directly.
* However is here to document the layout of type 5 SDS strings.
* sdshdr5未使用,其余都有使用
*/
struct __attribute__ ((__packed__)) sdshdr5 {
unsigned char flags; /* 3 lsb of type, and 5 msb of string length */
char buf[];
};
struct __attribute__ ((__packed__)) sdshdr8 {
uint8_t len; /* used 已使用長(zhǎng)度*/
uint8_t alloc; /* 分配長(zhǎng)度 不包括報(bào)頭和空終止符,1個(gè)字節(jié)存儲(chǔ) */
unsigned char flags; /* 高3位存儲(chǔ)、低5位預(yù)留 */
char buf[];
};
struct __attribute__ ((__packed__)) sdshdr16 {
uint16_t len;
uint16_t alloc; /* 分配長(zhǎng)度 不包括報(bào)頭和空終止符,2個(gè)字節(jié)存儲(chǔ) */
unsigned char flags;
char buf[];
};
struct __attribute__ ((__packed__)) sdshdr32 {
uint32_t len;
uint32_t alloc; /* 分配長(zhǎng)度 不包括報(bào)頭和空終止符,4個(gè)字節(jié)存儲(chǔ) */
unsigned char flags;
char buf[];
};
struct __attribute__ ((__packed__)) sdshdr64 {
uint64_t len;
uint64_t alloc; /* 分配長(zhǎng)度 不包括報(bào)頭和空終止符,8個(gè)字節(jié)存儲(chǔ) */
unsigned char flags;
char buf[];
};
結(jié)構(gòu)圖如下所示
RedisObject結(jié)構(gòu)
Redis存在不同的數(shù)據(jù)類型,在這些不同的數(shù)據(jù)類型中又需要記錄一些相同的信息如key最后訪問時(shí)間、引用次數(shù)等所以需要將其封裝為一個(gè)結(jié)構(gòu)體(JAVA中的對(duì)象)來存儲(chǔ)這些元素這就是RedisObject結(jié)構(gòu)圖如下所示。
元數(shù)據(jù)type
元數(shù)據(jù)中的type為數(shù)據(jù)類型目前存在六種數(shù)據(jù)類型:string,hash,set,list,zset,stream可以通過命令type {key}獲取類型
#### String類型
127.0.0.1:6379> set name zhangsan
OK
127.0.0.1:6379> type name
string
#### List類型
127.0.0.1:6379> lpush keylist 1 zhangsan
(integer) 2
127.0.0.1:6379> type keylist
list
#### Hash類型
127.0.0.1:6379> hmset keyhash name zhangsan
OK
127.0.0.1:6379> type keyhash
hash
#### Set類型
127.0.0.1:6379> sadd keyset name zhangsan
(integer) 2
127.0.0.1:6379> type keyset
set
#### Sort Set類型
127.0.0.1:6379> zadd keyzset 1 zhangsan
(integer) 1
127.0.0.1:6379> type keyzset
zset
#### Bitmaps 類型
127.0.0.1:6379> setbit keybitmap 10 1
(integer) 0
127.0.0.1:6379> type keybitmap
string
#### Hyperloglogs類型
127.0.0.1:6379> pfadd keyhyperloglogs 2 23 42 2
(integer) 1
127.0.0.1:6379> type keyhyperloglogs
string
#### Geospatial類型
127.0.0.1:6379> geoadd keygeo 13.361389 38.115556 test
(integer) 1
127.0.0.1:6379> type keygeo
zset
#### Stream類型
127.0.0.1:6379> xadd keystream * name zhangsan
"1650552771376-0"
127.0.0.1:6379> type keystream
stream
元數(shù)據(jù)encoding
encoding表示當(dāng)前value值的編碼格式有三種int、embstr、raw,可以通過命令object encoding key獲取
#### 如果值是數(shù)字編碼類型就是int
127.0.0.1:6379> set name 1
OK
127.0.0.1:6379> object encoding name
"int"
#### 如果值是字符串同時(shí)長(zhǎng)度小于等于44那么就是embstr
127.0.0.1:6379> set name1 "zhangsan"
OK
127.0.0.1:6379> object encoding name1
"embstr"
#### 如果值是字符串同時(shí)長(zhǎng)度大于44
127.0.0.1:6379> set name2 "qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq"
OK
127.0.0.1:6379> object encoding name2
"raw"
元數(shù)據(jù)refcount
refcount為被引用對(duì)象,當(dāng)refcount=0表示可回收對(duì)象,可以通過命令refcount key查看引用次數(shù)。
RedisObject指針ptr
如果值的類型為int,那么ptr直接存儲(chǔ)的就是這個(gè)int類型的值,不會(huì)去指向其它內(nèi)存地址,如下所示。
當(dāng)值為字符串類型,同時(shí)字符串的長(zhǎng)度小于等于44時(shí),數(shù)據(jù)采用embstr編碼格式編碼,將RedisObject對(duì)象的元數(shù)據(jù)、指針、SDS分配到一片連續(xù)的內(nèi)存空間,避免內(nèi)存碎片。
為什么字符串長(zhǎng)度需要小于等于44呢?
Redis中的內(nèi)存分配器jemalloc認(rèn)為超出64字節(jié)就是一個(gè)大字符串所以就以64為界,而元數(shù)據(jù)占8字節(jié)、指針占8字節(jié),SDS分兩種情況
1、如果是6.x版本SDS其它內(nèi)存消耗4個(gè)字節(jié)(1B(len)+1B(alloc)+1B(flag)+1B(''))所以是64-8-8-4=44。
2、如果是3.x版本SDS其它內(nèi)存消耗9個(gè)字節(jié)(4B(len)+4B(free)+1B(''))所以是64-8-8-9=39。
版本不同編碼格式判斷的臨界值會(huì)有稍微不同。
當(dāng)值是字符串但是長(zhǎng)度大于44時(shí),編碼格式變?yōu)閞aw,SDS和RedisObject的內(nèi)存分配不再連續(xù),SDS內(nèi)存空間將獨(dú)立分配,如下所示。
dictEntry結(jié)構(gòu)
那么除了SDS動(dòng)態(tài)字符串和RedisObject結(jié)構(gòu),一個(gè)簡(jiǎn)單的String操作還會(huì)涉及到哪些內(nèi)存分配呢?當(dāng)然是有的那就是哈希桶中的元素dictEntry,dictEntry中包含key、value、next等值如下所示。
總結(jié)
String使用雖然簡(jiǎn)單但不是萬金油哪里都能使用,在數(shù)據(jù)量大的時(shí)候我們需要選擇合適的數(shù)據(jù)結(jié)構(gòu)來避免這種情況的發(fā)生,如list、set、sort set、hash等這些數(shù)據(jù)結(jié)構(gòu)就能節(jié)省dictEntry所需要的內(nèi)存,下面以6.x版本演示如下所示( info memory可以查看內(nèi)存使用情況)。
#########################hash集合類型#############################
127.0.0.1:6379> info memory
# Memory
used_memory:866600
127.0.0.1:6379> hset obj name zhangsan
(integer) 1
127.0.0.1:6379> info memory
# Memory 第一次創(chuàng)建hash結(jié)構(gòu)需要 消耗80字節(jié)
used_memory:866680
127.0.0.1:6379> hset obj addr beijin
(integer) 1
127.0.0.1:6379> info memory
# Memory 后續(xù)在hash結(jié)構(gòu)中加入屬性 只消耗16字節(jié)
used_memory:866696
#########################String類型###############################
127.0.0.1:6379> info memory
# Memory
used_memory:866720
127.0.0.1:6379> set teststr zhangsan
OK
127.0.0.1:6379> info memory
# Memory 消耗72字節(jié)
used_memory:866792
127.0.0.1:6379> set teststr1 zhangsan
OK
127.0.0.1:6379> info memory
# Memory 消耗72字節(jié)
used_memory:866864
如果開發(fā)中需要存儲(chǔ)業(yè)務(wù)數(shù)據(jù)到Redis中,對(duì)數(shù)據(jù)類型的選擇一定要慎重,一味的濫用String在數(shù)據(jù)量大時(shí)對(duì)Redis的負(fù)擔(dān)將是巨大的,會(huì)影響RDB持久化、故障轉(zhuǎn)移、主從同步等。