點(diǎn)贊功能是目前App開發(fā)基本的功能
今天我們就來聊聊 點(diǎn)贊、評(píng)論、收藏等這些場(chǎng)景的db數(shù)據(jù)庫(kù)設(shè)計(jì)問題,
1. 我們先來看看場(chǎng)景的需求:
a. 顯示點(diǎn)贊數(shù)量
b. 判斷用戶是否點(diǎn)過贊,用于去重,必須的判斷
c. 顯示個(gè)人點(diǎn)贊列表,一般在用戶中心
d. 顯示文章點(diǎn)贊列表
我們先看一下頭條和微博的例子
頭條的點(diǎn)贊
微博的點(diǎn)贊
這兩個(gè)都是具有頂級(jí)流量的,后端肯定有復(fù)雜的架構(gòu),我們今天只談大眾化的方案。
2.1 MySQL方案
mysql方案, 隨著nosql的流行,大數(shù)據(jù)的持續(xù)熱點(diǎn),但是mysql仍然不可替代,對(duì)于大多數(shù)的中小項(xiàng)目,低于千萬級(jí)的數(shù)據(jù)量,采用mysql分表+cache,是完全可以勝任的,而且穩(wěn)定性是其他方案無可比擬的:
文章表
create table post {
post_id int(11) NOT NULL AUTO_INCREMENT,
......
star_num int(11) COMMENT '點(diǎn)贊數(shù)量'
}
用戶表
create table user {
user_id int(11) NOT NULL AUTO_INCREMENT,
......
star_num int(11) COMMENT '點(diǎn)贊數(shù)量'
}
點(diǎn)贊表
create table star {
id int(11) NOT NULL AUTO_INCREMENT,
post_id,
user_id,
......
}
常用的查詢:
查詢用戶點(diǎn)贊過的文章 select post_id from star where user_id=?
查詢文章的點(diǎn)贊用戶 select user_id from star where post_id=?
點(diǎn)贊數(shù)量可以通過定時(shí)異步統(tǒng)計(jì)更新到post和user 表中。
數(shù)據(jù)量不大的時(shí)候,這種設(shè)計(jì)基本可以滿足需求了,
缺點(diǎn):
數(shù)據(jù)量大時(shí),一張表在查詢時(shí)壓力巨大,需要分表,而不論用post_id還是user_id來hash分表都與我們的需求有沖突,唯一的辦法就是做兩個(gè)表冗余。這增加了存儲(chǔ)空間和維護(hù)工作量,還可能有一致性問題。
2.2 redis方案
當(dāng)數(shù)據(jù)量達(dá)到上億的量,上cache是必經(jīng)的階段,由于點(diǎn)贊這種動(dòng)作很隨意,很多人看到大拇指就想點(diǎn),所以數(shù)據(jù)量增長(zhǎng)很快,數(shù)據(jù)規(guī)模上來后,對(duì)mysql讀寫都有很大的壓力,這時(shí)就要考慮memcache、redis進(jìn)行存儲(chǔ)或cache。
為什么一般都選擇redis, redis作為流行的nosql,有著豐富的數(shù)據(jù)類型,可以適應(yīng)多個(gè)場(chǎng)景的需求。
采用redis有兩種用途,一種是storage,一種是純cache,需要+mysql一起。純cache就是把數(shù)據(jù)從mysql先寫入redis,用戶先讀cache,miss后再拉取MySQL,同時(shí)cache做同步。
cache
多數(shù)場(chǎng)景二者是同時(shí)使用的,并不沖突。
下面說下redis作為storage的方案:
場(chǎng)景a :顯示點(diǎn)贊數(shù)量
在點(diǎn)贊的地方,只是顯示一個(gè)點(diǎn)贊數(shù)量,能區(qū)分用戶是否點(diǎn)贊過,一般用戶不關(guān)心這個(gè)列表,這個(gè)場(chǎng)景只要一個(gè)數(shù)字就可以了,當(dāng)數(shù)量比較大時(shí),一般顯示為"7k" ,"10W" 這樣。
以文章id為key
//以文章id=888為例
127.0.0.1:6379[2]> set star:tid:888 898 //設(shè)置點(diǎn)贊數(shù)量
OK
127.0.0.1:6379[2]> incr star:tid:888 //實(shí)現(xiàn)數(shù)量自增 (integer)
899
場(chǎng)景b:點(diǎn)贊去重,避免重復(fù)點(diǎn)贊
要實(shí)現(xiàn)這個(gè)需求,必須有文章點(diǎn)贊的uid列表,以u(píng)id為key場(chǎng)景c:一般在用戶中心,可以看到用戶自己的點(diǎn)贊列表
這個(gè)需求可以使用場(chǎng)景b的數(shù)據(jù)來實(shí)現(xiàn)。
用戶中心點(diǎn)贊列表
場(chǎng)景d:文章的點(diǎn)贊列表,類似場(chǎng)景b,以文章id為key
//以文章id=888為例
127.0.0.1:6379[2]> sadd star:list:tid:888 123 456 789 //點(diǎn)贊uid列表 (integer)
3
127.0.0.1:6379[2]> sismember star:list:tid:888 456 //判斷是否點(diǎn)贊 (integer)
1
點(diǎn)贊的地方,如果點(diǎn)贊過顯示紅色,沒有則顯示黑白色,
今日頭條是沒有地方可以看到點(diǎn)贊列表的,而微博點(diǎn)進(jìn)去,詳情頁(yè)可以看到點(diǎn)贊列表,但是只會(huì)顯示最近的幾十條,沒有分頁(yè)顯示。
如下圖,我選了一條熱點(diǎn),擁有眾多粉絲的“豬豬”
帖子點(diǎn)贊列表
可能有人覺得,點(diǎn)贊列表沒人關(guān)心,存儲(chǔ)又會(huì)浪費(fèi)大量資源,不如不存!但是,這個(gè)數(shù)據(jù)是必須要有的。兩點(diǎn):
a. 去重。點(diǎn)贊數(shù)可以不精確,但去重必須是精確的,
b.另外一個(gè)社交產(chǎn)品,用戶行為的一點(diǎn)一滴都需要記錄,對(duì)于后續(xù)的用戶行為分析和數(shù)據(jù)挖掘都是有意義的。
上面使用string存儲(chǔ)的用戶點(diǎn)贊數(shù)量,除了string,還可以用hash來存儲(chǔ),對(duì)文章id分塊,每100個(gè)存到一個(gè)hash,分別存入hash table,每個(gè)文章id為hash的一個(gè)key,value存儲(chǔ)點(diǎn)贊的用戶id,如果點(diǎn)贊用戶很多,避免id過多產(chǎn)生性能問題,可以單列出來,用sorted set結(jié)構(gòu)保存,熱點(diǎn)的畢竟是少數(shù)。
hash
方案優(yōu)缺點(diǎn)比對(duì)
hash:使用了更少的全局key ,節(jié)省了內(nèi)存空間;但是也帶來了問題
如何根據(jù)文章id路由到對(duì)應(yīng)的hash?
查找一個(gè)用戶id是在hash還是set?存在不確定性
使用hash雖然節(jié)省了空間,但增加了復(fù)雜度,如何選擇就看個(gè)人需求了。
除此之外,你還有其他的方法嗎?
3. 數(shù)據(jù)一致性
redis作為storage使用時(shí),一定要做好數(shù)據(jù)的持久化,必須開啟 rdb 和 aof,這會(huì)導(dǎo)致業(yè)務(wù)只能使用一半的機(jī)器內(nèi)存,所以要做好容量的監(jiān)控,及時(shí)擴(kuò)容。
另外只要有數(shù)據(jù)copy,就會(huì)有一致性問題,這就是另外一個(gè)很重要的話題了。以后有時(shí)間再細(xì)聊吧!
寫在最后:把問題寫明白,真不是一件容易的事情,請(qǐng)大家多多關(guān)注,留言,謝謝!
前幾天寫的一篇文章,受到眾多同行的熱情回復(fù),能和眾多同行一起交流,深感榮幸!對(duì)于工程類問題,沒有標(biāo)準(zhǔn)的方案,一千個(gè)人有一千個(gè)方案,哪個(gè)最適合你只有你自己知道!期待你更好的思路和方法。