正文
有一類業(yè)務(wù)場景,沒有固定的schema存儲,卻有著海量的數(shù)據(jù)行數(shù),架構(gòu)上如何來實(shí)現(xiàn)這類業(yè)務(wù)的存儲與檢索呢?58最核心的數(shù)據(jù)“帖子”的架構(gòu)實(shí)現(xiàn)技術(shù)細(xì)節(jié),今天和大家聊一聊。
背景描述及業(yè)務(wù)介紹
什么是58最核心的數(shù)據(jù)?
58是一個(gè)信息平臺,有很多垂直品類:招聘、房產(chǎn)、二手物品、二手車、黃頁等等,每個(gè)品類又有很多子品類,不管哪個(gè)品類,最核心的數(shù)據(jù)都是“帖子信息”。
畫外音:像不像一個(gè)大論壇?
各分類帖子的信息有什么特點(diǎn)?
逛過58的朋友很容易了解到,這里的帖子信息:
(1)各品類的屬性千差萬別,招聘帖子和二手帖子屬性完全不同,二手手機(jī)和二手家電的屬性又完全不同,目前恐怕有近萬個(gè)屬性;
(2)數(shù)據(jù)量巨大,100億級別;
(3)每個(gè)屬性上都有查詢需求,各組合屬性上都可能有組合查詢需求,招聘要查職位/經(jīng)驗(yàn)/薪酬范圍,二手手機(jī)要查顏色/價(jià)格/型號,二手要查冰箱/洗衣機(jī)/空調(diào);
(4)吞吐量很大,每秒幾10萬吞吐;
如何解決100億數(shù)據(jù)量,1萬屬性,多屬性組合查詢,10萬并發(fā)查詢的技術(shù)難題呢?一步步來。
最容易想到的方案
每個(gè)公司的發(fā)展都是一個(gè)從小到大的過程,撇開并發(fā)量和數(shù)據(jù)量不談,先看看
(1)如何實(shí)現(xiàn)屬性擴(kuò)展性需求;
(2)多屬性組合查詢需求;
畫外音:公司初期并發(fā)量和數(shù)據(jù)量都不大,必須先解決業(yè)務(wù)問題。
如何滿足業(yè)務(wù)的存儲需求呢?
最開始,業(yè)務(wù)只有一個(gè)招聘品類,那帖子表可能是這么設(shè)計(jì)的:
tiezi(tid, uid, c1, c2, c3);
那如何滿足各屬性之間的組合查詢需求呢?
最容易想到的是通過組合索引滿足查詢需求:
index_1(c1, c2)
index_2(c2, c3)
index_3(c1, c3)
隨著業(yè)務(wù)的發(fā)展,又新增了一個(gè)房產(chǎn)類別,存儲問題又該如何解決呢?
可以新增若干屬性滿足存儲需求,于是帖子表變成了:
tiezi(tid, uid, c1, c2, c3, c10, c11, c12, c13);
其中:
- c1,c2,c3是招聘類別屬性
- c10,c11,c12,c13是房產(chǎn)類別屬性
通過擴(kuò)展屬性,可以解決存儲的問題。
查詢需求,又該如何滿足呢?
首先,跨業(yè)務(wù)屬性一般沒有組合查詢需求。只能建立了若干組合索引,滿足房產(chǎn)類別的查詢需求。
畫外音:不敢想有多少個(gè)索引能覆蓋所有兩屬性查詢,三屬性查詢。
當(dāng)業(yè)務(wù)越來越多時(shí),是不是發(fā)現(xiàn)玩不下去了?
垂直拆分是一個(gè)思路
新增屬性是一種擴(kuò)展方式,新增表也是一種方式,垂直拆分也是常見的存儲擴(kuò)展方案。
如何按照業(yè)務(wù)進(jìn)行垂直拆分?
可以這么玩:
tiezi_zhaopin(tid, uid, c1, c2, c3);
tiezi_fangchan(tid, uid, c10, c11, c12, c13);
在業(yè)務(wù)各異,數(shù)據(jù)量和吞吐量都巨大的情況下,垂直拆分會遇到什么問題呢?
這些表,以及對應(yīng)的服務(wù)維護(hù)在不同的部門,看上去各業(yè)務(wù)靈活性強(qiáng),研發(fā)閉環(huán),這恰恰是悲劇的開始:
(1)tid如何規(guī)范?
(2)屬性如何規(guī)范?
(3)按照uid來查詢怎么辦(查詢自己發(fā)布的所有帖子)?
(4)按照時(shí)間來查詢怎么辦(最新發(fā)布的帖子)?
(5)跨品類查詢怎么辦(例如首頁搜索框)?
(6)技術(shù)范圍的擴(kuò)散,有的用mongo存儲,有的用MySQL存儲,有的自研存儲;
(7)重復(fù)開發(fā)了不少組件;
(8)維護(hù)成本過高;
(9)…
畫外音:想想看,電商的商品表,不可能一個(gè)類目一個(gè)表的。
統(tǒng)一帖子中心服務(wù)
平臺型創(chuàng)業(yè)型公司,可能有多個(gè)品類,各品類有很多異構(gòu)數(shù)據(jù)的存儲需求,到底是分還是合,無需糾結(jié):基礎(chǔ)數(shù)據(jù)基礎(chǔ)服務(wù)的統(tǒng)一,是一個(gè)很好的實(shí)踐。
畫外音:這里說的是平臺型業(yè)務(wù)。
如何將不同品類,異構(gòu)的數(shù)據(jù)統(tǒng)一存儲起來呢?
(1)全品類通用屬性統(tǒng)一存儲;
(2)單品類特有屬性,品類類型與通用屬性json來進(jìn)行存儲;
更具體的:
tiezi(tid, uid, time, title, cate, subcate, xxid, ext);
(1)一些通用的字段抽取出來單獨(dú)存儲;
(2)通過cate, subcate, xxid等來定義ext是何種含義;