為什么要有分布式系統(tǒng)？-魔扣目錄

無論是我們在學(xué)校剛開始學(xué)編程，還是在剛參加工作開始處理實(shí)際問題，寫出來的程序都是很簡單的。因?yàn)槊鎸?duì)的問題很簡單。

以處理數(shù)據(jù)為例，可能只是把一個(gè)幾十 K 的文件解析下，然后生成一個(gè)詞頻分析的報(bào)告。很簡單的程序，十幾行甚至幾行就搞定了。

直到有一天，給你扔過來 1000 個(gè)文件，有些還特別大，好幾百 M 了。你用之前的程序一跑，發(fā)現(xiàn)跑的時(shí)間有點(diǎn)長。于是想要去優(yōu)化下。

1000 個(gè)文件，互相還沒業(yè)務(wù)聯(lián)系，用多線程呀，一個(gè)線程處理一個(gè)文件，結(jié)果再匯總就搞定了。總算把學(xué)校里學(xué)的操作系統(tǒng)知識(shí)和編程語言里的多線程庫都運(yùn)用起來了。你很高興，老師知道了也會(huì)很欣慰。

如果多線程效果不夠好，比如像 Python 的多線程，沒法利用多核的威力，那就用多進(jìn)程。

如果嫌線程和進(jìn)程切換開銷太大，大到影響整體性能 -- 通常就是所謂的 I/O bound 的場景，還可以用協(xié)程這類技術(shù)。

無論是線程、進(jìn)程，還是協(xié)程，本質(zhì)上，目的都是為了計(jì)算的并行化，解決的是算的慢的問題。

而如果計(jì)算量足夠大，就算榨干了機(jī)器的計(jì)算能力，也算不過來，咋辦？

一臺(tái)機(jī)器不夠，那就多搞幾臺(tái)機(jī)器嘛。所以就從多線程/進(jìn)程/協(xié)程的「計(jì)算并行化」，進(jìn)化到了「計(jì)算的分布式化」（當(dāng)然，分布式一定程度上也是并行化）。

這還沒完，另一方面，如果處理的數(shù)據(jù)有 10T，而你手上的機(jī)器只有 500G 的硬盤，怎么辦？

一種辦法是縱向擴(kuò)展，搞一臺(tái)幾十 T 硬盤的機(jī)器；另一種是橫向擴(kuò)展，多搞幾臺(tái)機(jī)器，分散著放。前者很容易到瓶頸，畢竟數(shù)據(jù)無限，而一臺(tái)機(jī)器的容量有限，所以在大數(shù)據(jù)量的情況下，只能選后者。

把數(shù)據(jù)分散到多臺(tái)機(jī)器，本質(zhì)上解決的是存不下的問題。

同時(shí)，剛才提到計(jì)算分布式化后，總不能所以程序都去同一臺(tái)機(jī)器讀數(shù)據(jù)吧，這樣效率必然會(huì)受到單臺(tái)機(jī)器性能的拖累，比如磁盤 IO、網(wǎng)絡(luò)帶寬等，也就逼著數(shù)據(jù)存儲(chǔ)也要分散到各個(gè)機(jī)器去了。

基于這兩個(gè)原因，數(shù)據(jù)存儲(chǔ)也分布式起來了。

前面說計(jì)算的分布式化的時(shí)候，有這么一句話：

一個(gè)線程處理一個(gè)文件，結(jié)果再匯總就搞定了

先做任務(wù)的拆分，然后再做結(jié)果的合并。本質(zhì)上就是分治的思想。很顯然，分治是個(gè)非常通用和應(yīng)用無關(guān)的方法，沒有必要每個(gè)應(yīng)用都去實(shí)現(xiàn)一遍，做個(gè)通用的庫就行了，或者裝逼點(diǎn)，我們叫它框架。

解決這個(gè)問題之后，再做好抽象，豐富下功能，定義好 API，基本的樣子就出來了。

于是，我們有了一個(gè)分布式的計(jì)算框架。

而說存儲(chǔ)的分布式化的時(shí)候，忽略了一些問題，比如：

怎么拆分?jǐn)?shù)據(jù)？以什么粒度拆？
使用方怎么知道哪些數(shù)據(jù)在哪里？

這些問題的答案也不難：

像前面說的那樣以文件為單位去拆分，恐怕不妥。文件大小差距可能很大，不利于數(shù)據(jù)的均衡分布，需要拆的更細(xì)。
為了讓使用方知道該去哪臺(tái)機(jī)器拿想要的數(shù)據(jù)，尤其在數(shù)據(jù)的切割粒度不再是使用方能理解的文件之后，需要維護(hù)一個(gè)數(shù)據(jù)單元和機(jī)器/服務(wù)位置的映射關(guān)系。

當(dāng)然，問題不只這些，只是舉例而已。解決這些問題之后，再加以完善，封裝好 API 和服務(wù)，一個(gè)能存海量數(shù)據(jù)的框架就有了，或者裝逼點(diǎn)，我們叫它引擎。

于是，我們有了一個(gè)分布式的存儲(chǔ)引擎。

分布式存儲(chǔ)引擎和分布式計(jì)算框架，就是一個(gè)分布式系統(tǒng)最基礎(chǔ)的組成部分。

廣義的分布式系統(tǒng)，當(dāng)然不只包含這兩個(gè)東西。但它們是最基礎(chǔ)和核心的東西。有了它們，我們就能對(duì)海量數(shù)據(jù)做最基本和通用的處理，而不再被單臺(tái)機(jī)器束縛住。

是的，分布式系統(tǒng)很強(qiáng)大、很有用。但什么時(shí)候該用，什么時(shí)候又不要高射炮打蚊子呢？

其實(shí)也很簡單。和分布式系統(tǒng)嘗試解決的問題對(duì)應(yīng)起來，就一目了然了：

當(dāng)你嘗試了各種優(yōu)化方法，還是不能把計(jì)算時(shí)間降低到一個(gè)可接受的程度的時(shí)候
當(dāng)你發(fā)現(xiàn)找不到硬盤更大的機(jī)器來裝下你的數(shù)據(jù)，或者無法承擔(dān)這個(gè)成本的時(shí)候

那很有可能，你需要考慮分布式系統(tǒng)了。

至于多慢叫慢，多大叫大，就區(qū)別于應(yīng)用場景了。

老板每天早上要看的報(bào)表，凌晨跑幾個(gè)小時(shí)都能接受；全平臺(tái)的準(zhǔn)實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)，就等不了幾個(gè)小時(shí)了。

同樣是做指標(biāo)統(tǒng)計(jì)，幾百 G 的用戶注冊數(shù)據(jù)可能不算大，但幾百 G 的用戶行為數(shù)據(jù)可能就很大了。后者比前者更有可能需要分布式系統(tǒng)，因?yàn)樵鲩L速度會(huì)快一兩個(gè)數(shù)量級(jí)。

一個(gè)乍看起來很無厘頭，細(xì)想又挺值得思考的問題：微服務(wù)是不是分布式系統(tǒng)？

類似的問題還有：分庫分表+訪問中間件的數(shù)據(jù)庫是不是分布式系統(tǒng)？

廣義來講，都可以算是。

狹義來講，也是從這個(gè)系列關(guān)注的角度來看，分布式系統(tǒng)是指大數(shù)據(jù)領(lǐng)域下，以處理海量數(shù)據(jù)為目的的系統(tǒng)。

當(dāng)然，分布式系統(tǒng)遠(yuǎn)不止這么簡單的兩個(gè)分類，也遠(yuǎn)不止表面上看起來這樣隨便弄弄就能用好，還有非常多需要考慮和解決的問題，其中很多恰恰是分布式本身帶來的問題（聽起來很無奈吧），這也是這個(gè)系列后面會(huì)花大量篇幅去講的內(nèi)容。

這樣，我們就對(duì)開頭提到的 What -- 這個(gè)東西是什么，也有了基本的認(rèn)識(shí)。

（看吧，先講 Why，再講 What，也沒有影響我們學(xué)習(xí)這個(gè)東西。我這么組織，也是想借這點(diǎn)來強(qiáng)調(diào)開頭提到的多思考 Why 的重要性。）

總結(jié)：

這個(gè)系列文章關(guān)注的分布式系統(tǒng)，是指以處理海量數(shù)據(jù)為目的的多機(jī)系統(tǒng)。

我們之所以需要分布式系統(tǒng)，是為了擺脫單機(jī)資源的束縛。再具體點(diǎn)，是為了解決這兩個(gè)問題：

單臺(tái)機(jī)器算的慢，哪怕協(xié)程、多線程、多進(jìn)程全用上
單臺(tái)機(jī)器裝不下，哪怕你有再多的錢

實(shí)際應(yīng)用中，分布式系統(tǒng)最基礎(chǔ)核心的是兩種：

分布式計(jì)算框架，用來解決算的慢的問題
分布式存儲(chǔ)引擎，用來解決存不下的問題

知道了為什么要有分布式系統(tǒng)，以及什么時(shí)候應(yīng)該用分布式系統(tǒng)。緊接著一個(gè)問題就是，分布式系統(tǒng)都是怎么來的，又是誰做出來的呢？

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

為什么要有分布式系統(tǒng)？

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

每日養(yǎng)生app2018-06-03

體育訓(xùn)練成績評(píng)定2018-06-03