曾經見到知乎上有人問“為什么像facebook這類的網站需要上千個工程師維護?”
下面的回答多種多樣,但總結起來就是:一個高性能的web系統需要從無數個角度去考慮他,大到服務器的布局,小到軟件中某個文件的實現,甚至于某個循環內的運算如果出現不嚴謹都可能導致全盤崩潰。
上面提到web性能優化需要多個角度去考慮,我們無法考慮到所有的優化細節,但可以從我們已知的層面去優化,我們就先從網絡層面說起。
①網絡請求路徑:
(客戶端輸入URL定位符)→(DNS服務器尋找映射)→(進入服務器,處理數據)→(返回數據至客戶端)
在這個用例中我們可以很清晰的看出網絡請求到返回的過程,雖然非常抽象,但足夠我們以他為基礎來進行優化了。
1)負載均衡
BOSS一次給了小明好多項任務,小明發現怎么安排時間也做不完,于是乎他盯上了在旁邊偷偷看電影的小強,小強突然覺得背后有一股涼氣,一回頭小明一臉壞笑看著他
“這幾個任務交給你,晚上請你吃飯,要不然…嘿嘿嘿”,小強雖然不情愿,但是在小明的請求(要挾)下,只能服從。
第二天,小明順利的完成了任務,給小強買了袋辣條。
在計算機上負載均衡也類似如此,我們的大BOSS客戶端將請求發送至服務器,然而一臺服務器是無法承受很高的并發量的,我們就會將請求轉發到其他服務器。
當然真正的負載均衡架構并不是由一臺server轉發的另一臺server,而在客戶端與服務器端中間加入了一個負責分配請求的負載均衡硬件(軟件)。
DNS
名詞:DNS是客戶端發送請求中一個非常重要的中轉,他的作用是將用戶請求的URL映射為具體的IP地址,全世界有13臺根服務器,但通常為我們進行域名解析的并不是根服務器,而是直接訪問我們的 LDNS(Local DNS Server),通常由網絡運營商維護。
最早的負載均衡就是利用搭建本地DNS服務器實現的,實現方式簡單易懂,為同一個主機名分配多個映射 ,可采用輪循,隨機等方式分配請求。
看上去沒什么問題,但是在使用過程中會發現,如果其中一個地址down機,我們是無法及時發現的,如果有用戶被分配到這個主機就會出現訪問失敗的狀況,同時我們也無法判斷每個server的負載,可能會出現,某個server幾乎閑置,另外一個server負載壓力極高的情況。
硬件設備
名詞:負載均衡器(Load Balancer),負載均衡器通常作為獨立的硬件置于客戶端與服務器之間。
負載均衡設備擁有非常好的負載均衡性能,他擁有眾多的負載均衡策略(權重,動態比率,最快模式,最小連接數等),可以保證以相對較優的方式分配請求。
不過好的東西總是有代價的,那就是價格,一臺負載均衡器的售價往往高達十幾萬甚至幾十萬,許多企業并不愿意為它買單。
反向代理
名詞:Nginx。高性能,輕量級,已經成了人們對Nginx的第一印象,Nginx可作為HTTP服務器,在處理高并發請求的時候擁有比現在主流的Apache服務器更高的性能,同時Nginx也是一個優秀的反向代理服務器。
第一次聽到“反向代理”,可能有些陌生,但如果了解與之對應的正向代理就很好理解了,正向代理通常由客戶端主動鏈接,比如我們的科學的上網方式就是使用正向代理,以達到間接訪問網站的目。
而反向代理在服務器端,無需主動鏈接,當我們訪問擁有反向代理的網站時,實際訪問的是其反向代理服務器,而非真正的服務器,當請求到達反向代理服務器時,反向代理服務器再將請求轉發至服務器。
反向代理是實現負載均衡的主流手段之一,通常使用Nginx等服務器搭建,Nginx同樣擁有眾多的分配策略,以保證平均分配壓力。
Nginx反向代理:
BIGIP(硬件)負載均衡:
2)CDN
視頻總在緩沖,圖片各種加載不出來,幾年前是再正常不過的事了,在當時大家也沒覺得是回事,但把這種情況放在現在,我想人們絕對直接就小紅叉了吧,那么我們如何避免這樣的情況呢?這就是我要說的,內容分發網絡(Content Delivery Network),簡稱:CDN。
CDN簡單的來說就是存儲一些靜態文件的一臺或多臺服務器,通過復制,緩存等方式,將文件保存其中。
1.哪些是靜態文件?
css,html,圖片,媒體都屬于靜態文件,也就是說用戶發送的請求不會影響靜態文件的內容,而jsp,php等文件就不屬于靜態文件,因為他們的內容會因我們的請求而發生改變。
2.CDN如何實現加速?
通常情況下,我們所要的數據都是從主服務器中獲取,但假如我們的主服務器在南方,而訪問用戶在北方,那么訪問速度就會相對變慢,變慢的原因有很多,例如傳輸距離,運營商,帶寬等等因素,而使用CDN技術的話,我們會將CDN節點分布在各地,當用戶發送請求到達服務器時,服務器會根據用戶的區域信息,為用戶分配最近的CDN服務器。
3.CDN數據從哪里來?
復制,緩存,CDN服務器可以在用戶請求后緩存文件,也可以主動抓取主服務器內容。
分布在各地的CDNS: