作者:郭濤
今年,美國知名項目管理研究雜志PM Network將“天貓雙11”與互聯網、阿波羅登月、人類基因組計劃等并列,共稱為世界上TOP50最有影響力的項目。“雙11”不僅改變了人們購物的方式,而且打通了商業與娛樂。
因為可以帶來數倍于平常的流量和銷售額,所以每年的“雙11”到來時,各路零售商們都會“如臨大敵”,嚴陣以待。在極限高并發訪問的情況下,在線交易系統、支付系統等能否經受得住考驗呢?
每日優鮮運維總監周鋒
最初幾年,因為對“剁手黨們”在“雙11”期間的購買程度估計不足,曾經出現過個別商家的系統不堪重負而宕機的情況。近幾年 “雙11”期間這種系統宕機的新聞越來越少,因為各商家在“雙11”到來前已經做好了充足的準備。被譽為“最懂吃貨心的電商”——每日優鮮,在今年的“雙11”到來前差不多兩個月就開始了各項準備工作,所以真正在“雙11”期間,其業務系統沒有出現任何問題,安然度過。在UCloud于11月23日舉行的UClub新零售技術沙龍上,每日優鮮運維總監周鋒用8個字概括了他今年的“雙11”體驗:無驚無險,風平浪靜。
外松內緊,不打無準備之仗
真的是無驚無險,風平浪靜嗎?其實,正是因為每日優鮮公司高層的充分重視,運維、研發、業務等各個部門協調一致,以及云服務商UCloud的支持,每日優鮮在面對“雙11”這場大考時才會氣定神閑。
或許,用“外松內緊”四個字來形容每日優鮮備戰“雙11”會更恰當。俗話說,兵馬未動,糧草先行,為了從容應對“雙11”,資源準備必須先行。最近兩年,每日優鮮都是按照周六日交易峰值的4倍為“雙11”設定余量。為了消除不同區域在不同時間段的交易峰值,運維團隊還要時刻準備著,根據實時交易情況削峰填谷。
從9月20到10月31日,每日優鮮針對“雙11”期間可能出現的各種情況和需求,從業務運營、架構運營、系統運營等多個維度進行了全面梳理,并針對可能會出現瓶頸的地方進行了詳細了解,準備預案,尤其是進行了一系列高強度、全方位的壓力測試。據周鋒介紹,從9月20日起,每隔三天就會進行一次大的壓測,而且每天都會有小壓測,包括全鏈路的壓測、寫壓測,以及故障演練、第三方服務出現問題后的應對等。因為做好了全面的準備工作,所以今年“雙11”到來時,每日優鮮上上下下心里非常有底。
“雙11”活動期間,每日優鮮特意在北京總部大樓的11層設立了作戰室,從總指揮到研發團隊的架構師、所有運維人員,以及運營、技術和產品的對接人,從早上8點就全部到崗,一份分工明細的保障時間表,不僅包括所有一線參戰人員和備戰人員,而且按照每個小時分批次排定工作內容,在辦公室的、在路上的、在各個分支構的人員,都遵照既定的節奏,有條不紊地處理自己手中的工作。
因為每日優鮮的IT系統100%托管在公有云平臺上,所以每日優鮮的“雙11”之戰,也有云服務商UCloud緊密配合與協作。
除了充足資源的準備,UCloud協助將每日優鮮云資源打散,避免業務過于集中承載而出現問題;同時將一些歷史的監控數據、風險分析和評估數據給到每日優鮮作為參考,雙方共同研判在“雙11”期間可能會出現哪些意外狀況和風險,提前進行優化、遷移、加固等工作,以降低風險。此外UCloud還派專人提供駐場服務,確保在問題發生時能夠第一時間響應和解決。
“在今年之前,每次‘雙11’來臨時,我們都會比較緊張,整個過程中會消耗大量人力物力資源,感覺身心比較疲憊。”周鋒坦言,“但是今年有很大不同,‘雙11’技術保障再次升級,公司內部各業務部門之間充分溝通和配合,提前做好準備,為所有工作設定優先級,并確定每項工作的深度,歸納出方法論。正因為如此,今年的‘雙11’保障工作才會游刃有余。”
背后的技術準備
每年的“5·17”“6·18”“雙11”“雙12”,再加上商家的店慶,還有各種各樣的節假日,現在的大促似乎變成了常態。這些促銷日對“剁手黨”來說是一場場的狂歡,而對于商家的IT運維團隊來說則是一場又一場不能有絲毫松懈的戰斗,會耗費大量精力和體力。
在大促前的準備階段,IT運維團隊要根據業務部門提出的要求,比如要做多少波秒殺、發多少張券等,研究如何分配現有資源,是否需要擴容并且擴多少,最大流量洪峰可能出現在何時,如何針對復雜架構實現統一監控,以及如何快速定位問題并順利解決。
商家平時的銷售和一般的促銷活動,用戶訪問量通常是線性的或可以預測的。而像“雙11”這樣的大促,通常流量是很難提前預估的。另外,為了達到預定的業績目標,業務部門可能會在某一關鍵時間點上臨時拋出一個新的營銷手段,比如在晚上11點發出一波紅包,這時可有會引發瞬間流量激增。這些臨時出現的情況,隨意性大,很可能導致技術瓶頸出現,所以作為IT運維人員,必須和業務部門保持密溝通,確保在幾分鐘內解決問題。
“瓶頸總是存在的, 這就需要不同的部門之間相互磨合,及時溝通,才能在瓶頸出現前,消峰填谷,及時化解。”周鋒表示。
在“雙11”之前,UCloud對每日優鮮的運營活動計劃有了充分了解,提前優化IT架構的承載能力,這是應對瞬時高并發流量的前提條件。從9月20日開始,每日優鮮的運維部門召集運營部門一起梳理促銷活動指標,預估發券、流量等數據。每日優鮮的運維團隊負責把這些“業務語言”翻譯成“技術語言”,如哪些代碼、模塊、服務、系統需要特別關注或者優化,然后再由云服務商UCloud將其翻譯成“云端資源語言”,比如需要擴容多少云主機、多大帶寬、負載均衡,以及交付節奏等,從而保證在“雙11”期間,一切交易盡在掌握。
每日優鮮發布的今年“雙11”的戰報顯示:銷售額為去年同期的2.7倍,最快的一筆訂單配送到用戶僅用時5分51秒,刷新了紀錄,而運維部門的零故障完美地支撐了業務的“巔峰時刻”。
當“雙11”成了“新常態”
無論是從知名度、影響力,還是帶來的流量、銷售額來看,其他的促銷活動還不可能與“雙11”相提并論。所以,每年的“雙11”,每日優鮮都會提前做好一切準備措施,但緊張的運維工作也會讓周鋒和他的團隊一度“忙到跳腳“。
從長遠來看,各種促銷會變成“新常態”,而每日優鮮通過像“雙11”這樣的大促,可以不斷積累經驗,并形成一套涵蓋技術、流程和管理的方法論,使之標準化、自動化,并可在每個促銷活動時復制,盡量采用標準化、自動化的流程、配置,減少人為參與的環節,這樣不僅可以提高效率,而且減輕了運維等團隊的工作負擔。這對周鋒和他的團隊來說又是一個新課題。