2013年“雙十一”,天貓成交額達350億,支付寶成交筆數1.88億,阿里巴巴再一次賺足眼球。
2012年起,阿里集團閃電般地拆分成7家公司、25個分支機構,并在金融業肆意擴張,在移動互聯網領域大舉收購……馬云構建的阿里生態圈,正在從城邦成長為“帝國”。在這一系列高調動作的背后,實則與一位低調的人有關,他就是王堅。
2008年,王堅加盟阿里巴巴成為集團首席架構師,即現在的首席技術官。這位前微軟亞洲研究院常務副院長被馬云定位為:將幫助阿里巴巴集團建立世界級的技術團隊,并負責集團技術架構以及基礎技術平臺搭建。
加入阿里后,帶著技術基因和學者風范的王堅就在阿里巴巴集團提出了“去IOE”(在IT建設過程中,去除IBM小型機、Oracle數據庫及EMC存儲設備)的想法,并開始把云計算植入阿里的IT基因。阿里巴巴的“去IOE”運動引發了大型企業IT底層建設的新思潮,也使IBM、Oracle等國外大型廠商倍感壓力。
隨著“去IOE”的實施,阿里IT發展策略逐漸從依賴“商業軟件”、到擁抱“開源軟件”最終演變為自主技術和云計算服務能力,更為2009年“阿里云計算有限公司”的成立埋下伏筆。
2011年7月28日,阿里云自主研發的“飛天”云計算平臺開始以公共云服務的方式對外提供云計算服務。IT支撐起阿里集團的業務閃變,并在淘寶、支付寶等核心業務之外,勾勒出了新的盈利模式——云服務。2013年8月15日,阿里巴巴“飛天”云計算平臺的單集群服務器規模達到了5000臺,這是中國互聯網公司首次公布單集群規模達到了5000臺。
新的IT格局支撐起阿里集團“平臺、金融和數據”三大業務的發展;“阿里云”則成為阿里巴巴延伸向更多中小企業的重要觸角。帶著對阿里IT布局的探究,《商業價值》出版人劉湘明攜CIO提問與阿里巴巴首席技術官王堅展開對話。
云計算是“去IOE”最好方法
阿里巴巴的成功經驗表明原來依賴IBM、Oracle和EMC的系統是可以構建在Commodity PC上,這為大多數企業基于云計算平臺搭建IT系統掃清了障礙,讓他們可以徹底擁抱互聯網。
從2008年11月加盟阿里集團開始,王堅在集團首席技術官和阿里云總裁角色之間不斷轉換。辦公室里整墻貼滿“云OS”效果圖,與團隊在“鐘馗道-爭端解決室”開會到深夜已成常態。王堅有著產品經理敏感執著的特質,他認為:“‘去IOE’最好的解決方式是采用云計算,而不是買來一臺新的機器替代掉原有機器。”
“去IOE”的實施,使阿里IT發展策略逐漸從依賴“商業軟件”、到擁抱“開源軟件”最終演變為自主技術和云計算服務能力。這一過程的本質是分布化,讓隨處可以買到的Commodity PC架構成為可能,這提供了云計算落地的首要條件。
Q 博士倫中國公司 IT總監汪華:為什么“IOE”對互聯網企業的發展是—個問題?“去IOE”和開源對IT團隊的技術儲備有多高要求?
A 在互聯網時代,絕大部分企業,包括互聯網企業,對計算需求難以通過IOE提供的技術滿足,技術路徑上依賴于專用的硬件設備比較危險。隨處可以買到的Commodity PC架構對于阿里和大多數企業來說是最安全的,成本節約是“去IOE”最先顯效的部分。
理論上只要計算能力夠,“IOE”就一定能去掉!實際上“去IOE”這件事有技術挑戰和風險,不是簡單改變軟硬件本身,它是“買計算”時代的產物,最好的解決方式是采用云計算,而不是買來一臺新的機器替代掉原有機器。開源技術只解決了軟件使用成本的問題,而忽略了開源軟件的升級和維護成本。
Q 寧波方太廚具有限公司CIO 邴:是否有一天企業都采用開源,而且沒有軟件供應商只有服務供應商時,IT建設的一些困難才能夠解決?
A 阿里最早依賴商業軟件,從擁有20多個節點的Oracle RAC數據庫集群(當時是亞洲最大),到成為開發使用開源軟件MySQL最好的企業之一,到研發自己的關系數據庫OceanBase用于不同的業務場景。這樣的演變路徑也表明:商業軟件、開源軟件跟自有技術永遠是搭檔,對于不同企業來說只是百分比的問題。對大的互聯網企業來說自有技術變得非常重要,未來“云計算平臺+自有技術+開源技術”會變得越來越重要。
Q 中國南方航空公司技術總監龍庚:阿里云、天貓和淘寶的技術體系是怎樣的?在“去IOE”過程中,他們是如何協同?阿里下一步發展對技術會提出什么樣的要求?
A 支付寶、天貓和淘寶,阿里云的實際技術應用確實有所不同,但阿里巴巴整個技術體系是協同在一起的。阿里整體技術的協同效率可以用幾個關鍵的事例來說明:第一是在“去IOE”過程中逐漸建立起對技術方向的認同和協作,淘寶的業務拓展如果沒有技術、產品和業務等各團隊的相互協同,是一件不可能的事;第二是在2011年,阿里集團所有的技術后臺運維和運營部門都集中在首席技術官下面,成立統一的技術保障部,從工具到理念都在融合,這適應了集團業務的快速發展和變化,并成功駕馭了大型互聯網企業的技術挑戰;第三則是業務驅動的技術協同,淘寶“聚石塔”、支付寶“聚寶盆”等業務,都是在業務驅使下運行在阿里云“飛天”平臺上,它是一種自然協同的結果。
今天我們看到的互聯網只是冰山一角,等到量子計算出來以前,我們在相當長的時間里要受現在計算框架的局限,云計算也是階段性的產物,未來如果沒有像量子互聯網公司的發展也是會有很大的瓶頸。從這個角度講,互聯網經濟對計算的依賴就像傳統的工業對石油跟煤的依賴一樣。量子計算不突破,互聯網經濟會有很大障礙,這是我們一定會面對的事情。
阿里巴巴如何“去IOE”
“去IOE” 最好的解決方式是采用云計算,而不是買來一臺新的機器替代掉原有機器。
2013年5月17日,阿里集團最后一臺IBM小機在支付寶下線。這是自2009年“去IOE”戰略透露以來里程碑式的一個節點,阿里集團只剩下部分Oracle數據庫和EMC存儲。7月10日,淘寶廣告系統使用的Oracle數據庫下線,淘寶徹底告別Oracle數據庫。
作為整個集團的首席技術官,王堅負責每年集團IT預算和規劃,他意識到對于傳統IT廠商的依賴使得相關技術及其維護已不在阿里自己管理的范圍之內,例如,大存儲對客戶而言基本就是“黑盒子”,客戶都不能自行進行重要的維護,“去IOE”解決了影響淘寶和支付寶長遠發展的問題。
在阿里巴巴“去IOE”成功的大背景下,王堅的觀點是:“去IOE”不是簡單改變軟件和硬件本身,而是用新的互聯網技術和架構取代傳統的IT技術和架構。
王堅認為阿里“去IOE”的成功原因有三:一是企業的戰略決心足夠強大;二是能夠堅持到底,并愿意承擔技術上、組織上的各種風險;三是要有使命感的人和團隊去完成一件看起來不可能的事。
Q 阿里巴巴為什么要做“去IOE”這件事?“去IOE”經歷了怎樣的過程?
A 2008~2009年,我在做整個集團的預算時,第一次提出了“去IOE”這件事。我負責整個集團技術預算擬定,當看到阿里巴巴對計算需求成指數級增長,并跟業務增長不成比例時,就意識到如果沒有技術的進步,一定會影響到公司長遠的發展。
做預算不僅僅是“錢”的問題,而是考慮集團未來如何發展的問題,也是思考技術戰略的機會。“去IOE”不是一個人的決定,你需要分析企業業務情況,哪些業務適合嘗試“去IOE”。阿里比較幸運,當時淘寶的技術團隊愿意創新,愿意去嘗試“去IOE”這件事,并最早承擔這件事的技術和業務風險。“去IOE”的過程也是技術發展的過程,比如以淘寶為基礎形成了優秀的Mysql數據庫團隊,也建立了自己開發數據庫Oceanbase的團隊?,F在的團隊來自各事業部,雙管齊下,這是一個極大的長期投入,不磨五年是磨不出來的。當支付寶最后一臺IBM小機下線時,整個技術團隊非常自豪。
當時我們考慮“去IOE”并不僅僅出于對成本的考量,最重要的是要滿足企業未來長期發展的需要,傳統IT架構的軟硬件已經無法滿足企業擁抱互聯網方面的發展。阿里巴巴的成功經驗表明原來依賴IBM、Oracle和EMC的系統是可以構建在Commodity PC上的,這為大多數企業基于云計算平臺搭建IT系統掃清了障礙,讓他們可以徹底擁抱互聯網。
這一過程最痛苦的是要傷害天天跟你在一起工作的人,你身邊的同事可能學的就是這個技能,突然告訴他你的技能沒有用了,這是非常痛苦的事情。云計算讓我們跨越了技術上的一些門檻,但是我想可能很多公司會過不了我前面說的坎。
Q 傳統企業“去IOE”的可能性有多大?哪些企業具備“去IOE”的條件和動力?
A 如果對云計算帶來的沖擊認識足夠,就會明白“去IOE”不是一次技術升級。云計算對傳統IT和開源軟件都是有沖擊的,這是時代的變化,而不是一個技術策略的選擇。
從硬件和軟件底層著手“去IOE”,這件事情不該每個企業都做。如果要說一個很直截了當的答案,我會表明一個觀點:如果企業覺得已有的云計算服務不能滿足IT需求,那么它適合自己完成“去IOE”,我認為大部分傳統企業都是沒有可能和必要自己實現“去IOE”。
“去IOE”既有技術挑戰,也受市場條件的約束,有機會成本問題,也受人才資源的限制。所以幫助大多數傳統企業解決“去IOE”的最好途徑是云計算,對企業來講這是一個好的可以長期發展的路徑。
對傳統企業來講,“去IOE”是在做一個選擇,是在選擇是否信任云計算是一種公共服務,就像企業信任國家電網供電一樣。 “IOE”本身是軟件時代或者說買計算機時代留下的產物,而到了云計算時代,實際上變成一個買“計算”的時代,不是買“計算機”的時代,所以IOE應該用服務的方式去掉。這個過程中的挑戰是,你心里是否接受云計算,而不只是技術上接受。
Q 您怎樣看待“去IOE”的人才培養過程?
A 阿里巴巴的技術積累超出很多人的想象。我們真的有很多很好的人才,他們不僅熟悉業務,對技術的理解也不是一般人可比,更重要的是他愿意“革自己的命”,絕不擔心“去IOE“會讓自己原來的技能沒有用。這時候理想變得比什么都重要。
大多數嚴重依賴IOE的企業在技術人才培養上有點“拿自己的錢給別人交學費,但卻給自己戴了手銬”,中國企業對技術的需求旺盛超過世界上任何國家和地區,所以技術上面臨的挑戰也超過了他們,正是我們對國外IT企業的軟硬件的依賴而導致我們失去了很多自己發展的機會,而且國外的技術未必能解決中國企業的問題。“去IOE”的經驗表明,現在我們有一次機會把我們的需求和錢用來發展適合長遠發展的技術,讓IT圍繞自己的產品來發展。
對于我們自己的人才選擇,阿里很謹慎,很多在國外廠商干過的頂級人才,并沒有輕松地收到聘書,這是因為在企業中跟著別人做事,和在阿里用使命感開闖出一片天空有很大不同。“去IOE”需要極其合適的人才,才能帶出一支像樣的隊伍,團隊里每一個人的潛力也是逐漸被激發出來的。
揭秘阿里巴巴“雙十一”IT部署
“雙十一”時每個商家承擔比平時大十倍、百倍甚至千倍的容量,這些因素加起來是讓云計算變成唯一可以解決這個問題的方法。
2012年的“雙十一”,阿里巴巴創造了191億的日交易額神話,其中有20%商家的訂單都通過阿里云的平臺來處理,在流量劇增的情況下實現了系統零故障、訂單零遺漏。2013年“雙十一”,支付寶銷售額達350.18億元,提升了75%。
2013年阿里云開發者大會上,阿里云業務總經理陳金培透露:很多商家將O2O以及其他線上線下業務搬到“聚石塔”平臺上,同時阿里云也針對銀行推出了“聚寶盆”業務,解決銀行支付貫通的問題。8月15日,阿里巴巴飛天云計算平臺的單集群服務器規模達到5000臺,服務淘寶的數據開放平臺以及阿里金融的數據處理業務都成功地轉移到這一平臺上。
Q 2013年“雙十一”王堅博士專門從英國飛回國督陣,阿里云是怎么幫助天貓、淘寶度過這么大一個“洪峰”的?
A 阿里云支持“雙十一”主要是從三個角度:支付問題、淘寶自身和來自客戶的挑戰。支付的難點在銀行,2012年淘寶和天貓的總交易額有191億,交易筆數是1.028億筆。結算筆數非常重要,因為在銀行承擔不了的前提下,支付寶的技術能力決定了系統的承載能力。以前,交易量過大時支付寶就會對交易進行排隊,延遲交易。但“雙十一”的交易量太大,延遲時間太長會產生很大的用戶體驗問題,所以支付寶提前鼓勵用戶先充值進支付寶,這筆錢的規模當時達到了幾十億,把對銀行系統的壓力直接轉嫁到了支付寶系統上,使得“雙十一”當天的交易順利進行。并且在2013年,中國的中小銀行系統也可以跟支付寶對接了。
淘寶自身的挑戰在于面對突然出現的并發流量和意外情況時,如何保持系統的穩定性并完成天文數字的交易量。在意外情況下,淘寶無法預測用戶行為,任何一個局部的問題都有可能演變為一個全局的問題,這是困難所在。“雙十一”當天阿里集團近千名技術和業務人員坐在一起,用一個指揮體系處理問題,準備了幾百種預案。
解決淘寶客戶的問題主要依靠阿里自身的技術力量,比如 “聚石塔”項目將天貓和淘寶賣家的全部交易流程都部署在阿里云平臺上,保證交易系統的穩定性才能保證交易順利完成。把賣家的ERP系統完全架設在云上,這件事的難度和意義比只解決網站流量擴容要大,因為從發票打印到發貨都要通過這個系統,不同的ISV(獨立軟件開發商)也在其中起了關鍵的作用,讓人們體會到一個生態的價值。2013年,淘寶的目標是讓75%的交易在云上完成。
Q 為什么商家在云上跟在本地部署會有這么大的區別呢?
A 首先,現在中國的IT不像大家想象的那么好,很多小企業的IT建設不僅受制于成本,還受制于人才,云計算可以幫這類商家把業務搬到互聯網上來處理。其次,一筆交易從一個數據中心轉到另一個數據中心,這當中有很大的不確定性,因此互聯網基礎設施非常重要,云技術可以幫助大家解決互聯網基礎設施問題,“雙十一”時每個商家承擔比平時大十倍、百倍甚至千倍的容量,這些因素加起來是讓云計算變成唯一可以解決這個問題的方法。
Q 我記得2012年您大概為“雙十一”準備了幾百個預案,2013年有沒有什么不同的準備?2013年的“雙十一”跟上年的“雙十一”有什么不同?
A 2013年“雙十一”時整個系統的成熟度更高。上年花了大概37分鐘支付寶里有了第10億銷售額,2013年大概只花了6分鐘就到了10億。對云計算最有挑戰的不是在下單那一剎那,是第二天要發貨打單,所有東西都要上云,有的商家最后會因為打發票機器數不夠發不出貨。