飛天大數(shù)據(jù)產(chǎn)品價(jià)值解讀 — SaaS模式云數(shù)據(jù)倉庫 MaxCompute摘要:企業(yè)在數(shù)字化轉(zhuǎn)型過程中面臨數(shù)據(jù)技術(shù)平臺(tái)建設(shè)和運(yùn)營(yíng)的諸多挑戰(zhàn),隨著現(xiàn)代化數(shù)據(jù)倉庫向多功能、服務(wù)化方向發(fā)展演進(jìn),技術(shù)側(cè)的變革為解決企業(yè)數(shù)據(jù)平臺(tái)各項(xiàng)挑戰(zhàn)帶來新的可能。MaxCompute作為阿里云飛天大數(shù)據(jù)中的數(shù)據(jù)倉庫產(chǎn)品,已經(jīng)成為了阿里內(nèi)部及眾多的外部客戶廣泛使用且高度信賴的企業(yè)數(shù)據(jù)平臺(tái)。本次直播將為您介紹SaaS模式云數(shù)據(jù)倉庫MaxCompute核心能力及優(yōu)勢(shì),并結(jié)合大數(shù)據(jù)分析平臺(tái)經(jīng)典使用場(chǎng)景,為您介紹MaxCompute 為企業(yè)帶來的業(yè)務(wù)敏捷性、面向分析統(tǒng)一平臺(tái)、顯著降低TCO等關(guān)鍵業(yè)務(wù)價(jià)值。
本次分享主要圍繞以下五個(gè)方面:
一、飛天大數(shù)據(jù)平臺(tái)解決方案
二、MaxCompute:SaaS模式企業(yè)級(jí)云數(shù)據(jù)倉庫
三、MaxCompute產(chǎn)品價(jià)值
四、基于MaxCompute的解決方案及案例介紹
五、總結(jié)
一、飛天大數(shù)據(jù)平臺(tái)解決方案
企業(yè)級(jí)數(shù)字化轉(zhuǎn)型挑戰(zhàn)目前,企業(yè)在數(shù)字化轉(zhuǎn)型過程中面臨著很多的挑戰(zhàn),這些挑戰(zhàn)可以分為幾類問題:首先,企業(yè)主要以應(yīng)用為導(dǎo)向,快速的滿足業(yè)務(wù)需求。為了滿足不同部門的業(yè)務(wù)需求,建立了很多數(shù)據(jù)平臺(tái),這些平臺(tái)缺乏整體規(guī)劃,形成了很多的數(shù)據(jù)孤島,數(shù)據(jù)共享成本高,缺乏企業(yè)級(jí)統(tǒng)一的數(shù)據(jù)獲取出口,難以自助分析。其次,現(xiàn)代企業(yè)要求業(yè)務(wù)團(tuán)隊(duì)具備了面向業(yè)務(wù)快速變化的敏捷創(chuàng)新能力,需要具備數(shù)據(jù)智能的研發(fā)能力,面向用戶體驗(yàn)的場(chǎng)景創(chuàng)新能力,都對(duì)IT系統(tǒng)提出了更高要求。如何能夠滿足不同團(tuán)隊(duì)對(duì)數(shù)據(jù)分析的要求,滿足內(nèi)部用戶的開發(fā)使用體驗(yàn),這個(gè)過程中開發(fā)效率成為了敏捷創(chuàng)新的阻礙因素,從產(chǎn)品的規(guī)劃到最終的上線往往橫跨數(shù)月的時(shí)間。另外,企業(yè)過去通過自建大數(shù)據(jù)平臺(tái)的方式來獲得很強(qiáng)的技術(shù)平臺(tái)掌控能力,但在實(shí)際的IDC運(yùn)營(yíng)管理過程中會(huì)出現(xiàn)運(yùn)維成本過高的問題,同時(shí)因?yàn)镮T人才成本高、流動(dòng)大,自建平臺(tái)存在服務(wù)質(zhì)量不高的情況。企業(yè)往往按照業(yè)務(wù)需求做資源規(guī)劃,導(dǎo)致日常資源利用率不高,存在很多資源浪費(fèi),同時(shí)在業(yè)務(wù)波峰時(shí)會(huì)產(chǎn)生資源不夠的情況。企業(yè)自建平臺(tái)基于開源的組件,會(huì)存在系統(tǒng)安全、數(shù)據(jù)安全及合規(guī)方面的問題和隱患。
現(xiàn)代化大數(shù)據(jù)平臺(tái)現(xiàn)代化數(shù)據(jù)倉庫向多功能多服務(wù)化演進(jìn),技術(shù)側(cè)的變革帶來了解決企業(yè)數(shù)字化轉(zhuǎn)型的挑戰(zhàn)的可能。現(xiàn)代化大數(shù)據(jù)平臺(tái)主要有兩個(gè)方向,首先是云計(jì)算的興起,逐步往SaaS化方向演進(jìn),提供按需分配的計(jì)算需求。第二點(diǎn)由于傳統(tǒng)的數(shù)據(jù)倉庫難以滿足現(xiàn)代化大數(shù)據(jù)的需求,需要建立實(shí)時(shí)化的數(shù)倉,對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行低成本的分析,同時(shí)通過AI能力挖掘更深的價(jià)值。
飛天大數(shù)據(jù)平臺(tái)解決方案大數(shù)據(jù)平臺(tái)解決方案是一種多產(chǎn)品組合的解決方案,通過多種產(chǎn)品間組合,構(gòu)建多種多樣的數(shù)據(jù)應(yīng)用。阿里云采用飛天大數(shù)據(jù)平臺(tái)解決方案,此方案適用于電商、游戲、社交等互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)化運(yùn)營(yíng)場(chǎng)景,如智能推薦,日志分析,業(yè)務(wù)運(yùn)營(yíng)分析,用戶畫像,數(shù)據(jù)治理,業(yè)務(wù)大屏以及搜索等。阿里云最佳實(shí)踐的大數(shù)據(jù)平臺(tái)同時(shí)具備技術(shù)領(lǐng)先性和降本提效,提供業(yè)務(wù)價(jià)值收集等優(yōu)勢(shì)。飛天大數(shù)據(jù)平臺(tái)解決方案中MaxCompute作為旗艦產(chǎn)品,成為了非常核心的角色。
二、MaxCompute:SaaS模式企業(yè)級(jí)云數(shù)據(jù)倉庫
MaxCompute產(chǎn)品優(yōu)勢(shì)MaxCompute目前的定位是SaaS模式企業(yè)級(jí)云數(shù)據(jù)倉庫,MaxCompute服務(wù)托管在阿里云上,創(chuàng)建超大規(guī)模的資源池,由阿里云進(jìn)行部署和管理,對(duì)外提供API接口,用戶使用時(shí)通過不同的用戶端搜索API的方式訪問使用。MaxCompute免去了開通的步驟,開箱即用。其次MaxCompute有超大的資源池,具備按需使用,高彈性的特點(diǎn)。第三點(diǎn),MaxCompute是存儲(chǔ)計(jì)算分離的架構(gòu),提供結(jié)構(gòu)化的存儲(chǔ),提供按需使用的計(jì)算資源。在低成本情況下提供較好的可擴(kuò)展性。
應(yīng)用場(chǎng)景MaxCompute在服務(wù)化的場(chǎng)景下,廣泛的支持幾種場(chǎng)景,首先是to C營(yíng)銷數(shù)據(jù)分析場(chǎng)景,對(duì)用戶行為進(jìn)行收集分析,構(gòu)建畫像,打標(biāo)簽,為用戶做更多的服務(wù)。還有針對(duì)線上的運(yùn)營(yíng)活動(dòng),實(shí)時(shí)收集和查詢線上運(yùn)營(yíng)情況,做運(yùn)營(yíng)策略的變更。同時(shí)為各行業(yè)大家數(shù)據(jù)倉庫,從而構(gòu)建更多的數(shù)據(jù)應(yīng)用。
MaxCompute產(chǎn)品技術(shù)特性
第一點(diǎn):MaxCompute是全托管的Serverless的在線服務(wù),不需要做資源的開通和管理,用戶可以用使用近乎無限的計(jì)算資源。同時(shí)免去了很多工作,由阿里云做統(tǒng)一的版本升級(jí),資源的伸縮和故障的處理,進(jìn)一步縮減運(yùn)維上的投入。
第二點(diǎn):MaxCompute可以提供最好的彈性能力和擴(kuò)展性,由于存儲(chǔ)與計(jì)算分離的特點(diǎn),支持TB到EB數(shù)據(jù)規(guī)模的擴(kuò)展能力,可以讓企業(yè)將全部數(shù)據(jù)資產(chǎn)保存在一個(gè)平臺(tái)上進(jìn)行聯(lián)動(dòng)分析,消除數(shù)據(jù)孤島。由于Serverless資源可以實(shí)時(shí)根據(jù)業(yè)務(wù)峰谷變化帶來的需求變化分配資源,進(jìn)行自動(dòng)擴(kuò)展。MaxCompute算力是非常強(qiáng)的,單作業(yè)可根據(jù)需要秒級(jí)獲得成千上萬Core,當(dāng)數(shù)據(jù)級(jí)別達(dá)到EB級(jí)別時(shí),MaxCompute也能很好的支持正常運(yùn)轉(zhuǎn)。
第三點(diǎn):MaxCompute融合了數(shù)據(jù)探索能力,首先MaxCompute與阿里云的warehouse是深度集成的關(guān)系,默認(rèn)集成了對(duì)數(shù)據(jù)湖(如OSS服務(wù)) 的訪問分析,可以處理非結(jié)構(gòu)化或開放格式數(shù)據(jù),還支持外表映射、通過Spark直接訪問方式開展數(shù)據(jù)湖分析。通過數(shù)據(jù)倉庫與外表的映射,在同一套數(shù)據(jù)倉庫服務(wù)下和用戶接口下,實(shí)現(xiàn)數(shù)據(jù)湖分析和數(shù)據(jù)倉庫的關(guān)聯(lián)分析
第四點(diǎn):傳統(tǒng)的BI能力已經(jīng)無法滿足業(yè)務(wù)需求,企業(yè)更多的需要通過AI能力將數(shù)據(jù)集成到平臺(tái)中,支持更多的場(chǎng)景。MaxCompute與PAI無縫集成,提供BI+AI一體化的產(chǎn)品能力,從而提供強(qiáng)大的機(jī)器學(xué)習(xí)處理能力,用戶可使用熟悉的Spark-ML開展智能分析,同時(shí)可以使用Python機(jī)器學(xué)習(xí)三方庫。
第五點(diǎn):目前,實(shí)時(shí)分析成為了很火熱的話題,MaxCompute也支持流式數(shù)據(jù)的實(shí)時(shí)寫入(Tunnel),并在數(shù)據(jù)倉庫中開展分析。與云上主要流式服務(wù)深度集成,輕松接入各種來源流式數(shù)據(jù)。MaxCompute可以支持高性能秒級(jí)彈性并發(fā)查詢,滿足近實(shí)時(shí)分析場(chǎng)景。
第六點(diǎn):MaxCompute支持多種計(jì)算引擎,通過內(nèi)建Apache Spark引擎,提供完整的Spark功能。與MaxCompute計(jì)算資源、數(shù)據(jù)和權(quán)限體系深度集成。
第七點(diǎn):MaxCompute提供統(tǒng)一而豐富的運(yùn)算能力,包括離線計(jì)算(MR,DAG,SQL,ML,Graph)、實(shí)時(shí)計(jì)算(流式,內(nèi)存計(jì)算,迭代計(jì)算),涵蓋通用關(guān)系型大數(shù)據(jù),機(jī)器學(xué)習(xí),非結(jié)構(gòu)化數(shù)據(jù)處理,圖計(jì)算等。
第八點(diǎn):目前,數(shù)據(jù)中臺(tái)往往有數(shù)據(jù)共享的需求,企業(yè)的數(shù)據(jù)資產(chǎn)可以被企業(yè)的每個(gè)人檢索到,每個(gè)人知道有哪些數(shù)據(jù),同時(shí)通過安全合規(guī)的權(quán)限控制讓每個(gè)人可以輕松獲得企業(yè)數(shù)據(jù)資產(chǎn),進(jìn)行進(jìn)一步的開發(fā)。此時(shí)則需要數(shù)據(jù)中臺(tái)提供統(tǒng)一的元數(shù)據(jù)視圖,MaxCompute通過提供租戶級(jí)別的統(tǒng)一元數(shù)據(jù),讓企業(yè)能夠輕松獲得完整的企業(yè)數(shù)據(jù)目錄,更進(jìn)一步,對(duì)于更廣泛的數(shù)據(jù)源,通過外表建立數(shù)據(jù)倉庫與外部數(shù)據(jù)源的連接。如此,數(shù)據(jù)中臺(tái)可以做到無需收集所有數(shù)據(jù),但是仍然可以為用戶提供統(tǒng)一數(shù)據(jù)視圖,滿足數(shù)據(jù)共享的需求。
第九點(diǎn):MaxCompute不是簡(jiǎn)單的計(jì)算引擎,它是一個(gè)完整的服務(wù),因此提供了 SLA保證:99.9%服務(wù)可用性保障,支持自助運(yùn)維與自動(dòng)化運(yùn)維,完善的故障容錯(cuò)(軟件,硬件,網(wǎng)絡(luò),人為)。
三、MaxCompute產(chǎn)品價(jià)值
云原生場(chǎng)景Serverless已經(jīng)成為了數(shù)據(jù)平臺(tái)的發(fā)展趨勢(shì),Serverless天然的按需分配,高擴(kuò)展性的能力是解決數(shù)據(jù)中臺(tái)問題的最佳的方案。MaxCompute是Serverless的云原生數(shù)據(jù)倉庫服務(wù),提供超大規(guī)模的資源市場(chǎng),用戶感知不到資源池,只是需要在邏輯層做項(xiàng)目的開通,數(shù)據(jù)倉庫的自建,數(shù)據(jù)的建模,在項(xiàng)目空間中做數(shù)據(jù)分析。MaxCompute是一套非常敏捷的服務(wù)模式,極大的降低數(shù)據(jù)平臺(tái)的門檻,將以月為單位的數(shù)據(jù)處理過程降低到天級(jí)別,加速價(jià)值實(shí)現(xiàn)。
示例: 2 min-從開通MaxCompute服務(wù)到基于公共數(shù)據(jù)集運(yùn)行第一個(gè)SQL查詢進(jìn)入DataWorks管理控制臺(tái),點(diǎn)擊創(chuàng)建工作空間,輸入工作空間名稱、點(diǎn)擊下一步選擇MaxCompute按量付費(fèi)選項(xiàng)、描述實(shí)例名稱、選擇MaxCompute數(shù)據(jù)類型及訪問身份。
創(chuàng)建完之后進(jìn)入DataWorks數(shù)據(jù)開發(fā)的如入口中,開始第一個(gè)SQL的處理。MaxCompute提供了面向全網(wǎng)的公共數(shù)據(jù)集,用戶都可以進(jìn)行查詢。整個(gè)過程從開通到第一個(gè)查詢只需要兩分鐘的時(shí)間。Serverless意味著更敏捷的業(yè)務(wù)響應(yīng)和快速試錯(cuò)、創(chuàng)新。
這種模式帶來了兩種好處,一種是初創(chuàng)企業(yè)可以在低成本的環(huán)境下,通過鏈路快速將商業(yè)場(chǎng)景走通,快速驗(yàn)證業(yè)務(wù)價(jià)值。其次,在大企業(yè)中,有很多新的組織和部門,他們需要獨(dú)立的環(huán)境進(jìn)行新穎的開發(fā),MaxCompute可以很好的支持敏捷的場(chǎng)景。
Serverless意味著簡(jiǎn)單、強(qiáng)大計(jì)算能力,無需容量規(guī)劃、匹配業(yè)務(wù)快速變化的需求。下圖左側(cè)是一個(gè)復(fù)雜的作業(yè),數(shù)據(jù)規(guī)模非常大,執(zhí)行單個(gè)作業(yè)就需要很多資源,MaxCompute可以支持不同規(guī)模的數(shù)據(jù)級(jí),提供強(qiáng)大的算力。
Serverless模式真正實(shí)現(xiàn)了按需(On-demand)分配資源,不再以集群或者隊(duì)列級(jí)別進(jìn)行資源伸縮,以每個(gè)作業(yè)為單位動(dòng)態(tài)分配合適的資源,無需用戶提前容量規(guī)劃、消除了資源容量與業(yè)務(wù)需求不能良好匹配的問題。但是,我們實(shí)際接觸客戶過程中發(fā)現(xiàn),不是所有的作業(yè)需要最佳的性能,不同企業(yè)、不同階段以及不同的任務(wù)類型,用戶會(huì)考慮在成本與性能間有不同的取舍。不同企業(yè)算力需求及偏好存在差異,在企業(yè)初創(chuàng)時(shí)期,數(shù)據(jù)級(jí)不大,成本不高,但是隨著數(shù)據(jù)級(jí)的增長(zhǎng),用戶增多,成本會(huì)非常高,此時(shí)MaxCompute可以提供按需使用的彈性算力。不僅如此,MaxCompute還提供包年包月的套餐,滿足常規(guī)需求,幫助企業(yè)穩(wěn)定財(cái)務(wù)支出。在企業(yè)業(yè)務(wù)規(guī)模較為穩(wěn)定時(shí),可以購(gòu)買這類套餐,支持作業(yè)優(yōu)先級(jí),保障關(guān)鍵任務(wù)穩(wěn)定產(chǎn)出。支持存儲(chǔ)與計(jì)算資源包購(gòu)買。當(dāng)面臨臨時(shí)查詢需求時(shí),對(duì)算力要求非常高,而且不屬于周期性需求,MaxCompute通過將多計(jì)算資源打通,融合打通包年包月與按需使用的彈性資源,用戶只需聯(lián)合開通,即可實(shí)現(xiàn)更優(yōu)的成本與性能平衡的資源解決方案。最后MaxCompute還可以搶占空閑資源,搶占并使用服務(wù)空閑計(jì)算資源,此時(shí)的價(jià)格較包年包月標(biāo)準(zhǔn)計(jì)算資源下降74%。
多租戶系統(tǒng)MaxCompute是天然的多租戶系統(tǒng),在多租戶環(huán)境下保障租戶間的隔離性,同時(shí)通過細(xì)粒度權(quán)限控制,實(shí)現(xiàn)跨業(yè)務(wù)、跨組織間進(jìn)行數(shù)據(jù)共享。企業(yè)不同的組織和部門將數(shù)據(jù)統(tǒng)一集中在資源池中,實(shí)現(xiàn)統(tǒng)一完整的數(shù)據(jù)資產(chǎn)視圖。MaxCompute支持跨項(xiàng)目間的數(shù)據(jù)訪問授權(quán),高效、低成本地在企業(yè)內(nèi)共享數(shù)據(jù),實(shí)現(xiàn)每個(gè)人對(duì)企業(yè)各項(xiàng)數(shù)據(jù)資源的受控使用。 MaxCompute已成為業(yè)界最完整的安全管理體系,支持跨項(xiàng)目數(shù)據(jù)安全管理、細(xì)粒度的訪問控制、數(shù)據(jù)加密、隱私數(shù)據(jù)保護(hù)、操作使用行為審計(jì)能力。
多租戶系統(tǒng)有諸多優(yōu)勢(shì)同時(shí)對(duì)多租戶平臺(tái)的安全管理能力也提出了更高的要求。如當(dāng)下安全事件頻發(fā),那么云上大數(shù)據(jù)服務(wù)應(yīng)如何保障企業(yè)數(shù)據(jù)和服務(wù)安全?MaxCompute在平臺(tái)創(chuàng)立之期就是天然的Serverless和多租戶的環(huán)境,阿里對(duì)MaxCompute內(nèi)置了大量的安全管理機(jī)制,這些安全機(jī)制提供了全面、多層次的安全管理能力,持續(xù)保護(hù)云上數(shù)據(jù)服務(wù)安全。首先是基礎(chǔ)設(shè)施托管的安全與保障,同時(shí)面向訪問控制與授權(quán)、數(shù)據(jù)安全、風(fēng)險(xiǎn)管控、多租戶安全隔離做了很多管理功能。具體而言,在數(shù)據(jù)安全方面MaxCompute提供數(shù)據(jù)加密、實(shí)時(shí)審計(jì)和備份恢復(fù)等功能。
示例: 用戶異常操作行為實(shí)時(shí)審計(jì)+數(shù)據(jù)自動(dòng)備份及恢復(fù)下圖中可以發(fā)現(xiàn)tab_dev表被刪除了,遇到這種情況常見的管理步驟是先檢查誰刪除了這種表,MaxCompute提供了歷史事件查詢的頁面。
從下圖中可以找到tab_dev表是由誰,在什么時(shí)間,通過什么操作刪除了,方便后續(xù)追溯。MaxCompute為用戶提供了實(shí)時(shí)審計(jì)能力。
Demo3:持續(xù)備份與恢復(fù)在數(shù)據(jù)丟失之后,重要的數(shù)據(jù)需要找回。MaxCompute內(nèi)建了服務(wù)級(jí)別的自動(dòng)備份能力,通過如下圖中的restore命令,可以找回丟失的數(shù)據(jù)。
面向分析的統(tǒng)一數(shù)據(jù)平臺(tái)MaxCompute是面向分析的統(tǒng)一數(shù)據(jù)平臺(tái),一個(gè)平臺(tái)滿足數(shù)據(jù)時(shí)代的多種需求,簡(jiǎn)化企業(yè)數(shù)據(jù)平臺(tái)架構(gòu),加速獲取深入的業(yè)務(wù)洞察。MaxCompute具備更實(shí)時(shí)的數(shù)據(jù)洞察能力,通過在產(chǎn)品級(jí)別打通集成消息服務(wù),采集Datahub自定義日志,實(shí)時(shí)的獲取事件并進(jìn)行分析。MaxCompute中有很多數(shù)據(jù)格式,有些數(shù)據(jù)格式不適合放在同一處,MaxCompute可以提供聯(lián)邦查詢的能力,聯(lián)動(dòng)數(shù)據(jù)庫系統(tǒng),數(shù)據(jù)不加載在同一個(gè)庫中, 但是可以提供同一種數(shù)據(jù)處理平臺(tái)。MaxCompute是面向分析的數(shù)據(jù)平臺(tái),與 PAI 無縫集成,同時(shí)內(nèi)建主流機(jī)器學(xué)習(xí)框架支持,無需移動(dòng)數(shù)據(jù)獲得深入洞察分析。
MaxCompute深度集成了Spark,可以實(shí)現(xiàn)“一套數(shù)據(jù)支持多種引擎”,在全托管的統(tǒng)一數(shù)據(jù)平臺(tái)上使用主流或者熟悉的計(jì)算引擎,可以滿足更豐富計(jì)算場(chǎng)景的需要。目前很多用戶習(xí)慣使用Spark引擎,MaxCompute Spark是MaxCompute提供的Apache Spark計(jì)算框架,完全兼容Spark的API、應(yīng)用及生態(tài)工具,共享了同樣的數(shù)據(jù)存儲(chǔ),同樣的計(jì)算資源,同一種數(shù)據(jù)庫管理體系。MaxCompute項(xiàng)目用戶,可以在統(tǒng)一的數(shù)據(jù)存儲(chǔ)、權(quán)限管控體系內(nèi),利用Spark進(jìn)行應(yīng)用開發(fā)。
現(xiàn)代化的數(shù)據(jù)倉庫 + 數(shù)據(jù)湖解決方案數(shù)據(jù)湖成為了云上數(shù)據(jù)存儲(chǔ)和交換的中心,大量的非結(jié)構(gòu)化數(shù)據(jù)存放在OSS上,通過外表或者Spark直接與云上數(shù)據(jù)湖進(jìn)行很好的打通,做聯(lián)邦外表的查詢,通過load命令將OSS上的數(shù)據(jù)快速的加載到數(shù)據(jù)倉庫中。MaxCompute可以連接企業(yè)多種外部數(shù)據(jù)源,通過統(tǒng)一、一致的數(shù)據(jù)管理體系(MaxCompute統(tǒng)一元數(shù)據(jù)),多種來源的數(shù)據(jù)可在統(tǒng)一的計(jì)算環(huán)境中跨孤立存儲(chǔ)系統(tǒng)進(jìn)行無縫數(shù)據(jù)的訪問和處理。
BI+AI集成的一體化數(shù)據(jù)平臺(tái)真實(shí)的人工智能場(chǎng)景依賴大數(shù)據(jù)平臺(tái)提供數(shù)據(jù)供給,進(jìn)行數(shù)據(jù)預(yù)處理。如何在企業(yè)統(tǒng)一的數(shù)據(jù)資產(chǎn)及安全體系之上,同時(shí)開展BI分析和AI分析,充分挖掘數(shù)據(jù)價(jià)值? 最理想的狀態(tài)是不移動(dòng)數(shù)據(jù),將計(jì)算與數(shù)據(jù)解耦合,在一套平臺(tái)上處理大數(shù)據(jù)AI的分析。 MaxCompute+PAI是大數(shù)據(jù)與人工智能融合的分析平臺(tái),利用PAI可以很好的處理MaxCompute中的數(shù)據(jù),從而支持智能化分析。
高性能低成本的技術(shù)底座數(shù)據(jù)平臺(tái)發(fā)展到目前為止都是在解決性能、成本、效能等幾方面的問題,若對(duì)比分析自建平臺(tái)和MaxCompute中成本的比重,自建平臺(tái)成本結(jié)構(gòu)主要包括一次性軟硬件成本、擴(kuò)容、管理,運(yùn)維等等方面的成本。MaxCompute成本結(jié)果包括云服務(wù)使用成本,但系統(tǒng)管理成本是非常低的。MaxCompute可以極大的減少前期投入,快速驗(yàn)證價(jià)值。其次,MaxCompute在30TB及100TB數(shù)據(jù)級(jí)上都可以得到很好的性能,相比于Hadoop自建,成本低一半,性能快一倍,得到了TPC組織的官方認(rèn)可。MaxCompute可以提供高性能、低成本的大數(shù)據(jù)分析服務(wù)。通過對(duì)比IDC自建平臺(tái)與MaxCompute的成本,MaxCompute可以節(jié)省1/3的真實(shí)TCO成本。
MaxCompute不止在離線倉上有很強(qiáng)的算力的能力,同時(shí)面向BI和集成分析場(chǎng)景,支持彈性并發(fā)加速的能力。從下圖可以發(fā)現(xiàn),MaxCompute在不同的規(guī)模的測(cè)試集上都有非常優(yōu)秀的表現(xiàn)。
開放生態(tài)的數(shù)據(jù)平臺(tái)拋開獨(dú)立的技術(shù)平臺(tái),離不開周邊系統(tǒng)的配套,離不開與企業(yè)環(huán)境的集成。MaxCompute擁有開放生態(tài)的服務(wù),支持與眾多服務(wù)集成,包括開放的一方服務(wù)接口,如MaxCompute Studio IDE、JDBC、SDK、開源Spark Connector、開源Kafka Connector、MMA遷移工具等。同時(shí)MaxCompute可以融入企業(yè)已有的IT環(huán)境中,與阿里云眾多的服務(wù)進(jìn)行深度的集成,包括DataWorks、PAI、Quick BI、Datahub、DTS、日志服務(wù)、阿里云Kafka等,最大化降低數(shù)據(jù)鏈路集成工作。MaxCompute 還集成了很多第三方的服務(wù),包括Tableau、R、Python、Python SDK等,最終提升開發(fā)效率。阿里云提供了完整的大數(shù)據(jù)產(chǎn)品解決方案,包括數(shù)據(jù)的采集,實(shí)時(shí)離線一體化計(jì)算、數(shù)據(jù)應(yīng)用的展示,以MaxCompute 作為數(shù)據(jù)倉庫的底座可以快速的與阿里云多個(gè)產(chǎn)品集成,滿足企業(yè)的智能化應(yīng)用需求。
企業(yè)級(jí)可治理的數(shù)據(jù)管理平臺(tái)當(dāng)企業(yè)發(fā)展到一定規(guī)模后,必然會(huì)遇到數(shù)據(jù)治理問題。數(shù)據(jù)與業(yè)務(wù)增長(zhǎng)并不是線性關(guān)系,數(shù)據(jù)是指數(shù)級(jí)增長(zhǎng),業(yè)務(wù)是平滑增長(zhǎng)。各個(gè)數(shù)據(jù)平臺(tái)打通之后,數(shù)據(jù)治理的成本越來越高。阿里巴巴大數(shù)據(jù)治理最佳實(shí)踐,提供數(shù)據(jù)發(fā)現(xiàn)機(jī)制,支持統(tǒng)一元數(shù)據(jù)采集與數(shù)據(jù)資產(chǎn)目錄構(gòu)建支持?jǐn)?shù)據(jù)探查與數(shù)據(jù)分析、聯(lián)邦查詢以及資源優(yōu)化服務(wù),讓企業(yè)更方便地探查數(shù)據(jù)價(jià)值,更有效的統(tǒng)一元數(shù)據(jù)管理,更安全的生產(chǎn)數(shù)據(jù),更智能的優(yōu)化大數(shù)據(jù)成本。以數(shù)據(jù)存儲(chǔ)為例,很多數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)倉庫中但無法使用,有些作業(yè)沒有計(jì)算,有些作業(yè)重復(fù)計(jì)算,阿里通過自動(dòng)化方式,圍繞引擎采集第一手?jǐn)?shù)據(jù),提供多領(lǐng)域多視角優(yōu)化視圖。
四、基于MaxCompute的解決方案及案例介紹
MaxCompute能夠解決自建數(shù)據(jù)平臺(tái)的痛點(diǎn)問題自建平臺(tái)面臨著很多的挑戰(zhàn),包括建設(shè)成本高、擴(kuò)展性與彈性不足、資源利用率低、運(yùn)維維護(hù)成本高等。MaxCompute 云上的服務(wù)可以很大程度上解決云下的痛點(diǎn)問題。因此,遷移上云(MMA)已經(jīng)成為了比較成熟的解決方案,主要包括數(shù)據(jù)遷移的評(píng)估,數(shù)據(jù)遷移,作業(yè)遷移轉(zhuǎn)換等,從而將自建平臺(tái)遷移到云上,使得MaxCompute 云上服務(wù)的特性和優(yōu)勢(shì)被企業(yè)所用。
大數(shù)據(jù)上云解決方案大數(shù)據(jù)搬站是云上生態(tài)體系的融和與升級(jí),阿里云就可以提供一套完整的飛天大數(shù)據(jù)平臺(tái)解決方案。某母嬰行業(yè)頭部客戶在自建數(shù)據(jù)平臺(tái)是遇到了很多的痛點(diǎn),包括集群水位高、性能差、亟待大數(shù)據(jù)綜合治理。同時(shí)IDC大數(shù)據(jù)每年投入成本高,希望降本提效。阿里云從大數(shù)據(jù)平臺(tái)上云整體“降本增效”的方案快速切入,遷移到大數(shù)據(jù)MaxCompute、實(shí)時(shí)計(jì)算、DataWorks 后,部分任務(wù)有10倍以上的性能提升,將開源數(shù)據(jù)格式進(jìn)行轉(zhuǎn)換,存儲(chǔ)從自建Hadoop 3PB降到900T,利用Flink實(shí)時(shí)數(shù)據(jù)處理能力,將母嬰客戶現(xiàn)有的場(chǎng)景實(shí)時(shí)化(“基于用戶ID維度和內(nèi)容類型的實(shí)時(shí)行為”、“獲取用戶的實(shí)時(shí)群聊ID”及“獲取文章的實(shí)時(shí)發(fā)布信息”),并且基于Flink進(jìn)行實(shí)時(shí)推薦增加轉(zhuǎn)化率。大數(shù)據(jù)平臺(tái)整體成本節(jié)省了30%以上。
智能實(shí)時(shí)數(shù)倉解決方案智能實(shí)時(shí)數(shù)倉解決方案適用于電商、游戲、社交等互聯(lián)網(wǎng)行業(yè)大規(guī)模數(shù)據(jù)實(shí)時(shí)查詢場(chǎng)景。方案優(yōu)勢(shì)包括阿里云實(shí)時(shí)數(shù)倉全套鏈路,與離線數(shù)倉無縫打通。滿足一套存儲(chǔ),兩種計(jì)算(實(shí)時(shí)計(jì)算和離線計(jì)算)的高性價(jià)比組合。某視頻行業(yè)客戶基于MaxCompute+Realtime Compute+Hologres的組合,做目標(biāo)用戶標(biāo)簽數(shù)據(jù)開發(fā)、用戶畫像實(shí)時(shí)洞察、實(shí)時(shí)視頻推薦等工作。MaxCompute開箱即用、完善生態(tài)、性能強(qiáng)悍、彈性資源的特性使得客戶可以最大化的平衡成本和彈性的需要。基于MaxCompute可以支持?jǐn)?shù)據(jù)分層、反作弊、計(jì)算優(yōu)化、存儲(chǔ)優(yōu)化等場(chǎng)景。
MaxCompute產(chǎn)品規(guī)格MaxCompute提供按量計(jì)費(fèi)能力,用戶初期使用時(shí),建議選擇按量計(jì)費(fèi),根據(jù)業(yè)務(wù)的變化,匹配資源,開通后不使用時(shí)無費(fèi)用產(chǎn)生。當(dāng)用戶業(yè)務(wù)比較成熟時(shí),建議選擇包年包月,單價(jià)更低,享受更多折扣,控制相關(guān)預(yù)算和成本。
收費(fèi)標(biāo)準(zhǔn)按量計(jì)費(fèi)中依然提供極致的彈性計(jì)算資源,資源池為共享型,計(jì)算任務(wù)按需搶占,不可指定使用量也無使用限制。當(dāng)前僅SQL、MR、Spark、交互式分析幾類計(jì)算任務(wù)有計(jì)費(fèi)。存儲(chǔ)資源只收表(Table)存儲(chǔ)的容量費(fèi)用。且容量大小是壓縮后的數(shù)據(jù)。存儲(chǔ)資源中的資源池為共享型,按需存儲(chǔ),無使用限制。包括表(Table)和資源(Resource)等存儲(chǔ)。數(shù)據(jù)上傳至MaxCompute為免費(fèi),僅對(duì)通過公網(wǎng)下載,進(jìn)行按量收費(fèi)。包年包月標(biāo)準(zhǔn)版中的計(jì)算資源包含計(jì)算資源單元和非預(yù)留計(jì)算資源兩種。包年包月套餐版中包含了計(jì)算和存儲(chǔ)兩部分費(fèi)用,買一份套餐,存儲(chǔ)資源不需要額外計(jì)費(fèi)。
五、總結(jié)
MaxCompute作為阿里云飛天大數(shù)據(jù)中的數(shù)據(jù)倉庫產(chǎn)品,已經(jīng)成為了阿里內(nèi)部及眾多的客戶廣泛使用且高度信賴的企業(yè)數(shù)據(jù)平臺(tái)。同時(shí),MaxCompute可以滿足現(xiàn)代企業(yè)數(shù)字化多種需求。基于MaxCompute,企業(yè)可以構(gòu)建低成本、高效能的敏捷數(shù)據(jù)平臺(tái)。MaxCompute有超大規(guī)模數(shù)據(jù)存儲(chǔ)能力,將企業(yè)多源數(shù)據(jù)集中在一起,統(tǒng)一數(shù)據(jù)資產(chǎn),在企業(yè)內(nèi)部使得每位員工在安全共享的環(huán)境下使用和分析數(shù)據(jù),從而賦能數(shù)據(jù)驅(qū)動(dòng)的組織變革。MaxCompute是數(shù)據(jù)倉庫及數(shù)據(jù)中臺(tái)的理想技術(shù)底座。
本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。