數(shù)據(jù)庫是任何組織技術(shù)生態(tài)系統(tǒng)的核心。云技術(shù)的出現(xiàn),使得數(shù)據(jù)庫具備了高性價比的數(shù)據(jù)存儲、可伸縮計算、以利用率為基礎(chǔ)的定價和完全管理的服務(wù)交付等功能。隨著遠程辦公模式的增加,許多企業(yè)開始采用現(xiàn)代數(shù)據(jù)庫技術(shù)來處理海量數(shù)據(jù)。這樣一來,IT研發(fā)持續(xù)轉(zhuǎn)向云計算,加速了企業(yè)創(chuàng)數(shù)字化轉(zhuǎn)型的進程。
雖然在向云的過度中伴隨著許多挑戰(zhàn),但是對于那些尋求尖端數(shù)據(jù)庫技術(shù)的企業(yè)來說,終歸是利大于弊。對于數(shù)據(jù)領(lǐng)導(dǎo)者來說,增強他們對共同障礙、創(chuàng)造數(shù)據(jù)庫策略及上云的了解至關(guān)重要。如果數(shù)據(jù)庫的領(lǐng)導(dǎo)者誤解了數(shù)據(jù)庫的成本、遷移的復(fù)雜性、數(shù)據(jù)安全性和靈活性,他們就不愿意采用現(xiàn)代化的解決方案。因此,更好地了解這些誤區(qū),對于企業(yè)的成功至關(guān)重要。
一、混合云系統(tǒng)增強數(shù)據(jù)庫的倉儲能力
混合云連接了私有數(shù)據(jù)中心和公有云,使數(shù)據(jù)和應(yīng)用可以共享來自內(nèi)部部署系統(tǒng)和云計算系統(tǒng)的信息。混合云計劃能幫助企業(yè)利用多云和本地數(shù)據(jù)中心,具備更加靈活的優(yōu)勢。。公有云、私有云和本地數(shù)據(jù)資源結(jié)合,并通過人工智能和機器學(xué)習(xí)來支持敏捷性并改進報告。二、了解常見的數(shù)據(jù)庫誤解
對云數(shù)據(jù)庫的誤解可能會導(dǎo)致IT專業(yè)人員對是否采用新的數(shù)據(jù)庫系統(tǒng)和是否上云產(chǎn)生疑惑。以下是關(guān)于這些誤解的真相。
1、數(shù)據(jù)庫只適用于對過去的數(shù)據(jù)進行業(yè)務(wù)分析。其實,使用現(xiàn)代化工具,數(shù)據(jù)庫就可以進行實時數(shù)據(jù)分析。當考慮到企業(yè)數(shù)據(jù)庫實時報告和分析的傳統(tǒng)設(shè)計時,使用像Oracle Goldengate和Shareplex這樣的數(shù)據(jù)復(fù)制技術(shù)是一個明智的選擇。這些集成數(shù)據(jù)存儲工具的數(shù)據(jù)庫,能夠?qū)⒃诰€交易處理的數(shù)據(jù)復(fù)制到數(shù)據(jù)庫,同時幫助提取、轉(zhuǎn)換、加載,以及在線提取、加載和邏輯轉(zhuǎn)換數(shù)據(jù)。
在現(xiàn)代數(shù)據(jù)庫中,Kafka Spark streaming將在數(shù)據(jù)庫環(huán)境下完成實時數(shù)據(jù)分析。因為實時定義的延遲性會根據(jù)企業(yè)實時定義方案的不同而有所不同,所以計劃和管理實時定義的延遲性就顯得非常重要。而企業(yè)的責(zé)任就是決定和定義實時數(shù)據(jù)復(fù)制的延遲性,并在確定的時間內(nèi)配置實時數(shù)據(jù)。如果企業(yè)決定定義實時數(shù)據(jù)的延遲時間是幾小時,那么實時數(shù)據(jù)處理可以通過傳統(tǒng)的批量處理來實現(xiàn)。
2、傳統(tǒng)數(shù)據(jù)庫沒有通用的結(jié)構(gòu)化查詢語言(下文稱SQL)引擎去處理數(shù)據(jù)庫中所有類型的數(shù)據(jù),而在現(xiàn)代化數(shù)據(jù)庫環(huán)境下就能建立一個通用的SQL引擎。如果企業(yè)要處理結(jié)構(gòu)化的數(shù)據(jù),或者使用一個數(shù)據(jù)湖選項去自定義和處理結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù),他們就會依賴企業(yè)自己的數(shù)據(jù)庫解決方案。
一些企業(yè)用單一的SQL引擎,像Snowflake 或者Databricks ,作為統(tǒng)一的數(shù)據(jù)庫引擎來使用數(shù)據(jù)庫系統(tǒng)。然而,這些解決方案需要探索成本、性能和數(shù)據(jù)處理的屬性。比如, Spark引擎最適合批量處理,但不適合低吞吐量的單一SQL。更好的數(shù)據(jù)庫結(jié)構(gòu)會基于數(shù)據(jù)模式來分析商業(yè)要求,然后建立一個合理的SQL引擎。例如,一個單一數(shù)據(jù)庫方案用presto 引擎去處理低吞吐量的簡單SQL,并且用Spark引擎來處理批量數(shù)據(jù)。
3、現(xiàn)代化數(shù)據(jù)庫只能通過云端供應(yīng)商來實現(xiàn)。現(xiàn)代化數(shù)據(jù)庫需要基于企業(yè)數(shù)據(jù)及數(shù)據(jù)優(yōu)先級來建立。比如,如果該數(shù)據(jù)很敏感,那么就需要部署在企業(yè)自己的數(shù)據(jù)中心。與此同時,對于非敏感的數(shù)據(jù)庫來說,企業(yè)也可以從云供應(yīng)商那里獲取。在這些情況下,混合數(shù)據(jù)庫方案就是不錯的選擇。Cloud Pak 等技術(shù)就可以同時在本地數(shù)據(jù)中心和云數(shù)據(jù)中心實時處理數(shù)據(jù)。Cloud Pak 的數(shù)據(jù)是高度可擴展的,并且可以為數(shù)據(jù)庫提供更好的性能和混合云的解決方案。
4、管理數(shù)據(jù)庫的數(shù)據(jù)治理有一定難度。如今,許多企業(yè)很難管理他們的數(shù)據(jù)衍生。這個問題就可以通過設(shè)計一個數(shù)據(jù)中心方案來解決,比如Cloud Pak 或者Apache Kyligence Semantic Layer。再比如,Watson Knowledge Catalog就具有創(chuàng)造多數(shù)據(jù)源和多個不同數(shù)據(jù)源的虛擬化表的能力。
當用戶執(zhí)行SQL時,這些方案也提供通用引擎。它在內(nèi)部轉(zhuǎn)換SQL并將數(shù)據(jù)傳輸?shù)胶线m的數(shù)據(jù)源。這些方案和其他的引擎技術(shù)可以幫助企業(yè)更好地管理和治理數(shù)據(jù)衍生。
5、數(shù)據(jù)倉庫使用了更多存儲空間,并且成本也很高。企業(yè)使用成百上千個不同類型地數(shù)據(jù)庫去管理和滿足他們的商務(wù)需求,這樣他們需要能整合所有數(shù)據(jù)源的數(shù)據(jù)以滿足數(shù)據(jù)報告或者AI、ML需求。通常情況下,數(shù)據(jù)庫領(lǐng)導(dǎo)者會選擇價格低一些的解決方案,比如對象存儲或者建立企業(yè)自己的SQL引擎來處理海量數(shù)據(jù)。
除此之外,管理傳統(tǒng)塊存儲中的數(shù)據(jù)成本很高。在這些情況下,數(shù)據(jù)體系結(jié)構(gòu)是下一代數(shù)據(jù)庫解決方案的更好的選擇。理想的數(shù)據(jù)體系結(jié)構(gòu)提供一個通用的SQL引擎,用來處理來自關(guān)系數(shù)據(jù)庫管理系統(tǒng)的結(jié)構(gòu)化、半結(jié)構(gòu)化或者非結(jié)構(gòu)化的數(shù)據(jù)。Cloud Pak for Data和Watson Query是數(shù)據(jù)體系解決方案的兩個例子。因為數(shù)據(jù)體系結(jié)構(gòu)化可以直接處理在線交易或商務(wù)數(shù)據(jù)庫的數(shù)據(jù),它降低了成本,也不需要使用單獨的數(shù)據(jù)庫解決方案。
未來計劃
采用數(shù)據(jù)庫解決方案需要做一些前期工作,包括數(shù)據(jù)管理和治理、平臺自動化、數(shù)據(jù)移動和復(fù)制、數(shù)據(jù)模型化和準備以及基礎(chǔ)設(shè)施監(jiān)控。如果執(zhí)行得好,這些策略可以使企業(yè)記錄他們的當前環(huán)境,規(guī)劃現(xiàn)代化平臺,遷移遺留的數(shù)據(jù)結(jié)構(gòu),并管理自動化新平臺。通過解決對云數(shù)據(jù)庫的誤解,了解數(shù)據(jù)庫模型的挑戰(zhàn)、益處和總成本所有權(quán),企業(yè)可以做出更明智的云數(shù)據(jù)庫戰(zhàn)略決定,并釋放數(shù)據(jù)真正的價值。原文標題:Why It’s Important to Change Misconceptions About Data Warehouse Technology
原文作者:John Thangaraj