01.什么是大數(shù)據(jù)?
數(shù)據(jù)是對(duì)客觀事實(shí)進(jìn)行記錄的一種符號(hào),可以是數(shù)字、文字,也可以是圖片、音頻、視頻。大數(shù)據(jù)是指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件進(jìn)行捕捉、管理和數(shù)據(jù)的數(shù)據(jù)集合。
大數(shù)據(jù)具有"5V"特點(diǎn),即數(shù)據(jù)量大、數(shù)據(jù)多樣性、價(jià)值密度低、增長(zhǎng)速度快、數(shù)據(jù)質(zhì)量低。
大數(shù)據(jù)時(shí)代強(qiáng)調(diào)數(shù)據(jù)的全部,而不是局部的樣本數(shù)據(jù)。由于大數(shù)據(jù)的價(jià)值密度低,我們要接受這種模糊和不精確性。通過(guò)對(duì)數(shù)據(jù)的研究,發(fā)現(xiàn)以前不曾發(fā)現(xiàn)的聯(lián)系,而不是像小數(shù)據(jù)時(shí)代,先通過(guò)假設(shè),然后再用數(shù)據(jù)來(lái)驗(yàn)證。也就是說(shuō),在大數(shù)據(jù)時(shí)代,對(duì)相關(guān)性的重視程度要強(qiáng)于因果性。
02.什么是結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)?
結(jié)構(gòu)化數(shù)據(jù)是適合用二維表格展現(xiàn)的數(shù)據(jù)。每一行是一條記錄,每一列是不同的字段。
以電商網(wǎng)站為例,用戶信息就可以用結(jié)構(gòu)化數(shù)據(jù)來(lái)存儲(chǔ)。每位用戶就是一條記錄,而每位用戶又有姓名、性別、地址、手機(jī)、郵箱等字段,這樣就形成了一個(gè)二維表格。
非結(jié)構(gòu)化數(shù)據(jù)不適合用二維表格來(lái)展現(xiàn),比如文檔、圖片、音頻、視頻等。非結(jié)構(gòu)化數(shù)據(jù)的格式多樣,難以標(biāo)準(zhǔn)化和理解,因此在存儲(chǔ)、檢索、利用上都需要更加有效的方法和技術(shù)。
03.什么是數(shù)據(jù)庫(kù)?
數(shù)據(jù)庫(kù)從字面意思來(lái)看就是存儲(chǔ)數(shù)據(jù)的地方,但數(shù)據(jù)的存儲(chǔ)不是雜亂無(wú)章的,而是按照一定的規(guī)則來(lái)存儲(chǔ)的,具有可共享和便于管理的特點(diǎn)。數(shù)據(jù)庫(kù)被視為電子化的文件柜。用戶可以對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行增、刪、改、查等操作。
數(shù)據(jù)庫(kù)可分為關(guān)系型數(shù)據(jù)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)等類型。
04.什么是關(guān)系型數(shù)據(jù)庫(kù)?
關(guān)系型數(shù)據(jù)庫(kù)是指使用關(guān)系模型來(lái)組織數(shù)據(jù)的數(shù)據(jù)庫(kù)。關(guān)系模型可以簡(jiǎn)單理解為二維表格模型,以行和列的形式存儲(chǔ)數(shù)據(jù),因此適合存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)。關(guān)系型數(shù)據(jù)庫(kù)就是由多個(gè)二維表格及其之間的關(guān)系組成的數(shù)據(jù)庫(kù)。
常見(jiàn)的關(guān)系型數(shù)據(jù)庫(kù)有MySQL、SQL Server、PostgreSQL、Oracle等。
以電商網(wǎng)站為例,除了用戶信息之外,還要記錄產(chǎn)品信息和訂單信息。為簡(jiǎn)化起見(jiàn),每個(gè)訂單只包含一種產(chǎn)品。產(chǎn)品包括名稱、價(jià)格、圖片、介紹等字段,訂單包括所屬用戶、相關(guān)產(chǎn)品、訂購(gòu)數(shù)量、訂單價(jià)格、下單時(shí)間等字段。一個(gè)用戶擁有一個(gè)或多個(gè)訂單,而一個(gè)產(chǎn)品也會(huì)屬于一個(gè)或多個(gè)訂單,這樣就建立了用戶、訂單和產(chǎn)品之間的關(guān)系。
05.什么是非關(guān)系型數(shù)據(jù)庫(kù)?
相對(duì)關(guān)系型數(shù)據(jù)庫(kù)而言,非關(guān)系型數(shù)據(jù)庫(kù)拋棄了固定的二維表格結(jié)構(gòu),存儲(chǔ)機(jī)制靈活,比如鍵值對(duì)、文檔、圖形等格式都可以進(jìn)行存儲(chǔ)。
常見(jiàn)的非關(guān)系型數(shù)據(jù)庫(kù)有redis、MongoDB、Cassandra等。
性能是非關(guān)系型數(shù)據(jù)庫(kù)最大的優(yōu)勢(shì)。由于關(guān)系型數(shù)據(jù)庫(kù)中的關(guān)系模型會(huì)占用掉90%的硬件資源及計(jì)算時(shí)間,對(duì)于有大量不需要關(guān)系功能的數(shù)據(jù)處理,非關(guān)系型數(shù)據(jù)庫(kù)的性能是非常高的。
另一方面,正是由于缺少數(shù)據(jù)表之間的關(guān)系,非關(guān)系型數(shù)據(jù)庫(kù)很難在多個(gè)表之間做非常復(fù)雜的數(shù)據(jù)查詢。
06.什么是時(shí)序數(shù)據(jù)庫(kù)?
時(shí)序數(shù)據(jù)庫(kù)是一類特殊的非關(guān)系型數(shù)據(jù)庫(kù),全稱是時(shí)間序列數(shù)據(jù)庫(kù)。經(jīng)研究發(fā)現(xiàn),機(jī)器設(shè)備、傳感器、系統(tǒng)日志等產(chǎn)生的數(shù)據(jù)有如下明顯的特征:
數(shù)據(jù)是時(shí)序的,即按照一定時(shí)間順序生成;
數(shù)據(jù)極少有更新或刪除操作;
數(shù)據(jù)產(chǎn)生頻率快、數(shù)據(jù)信息量大;
數(shù)據(jù)往往帶有位置信息。
傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)或非關(guān)系型數(shù)據(jù)庫(kù)對(duì)于這類數(shù)據(jù),在性能提升上極為有限,只能依靠集群技術(shù),投入更多的計(jì)算資源和存儲(chǔ)資源來(lái)處理,造成企業(yè)運(yùn)營(yíng)成本急劇上升。而時(shí)序數(shù)據(jù)庫(kù)可以有效地處理龐大的數(shù)據(jù),通過(guò)創(chuàng)新的列式存儲(chǔ)和先進(jìn)的壓縮算法,使用的計(jì)算資源不到傳統(tǒng)方案的1/5,存儲(chǔ)空間不到通用數(shù)據(jù)庫(kù)的1/10。
常見(jiàn)的時(shí)序數(shù)據(jù)庫(kù)有InfluxDB等。
07.什么是分布式存儲(chǔ)?
分布式存儲(chǔ)是相對(duì)于集中式存儲(chǔ)而言的。分布式存儲(chǔ)是由標(biāo)準(zhǔn)服務(wù)器(硬件)和分布式文件系統(tǒng)(軟件)組成的,可擴(kuò)展至千臺(tái)硬件節(jié)點(diǎn),支持塊存儲(chǔ)、對(duì)象存儲(chǔ)、文件存儲(chǔ)等多種類型統(tǒng)一管理。
常見(jiàn)的分布式文件系統(tǒng)有HDFS、Ceph、GFS、GPFS、Swift等。
舉個(gè)通俗易懂的例子,如果把存儲(chǔ)比喻成車廂,數(shù)據(jù)比喻成貨物。集中式存儲(chǔ)方案下,如果要想拉更多的貨物,只能更換更大的車廂。而分布式存儲(chǔ)方案,直接增加車廂就可以了。有了分布式存儲(chǔ)技術(shù),存儲(chǔ)EB級(jí)別(1EB=1024PB=1024*1024TB=1024*1024*1024GB)的海量數(shù)據(jù)庫(kù)都不成問(wèn)題。
08.什么是數(shù)據(jù)集成?
由于開(kāi)發(fā)部門或開(kāi)發(fā)時(shí)間的不同,企業(yè)中往往有多個(gè)異構(gòu)的、運(yùn)行在不同的軟硬件平臺(tái)上的數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)彼此獨(dú)立、相互封閉,使得數(shù)據(jù)難以在系統(tǒng)之間交流和共享,從而形成了"信息孤島"。隨著信息化應(yīng)用的不斷深入,企業(yè)內(nèi)部之間、企業(yè)與外部的信息交互的需求日益強(qiáng)烈,急切需要對(duì)已有的數(shù)據(jù)進(jìn)行整合,打通"信息孤島",這就是數(shù)據(jù)集成的意義。
數(shù)據(jù)集成是把不同來(lái)源、不同種類、不同格式的數(shù)據(jù)在物理上或邏輯上進(jìn)行集中,為企業(yè)提供全面的數(shù)據(jù)共享。數(shù)據(jù)集成主要解決的問(wèn)題是各個(gè)數(shù)據(jù)源的異構(gòu)性,包括數(shù)據(jù)庫(kù)的異構(gòu)性、通信協(xié)議的異構(gòu)性、數(shù)據(jù)類型的異構(gòu)性、數(shù)據(jù)取值的異構(gòu)性等。
09.什么是數(shù)據(jù)清洗?
數(shù)據(jù)清洗是一種清除錯(cuò)誤數(shù)據(jù)、去掉重復(fù)數(shù)據(jù)的技術(shù)。數(shù)據(jù)經(jīng)過(guò)清洗之后,可以還保存到原來(lái)的數(shù)據(jù)庫(kù)中,也可以和數(shù)據(jù)集成聯(lián)系在一起,最終保存到集成后的數(shù)據(jù)庫(kù)里。
舉幾個(gè)數(shù)據(jù)清洗的實(shí)例:
1.在用戶信息表中,規(guī)定有姓名、性別、地址、手機(jī)、郵箱五個(gè)字段是必填的。而某些用戶缺少某些字段的值,因此需要補(bǔ)充這些數(shù)據(jù)。
2.英文的姓名之間規(guī)定要有空格,而某些姓名沒(méi)有空格,比如"JohnSmith",就需要修正這類錯(cuò)誤。
3.有些數(shù)據(jù)表的金額單位是元,有些數(shù)據(jù)表的金額單位是萬(wàn)元,數(shù)據(jù)集成時(shí)就需要統(tǒng)一單位。
4.兩條用戶記錄完全重復(fù),需要進(jìn)行去重處理。
10.什么是ETL?
ETL是Extraction、Transformation、Loading三個(gè)單詞的首字母縮寫,指的是數(shù)據(jù)抽取、轉(zhuǎn)換、加載的過(guò)程。
數(shù)據(jù)抽取是從不同的數(shù)據(jù)源中獲取我們需要的數(shù)據(jù)的過(guò)程,和數(shù)據(jù)集成的概念類似,這個(gè)過(guò)程往往會(huì)做一些數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換的任務(wù)主要是進(jìn)行數(shù)據(jù)格式的轉(zhuǎn)換和一些業(yè)務(wù)規(guī)則的計(jì)算。數(shù)據(jù)加載通常是指在數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換完成后,寫入到目標(biāo)數(shù)據(jù)庫(kù)中去。
11.什么是數(shù)據(jù)分析?
數(shù)據(jù)分析是基于商業(yè)需要,有目的的對(duì)數(shù)據(jù)進(jìn)行收集、整理、加工、分析,最終提煉有價(jià)值的信息的過(guò)程。
數(shù)據(jù)分析的四個(gè)步驟:
需求分析、明確目標(biāo);
數(shù)據(jù)收集、加工處理;
數(shù)據(jù)挖掘、數(shù)據(jù)展現(xiàn);
分析報(bào)告、提煉價(jià)值。
12.什么是數(shù)據(jù)埋點(diǎn)?
所謂數(shù)據(jù)埋點(diǎn)就是從應(yīng)用的特定流程中收集一些信息,跟蹤用戶使用的狀況,用來(lái)提供運(yùn)營(yíng)的數(shù)據(jù)支撐,進(jìn)一步優(yōu)化產(chǎn)品。
常見(jiàn)的信息包括獨(dú)立訪客數(shù)(UV)、頁(yè)面瀏覽量(PV)、頁(yè)面停留時(shí)長(zhǎng)、頁(yè)面跳出率、交互元素的點(diǎn)擊事件等。
數(shù)據(jù)埋點(diǎn)通常有兩種方式:
第一種是研發(fā)團(tuán)隊(duì)在產(chǎn)品中注入代碼,并搭建響應(yīng)的查詢平臺(tái);
第二種是借助第三方數(shù)據(jù)埋點(diǎn)工具,如神策數(shù)據(jù)、百度統(tǒng)計(jì)等。
13.什么是數(shù)據(jù)倉(cāng)庫(kù)?
數(shù)據(jù)倉(cāng)庫(kù) (Data Warehouse) 簡(jiǎn)稱DW,存儲(chǔ)大量數(shù)據(jù)的集成中心。數(shù)據(jù)倉(cāng)庫(kù)的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,為企業(yè)提供決策支持(Decision-Support)。它為企業(yè)提供一定的BI(商業(yè)智能)能力,指導(dǎo)業(yè)務(wù)流程改進(jìn)、監(jiān)視時(shí)間、成本、質(zhì)量以及控制。
數(shù)據(jù)倉(cāng)庫(kù)的輸入方是各種各樣的數(shù)據(jù)源,最終的輸出用于企業(yè)的數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)報(bào)表等方向。
14.什么是數(shù)據(jù)集市?
數(shù)據(jù)倉(cāng)庫(kù)是面向整個(gè)企業(yè)的,而數(shù)據(jù)集市是面向部門的,因此規(guī)模更小,由業(yè)務(wù)部門設(shè)計(jì)、開(kāi)發(fā)、管理、維護(hù),可以理解為是數(shù)據(jù)庫(kù)的子集。
數(shù)據(jù)集市就像宜家樓上的家居展廳,正如其名字"集市"一樣,是一個(gè)面向最終顧客的數(shù)據(jù)市場(chǎng)。在這里,數(shù)據(jù)(家具)以一種更加容易被顧客接受的方式組合在一起。顧客的需求是分場(chǎng)景的,比如客廳、書(shū)房、臥室、廚房等,因此我們需要?jiǎng)?chuàng)建多個(gè)數(shù)據(jù)集市(展廳)。
15.什么是數(shù)據(jù)湖?
數(shù)據(jù)湖至今仍然沒(méi)有一個(gè)特別標(biāo)準(zhǔn)的概念,比較統(tǒng)一的是數(shù)據(jù)湖存儲(chǔ)的是未經(jīng)加工的原始數(shù)據(jù),包含結(jié)構(gòu)化和非結(jié)構(gòu)化的各類數(shù)據(jù)。數(shù)據(jù)湖就是一個(gè)存儲(chǔ)了企業(yè)所有原始數(shù)據(jù)的存儲(chǔ),對(duì)于這些原始數(shù)據(jù)的管理則更加復(fù)雜。
以宜家家居為例,數(shù)據(jù)湖的原始數(shù)據(jù)就相當(dāng)于拆散的零部件,顧客可以根據(jù)實(shí)際需要挑選零部件后自行組裝。
16.什么是數(shù)據(jù)挖掘?
數(shù)據(jù)挖掘就是從大量的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱藏在其中的有價(jià)值的信息的過(guò)程。
一般而言,數(shù)據(jù)挖掘分為兩類:一類是監(jiān)督學(xué)習(xí),另一類是無(wú)監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)是對(duì)目標(biāo)需求的概念進(jìn)行學(xué)習(xí),通過(guò)建立模型來(lái)實(shí)現(xiàn)從觀察變量到目標(biāo)需求的有效解釋。無(wú)監(jiān)督學(xué)習(xí)沒(méi)有明確的標(biāo)識(shí)變量來(lái)表達(dá)目標(biāo)需求,主要任務(wù)是探索數(shù)據(jù)之間的內(nèi)在聯(lián)系和結(jié)構(gòu)。
數(shù)據(jù)挖掘融合了多學(xué)科領(lǐng)域的知識(shí),常用的算法有分類、聚類分析、關(guān)聯(lián)分析、趨勢(shì)與演化分析、特征分析、異常分析等。
17.什么是數(shù)據(jù)可視化?
數(shù)據(jù)可視化就是借助圖形化的手段,清晰有效地傳達(dá)與溝通信息。
利用人類對(duì)形狀、顏色的敏感,有效地傳遞信息,幫助用戶從數(shù)據(jù)中發(fā)現(xiàn)關(guān)系、規(guī)律和趨勢(shì)。常用的數(shù)據(jù)可視化圖表有柱狀圖、條形圖、餅圖、雷達(dá)圖、折線圖、堆積圖、散點(diǎn)圖等。
18.什么是商業(yè)智能?
商業(yè)智能(BI,Business Intelligence)是對(duì)商業(yè)信息的搜集、管理和分析過(guò)程,目的是使企業(yè)決策者獲得洞察力,做出對(duì)企業(yè)更有利的決策。
從技術(shù)層面上講,商業(yè)智能不是什么新技術(shù),它只是數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘、數(shù)據(jù)備份和恢復(fù)等技術(shù)的綜合應(yīng)用。
19.結(jié)語(yǔ)
遠(yuǎn)齊科技基于成熟的軟件架構(gòu)、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等技術(shù)構(gòu)建面向未來(lái)的集成開(kāi)發(fā)平臺(tái)系統(tǒng)。在自有集成開(kāi)發(fā)平臺(tái)基礎(chǔ)上,基于最佳業(yè)務(wù)實(shí)踐開(kāi)發(fā)出豐富的軟件功能模塊、業(yè)務(wù)系統(tǒng),為企業(yè)提供高效的定制化開(kāi)發(fā)服務(wù)。