半結(jié)構(gòu)化數(shù)據(jù)的定義
我們在設(shè)計(jì)一個(gè)信息系統(tǒng)時(shí)必然涉及到數(shù)據(jù)的存儲(chǔ),而數(shù)據(jù)存儲(chǔ)用得最多的就是關(guān)系數(shù)據(jù)庫。通常我們會(huì)將數(shù)據(jù)按業(yè)務(wù)分類,并設(shè)計(jì)相應(yīng)的表,然后將對(duì)應(yīng)的信息保存到相應(yīng)的表中。比如一個(gè)企業(yè)信息管理系統(tǒng),我們需要保存員工基本信息:工號(hào)、姓名、性別、出生日期等等;我們就會(huì)建立一個(gè)對(duì)應(yīng)的員工(staff)表。像通過關(guān)系型數(shù)據(jù)庫的二維表結(jié)構(gòu)(行和列)來邏輯表示數(shù)據(jù)結(jié)構(gòu),并且數(shù)據(jù)結(jié)構(gòu)變化不會(huì)經(jīng)常性發(fā)生,我們稱之為結(jié)構(gòu)化數(shù)據(jù)。相比之下,比如員工的聲音,圖像等數(shù)據(jù),因?yàn)椴煌瑔T工之間可能存在很大的差異,我們很難用某種特定邏輯結(jié)構(gòu)來進(jìn)行描述,因此稱之為非結(jié)構(gòu)化數(shù)據(jù)。在關(guān)系數(shù)據(jù)庫中通常使用blob(二進(jìn)制編碼)來進(jìn)行進(jìn)行非結(jié)構(gòu)化數(shù)據(jù)。
半結(jié)構(gòu)化數(shù)據(jù),是介于結(jié)構(gòu)化和非結(jié)構(gòu)化之間的數(shù)據(jù)。它是結(jié)構(gòu)化的數(shù)據(jù),但是結(jié)構(gòu)變化很大。因?yàn)槲覀円私鈹?shù)據(jù)的細(xì)節(jié)所以不能將數(shù)據(jù)簡單的組織成一個(gè)文件按照非結(jié)構(gòu)化數(shù)據(jù)處理,由于結(jié)構(gòu)變化很大也不能夠簡單的建立一個(gè)表和它對(duì)應(yīng)。
比如員工的簡歷,它不像員工基本信息那樣一致,每個(gè)員工的簡歷大不相同。有的員工的簡歷很簡單,比如只包括教育情況;有的員工的簡歷卻很復(fù)雜,比如包括工作情況、婚姻情況、出入境情況、戶口遷移情況、黨籍情況、技術(shù)技能等等。還有可能有一些我們沒有預(yù)料的信息。通常我們要完整的保存這些信息并不是很容易的,因?yàn)槲覀儾粫?huì)希望系統(tǒng)中的表的結(jié)構(gòu)在系統(tǒng)的運(yùn)行期間進(jìn)行變更。
隨著互聯(lián)網(wǎng)技術(shù)(尤其是移動(dòng)互聯(lián)網(wǎng),物聯(lián)網(wǎng))的飛快發(fā)展,使得數(shù)據(jù)的差異性變大,因此非結(jié)構(gòu)化數(shù)據(jù)的數(shù)量日趨增大。這時(shí),主要用于管理結(jié)構(gòu)化數(shù)據(jù)的關(guān)系數(shù)據(jù)庫的局限性暴露地越來越明顯。因而,數(shù)據(jù)庫技術(shù)相應(yīng)地進(jìn)入了“后關(guān)系數(shù)據(jù)庫時(shí)代”,發(fā)展進(jìn)入基于網(wǎng)絡(luò)應(yīng)用的非結(jié)構(gòu)化數(shù)據(jù)庫時(shí)代。所謂非結(jié)構(gòu)化數(shù)據(jù)庫, 是指數(shù)據(jù)庫的變長紀(jì)錄由若干不可重復(fù)和可重復(fù)的字段組成,而每個(gè)字段又可由若干不可重復(fù)和可重復(fù)的子字段組成。簡單地說,非結(jié)構(gòu)化數(shù)據(jù)庫就是字段可變的數(shù) 據(jù)庫。比如NoSQL數(shù)據(jù)庫MongoDB,全文搜索數(shù)據(jù)看Elastic Search等。
半結(jié)構(gòu)化數(shù)據(jù)的特征
半結(jié)構(gòu)化數(shù)據(jù)中結(jié)構(gòu)模式附著或相融于數(shù)據(jù)本身,數(shù)據(jù)自身就描述了其相應(yīng)結(jié)構(gòu)模式。具體來說,半結(jié)構(gòu)化數(shù)據(jù)具有下述特征:
(1)數(shù)據(jù)結(jié)構(gòu)自描述性。結(jié)構(gòu)與數(shù)據(jù)相交融,在研究和應(yīng)用中不需要區(qū)分“元數(shù)據(jù)”和“一般數(shù)據(jù)”(兩者合二為一)。
(2)數(shù)據(jù)結(jié)構(gòu)描述的復(fù)雜性。結(jié)構(gòu)難以納入現(xiàn)有的各種描述框架,實(shí)際應(yīng)用中不易進(jìn)行清晰的理解與把握。
(3)數(shù)據(jù)結(jié)構(gòu)描述的動(dòng)態(tài)性。數(shù)據(jù)變化通常會(huì)導(dǎo)致結(jié)構(gòu)模式變化,整體上具有動(dòng)態(tài)的結(jié)構(gòu)模式。
常規(guī)的數(shù)據(jù)模型例如E-R模型、關(guān)系模型和對(duì)象模型恰恰與上述特點(diǎn)相反,因此可以成為結(jié)構(gòu)化數(shù)據(jù)模型。而相對(duì)于結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)的構(gòu)成更為復(fù)雜和不確定,從而也具有更高的靈活性,能夠適應(yīng)更為廣泛的應(yīng)用需求。
半結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)方式
化解為結(jié)構(gòu)化數(shù)據(jù)
這種方法通常是對(duì)現(xiàn)有的信息進(jìn)行粗略的統(tǒng)計(jì)整理,總結(jié)出信息所有的類別同時(shí)考慮系統(tǒng)真正關(guān)心的信息。對(duì)每一類別建立一個(gè)子表。比如上面提到員工簡歷我們可以建立教育情況子表、工作情況子表、黨籍情況子表等等,并在主表中加入一個(gè)備注字段,將其它系統(tǒng)不關(guān)心的信息和一開始沒有考慮到的信息保存在備注中。
優(yōu)點(diǎn):查詢統(tǒng)計(jì)比較方便。
缺點(diǎn):不能適應(yīng)數(shù)據(jù)的擴(kuò)展,不能對(duì)擴(kuò)展的信息進(jìn)行檢索,對(duì)項(xiàng)目設(shè)計(jì)階段沒有考慮到的同時(shí)又是系統(tǒng)關(guān)心的信息的存儲(chǔ)不能很好的處理。
用XML格式來組織并保存到CLOB字段中
XML很適合存儲(chǔ)半結(jié)構(gòu)化的數(shù)據(jù),只需要將不同類別的信息保存在XML的不同的節(jié)點(diǎn)中就可以了。
優(yōu)點(diǎn):能夠靈活的進(jìn)行擴(kuò)展,信息進(jìn)行擴(kuò)展時(shí)只要更改對(duì)應(yīng)的DTD或者XSD。
缺點(diǎn):查詢效率比較低,要借助XPATH來完成查詢統(tǒng)計(jì)。
用JSON格式來組織并保存到CLOB字段中
JSON非常適合存儲(chǔ)半結(jié)構(gòu)化的數(shù)據(jù),只需要將不同類別的信息保存在JSON的不同的節(jié)點(diǎn)中就可以了。
優(yōu)點(diǎn):能夠靈活的進(jìn)行擴(kuò)展,信息進(jìn)行擴(kuò)展時(shí)只要在應(yīng)用程序來控制JSON對(duì)應(yīng)的Schema。
缺點(diǎn):查詢效率比較低,要通過數(shù)據(jù)庫本身提供的JSON處理方法來完成查詢統(tǒng)計(jì)。
Elastic Search如何處理半結(jié)構(gòu)化數(shù)據(jù)
Elastic Search可以用來保存json類型的半結(jié)構(gòu)化的數(shù)據(jù),并提供更具json的schema定義的字段進(jìn)行信息查詢。
它首先定義了一個(gè)通用的文檔格式(包含_index,_type,_id, _version,_score,_source等),然后我們可以根據(jù)業(yè)務(wù)需要來定義自己的schema,把數(shù)據(jù)保存到_source字段。
比如:
{
"_index": "deltadata_v1", ---- common fields
"_type": "_doc", ---- common fields
"_id": "share_issued_and_asset_raised-F00001468C-20200730", ---- common fields
"_version": 1, ---- common fields
"_score": null, ---- common fields
"_source": { ----- 根據(jù)需要自定義自己的數(shù)據(jù)格式,在自己的schema中,也可以根據(jù)不同的數(shù)據(jù)類型,來動(dòng)態(tài)的設(shè)置data字段的schema
"kafkaWorkflow": "share_issued_and_asset_raised",
"instrumentId": "F00001468C",
"asOfDate": 20200730,
"updatedOn": 1596182547005,
"kafkaTimestamp": 1596182540033,
"data": {
"PreferredAssetRaised": null,
"ShareOutstanding": 3704772.13,
"SharePubliclyTraded": null,
"AssetRaised": null,
"NumberOfShareHolder": null,
"CommonShareOutstanding": null,
"IPOValue": "0",
"ShareAuthorized": null,
"CommonAssetRaised": null
}
}
}
數(shù)據(jù)保存到數(shù)據(jù)庫之后,我們可以根據(jù)自己定義的json schema進(jìn)行內(nèi)容檢索,例如
GET /deltadata/_doc/_search?pretty&version=true
{
"query": {
"bool": {
"must": [
{ "match": { "kafkaWorkflow": "share_issued_and_asset_raised" }
}
]
}
},
"sort": {"updatedOn": { "order": "desc" }}
}