日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

半結(jié)構(gòu)化數(shù)據(jù)的定義

我們在設(shè)計(jì)一個(gè)信息系統(tǒng)時(shí)必然涉及到數(shù)據(jù)的存儲(chǔ),而數(shù)據(jù)存儲(chǔ)用得最多的就是關(guān)系數(shù)據(jù)庫。通常我們會(huì)將數(shù)據(jù)按業(yè)務(wù)分類,并設(shè)計(jì)相應(yīng)的表,然后將對(duì)應(yīng)的信息保存到相應(yīng)的表中。比如一個(gè)企業(yè)信息管理系統(tǒng),我們需要保存員工基本信息:工號(hào)、姓名、性別、出生日期等等;我們就會(huì)建立一個(gè)對(duì)應(yīng)的員工(staff)表。像通過關(guān)系型數(shù)據(jù)庫的二維表結(jié)構(gòu)(行和列)來邏輯表示數(shù)據(jù)結(jié)構(gòu),并且數(shù)據(jù)結(jié)構(gòu)變化不會(huì)經(jīng)常性發(fā)生,我們稱之為結(jié)構(gòu)化數(shù)據(jù)。相比之下,比如員工的聲音,圖像等數(shù)據(jù),因?yàn)椴煌瑔T工之間可能存在很大的差異,我們很難用某種特定邏輯結(jié)構(gòu)來進(jìn)行描述,因此稱之為非結(jié)構(gòu)化數(shù)據(jù)。在關(guān)系數(shù)據(jù)庫中通常使用blob(二進(jìn)制編碼)來進(jìn)行進(jìn)行非結(jié)構(gòu)化數(shù)據(jù)

半結(jié)構(gòu)化數(shù)據(jù),是介于結(jié)構(gòu)化非結(jié)構(gòu)化之間的數(shù)據(jù)。它是結(jié)構(gòu)化的數(shù)據(jù),但是結(jié)構(gòu)變化很大。因?yàn)槲覀円私鈹?shù)據(jù)的細(xì)節(jié)所以不能將數(shù)據(jù)簡單的組織成一個(gè)文件按照非結(jié)構(gòu)化數(shù)據(jù)處理,由于結(jié)構(gòu)變化很大也不能夠簡單的建立一個(gè)表和它對(duì)應(yīng)。

比如員工的簡歷,它不像員工基本信息那樣一致,每個(gè)員工的簡歷大不相同。有的員工的簡歷很簡單,比如只包括教育情況;有的員工的簡歷卻很復(fù)雜,比如包括工作情況、婚姻情況、出入境情況、戶口遷移情況、黨籍情況、技術(shù)技能等等。還有可能有一些我們沒有預(yù)料的信息。通常我們要完整的保存這些信息并不是很容易的,因?yàn)槲覀儾粫?huì)希望系統(tǒng)中的表的結(jié)構(gòu)在系統(tǒng)的運(yùn)行期間進(jìn)行變更。

隨著互聯(lián)網(wǎng)技術(shù)(尤其是移動(dòng)互聯(lián)網(wǎng),物聯(lián)網(wǎng))的飛快發(fā)展,使得數(shù)據(jù)的差異性變大,因此非結(jié)構(gòu)化數(shù)據(jù)的數(shù)量日趨增大。這時(shí),主要用于管理結(jié)構(gòu)化數(shù)據(jù)的關(guān)系數(shù)據(jù)庫的局限性暴露地越來越明顯。因而,數(shù)據(jù)庫技術(shù)相應(yīng)地進(jìn)入了“后關(guān)系數(shù)據(jù)庫時(shí)代”,發(fā)展進(jìn)入基于網(wǎng)絡(luò)應(yīng)用的非結(jié)構(gòu)化數(shù)據(jù)庫時(shí)代。所謂非結(jié)構(gòu)化數(shù)據(jù)庫, 是指數(shù)據(jù)庫的變長紀(jì)錄由若干不可重復(fù)和可重復(fù)的字段組成,而每個(gè)字段又可由若干不可重復(fù)和可重復(fù)的子字段組成。簡單地說,非結(jié)構(gòu)化數(shù)據(jù)庫就是字段可變的數(shù) 據(jù)庫。比如NoSQL數(shù)據(jù)庫MongoDB,全文搜索數(shù)據(jù)看Elastic Search等。

半結(jié)構(gòu)化數(shù)據(jù)的特征

半結(jié)構(gòu)化數(shù)據(jù)中結(jié)構(gòu)模式附著或相融于數(shù)據(jù)本身,數(shù)據(jù)自身就描述了其相應(yīng)結(jié)構(gòu)模式。具體來說,半結(jié)構(gòu)化數(shù)據(jù)具有下述特征:

(1)數(shù)據(jù)結(jié)構(gòu)自描述性。結(jié)構(gòu)與數(shù)據(jù)相交融,在研究和應(yīng)用中不需要區(qū)分“元數(shù)據(jù)”和“一般數(shù)據(jù)”(兩者合二為一)。

(2)數(shù)據(jù)結(jié)構(gòu)描述的復(fù)雜性。結(jié)構(gòu)難以納入現(xiàn)有的各種描述框架,實(shí)際應(yīng)用中不易進(jìn)行清晰的理解與把握。

(3)數(shù)據(jù)結(jié)構(gòu)描述的動(dòng)態(tài)性。數(shù)據(jù)變化通常會(huì)導(dǎo)致結(jié)構(gòu)模式變化,整體上具有動(dòng)態(tài)的結(jié)構(gòu)模式。

常規(guī)的數(shù)據(jù)模型例如E-R模型、關(guān)系模型和對(duì)象模型恰恰與上述特點(diǎn)相反,因此可以成為結(jié)構(gòu)化數(shù)據(jù)模型。而相對(duì)于結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)的構(gòu)成更為復(fù)雜和不確定,從而也具有更高的靈活性,能夠適應(yīng)更為廣泛的應(yīng)用需求。

半結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)方式

化解為結(jié)構(gòu)化數(shù)據(jù)

這種方法通常是對(duì)現(xiàn)有的信息進(jìn)行粗略的統(tǒng)計(jì)整理,總結(jié)出信息所有的類別同時(shí)考慮系統(tǒng)真正關(guān)心的信息。對(duì)每一類別建立一個(gè)子表。比如上面提到員工簡歷我們可以建立教育情況子表、工作情況子表、黨籍情況子表等等,并在主表中加入一個(gè)備注字段,將其它系統(tǒng)不關(guān)心的信息和一開始沒有考慮到的信息保存在備注中。

優(yōu)點(diǎn):查詢統(tǒng)計(jì)比較方便。

缺點(diǎn):不能適應(yīng)數(shù)據(jù)的擴(kuò)展,不能對(duì)擴(kuò)展的信息進(jìn)行檢索,對(duì)項(xiàng)目設(shè)計(jì)階段沒有考慮到的同時(shí)又是系統(tǒng)關(guān)心的信息的存儲(chǔ)不能很好的處理。

用XML格式來組織并保存到CLOB字段中

XML很適合存儲(chǔ)半結(jié)構(gòu)化的數(shù)據(jù),只需要將不同類別的信息保存在XML的不同的節(jié)點(diǎn)中就可以了。

優(yōu)點(diǎn):能夠靈活的進(jìn)行擴(kuò)展,信息進(jìn)行擴(kuò)展時(shí)只要更改對(duì)應(yīng)的DTD或者XSD。

缺點(diǎn):查詢效率比較低,要借助XPATH來完成查詢統(tǒng)計(jì)。

用JSON格式來組織并保存到CLOB字段中

JSON非常適合存儲(chǔ)半結(jié)構(gòu)化的數(shù)據(jù),只需要將不同類別的信息保存在JSON的不同的節(jié)點(diǎn)中就可以了。

優(yōu)點(diǎn):能夠靈活的進(jìn)行擴(kuò)展,信息進(jìn)行擴(kuò)展時(shí)只要在應(yīng)用程序來控制JSON對(duì)應(yīng)的Schema。

缺點(diǎn):查詢效率比較低,要通過數(shù)據(jù)庫本身提供的JSON處理方法來完成查詢統(tǒng)計(jì)。

Elastic Search如何處理半結(jié)構(gòu)化數(shù)據(jù)

Elastic Search可以用來保存json類型的半結(jié)構(gòu)化的數(shù)據(jù),并提供更具json的schema定義的字段進(jìn)行信息查詢。

它首先定義了一個(gè)通用的文檔格式(包含_index,_type,_id, _version,_score,_source等),然后我們可以根據(jù)業(yè)務(wù)需要來定義自己的schema,把數(shù)據(jù)保存到_source字段。

比如:

{
  "_index": "deltadata_v1",  ---- common fields
  "_type": "_doc", ---- common fields
  "_id": "share_issued_and_asset_raised-F00001468C-20200730", ---- common fields
  "_version": 1, ---- common fields
  "_score": null, ---- common fields
  "_source": {  ----- 根據(jù)需要自定義自己的數(shù)據(jù)格式,在自己的schema中,也可以根據(jù)不同的數(shù)據(jù)類型,來動(dòng)態(tài)的設(shè)置data字段的schema
    "kafkaWorkflow": "share_issued_and_asset_raised",
    "instrumentId": "F00001468C",
    "asOfDate": 20200730,
    "updatedOn": 1596182547005,
    "kafkaTimestamp": 1596182540033,
    "data": {
      "PreferredAssetRaised": null,
      "ShareOutstanding": 3704772.13,
      "SharePubliclyTraded": null,
      "AssetRaised": null,
      "NumberOfShareHolder": null,
      "CommonShareOutstanding": null,
      "IPOValue": "0",
      "ShareAuthorized": null,
      "CommonAssetRaised": null
    }
  }
}

數(shù)據(jù)保存到數(shù)據(jù)庫之后,我們可以根據(jù)自己定義的json schema進(jìn)行內(nèi)容檢索,例如

GET /deltadata/_doc/_search?pretty&version=true
{
  "query": {
    "bool": {
      "must": [
        { "match": { "kafkaWorkflow":  "share_issued_and_asset_raised" }
        }
      ]
    }
  },
  "sort":  {"updatedOn": { "order": "desc" }}
}

分享到:
標(biāo)簽:結(jié)構(gòu)化 數(shù)據(jù)
用戶無頭像

網(wǎng)友整理

注冊時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評(píng)定2018-06-03

通用課目體育訓(xùn)練成績評(píng)定