結構化數據和非結構化數據是大數據的兩種類型,這兩者之間并不存在真正的沖突。客戶如何選擇不是基于數據結構,而是基于使用它們的應用程序:關系數據庫用于結構化數據,大多數其他類型的應用程序用于非結構化數據。
然而,結構化數據分析的難易程度與非結構化數據的分析難度之間的關系日益緊張。結構化數據分析是一種成熟的過程和技術。非結構化數據分析是一個新興的行業,在研發方面有很多新的投資,但不是一項成熟的技術。了解兩者之間的差異是充分利用這兩者的關鍵,特別是在從Web數據中獲益時。
什么是結構化數據
大多數人都熟悉結構化數據的工作原理。結構化數據,可以從名稱中看出,是高度組織和整齊格式化的數據。它是可以放入表格和電子表格中的數據類型。它可能不是人們最容易找到的數據類型,但與非結構化數據相比,無疑是兩者中人們更容易使用的數據類型。另一方面,計算機可以輕松地搜索它。
結構化數據也被成為定量數據,是能夠用數據或統一的結構加以表示的信息,如數字、符號。在項目中,保存和管理這些的數據一般為關系數據庫,當使用結構化查詢語言或SQL時,計算機程序很容易搜索這些術語。結構化數據具有的明確的關系使得這些數據運用起來十分方便,不過在商業上的可挖掘價值方面就比較差。
典型的結構化數據包括:信用卡號碼、日期、財務金額、電話號碼、地址、產品名稱等。
什么是非結構化數據
非結構化數據本質上是結構化數據之外的一切數據。它不符合任何預定義的模型,因此它存儲在非關系數據庫中,并使用NoSQL進行查詢。它可能是文本的或非文本的,也可能是人為的或機器生成的。簡單的說,非結構化數據就是字段可變的的數據。
非結構化數據不是那么容易組織或格式化的。收集,處理和分析非結構化數據也是一項重大挑戰。這產生了一些問題,因為非結構化數據構成了網絡上絕大多數可用數據,并且它每年都在增長。隨著更多信息在網絡上可用,并且大部分信息都是非結構化的,找到使用它的方法已成為許多企業的重要戰略。更傳統的數據分析工具和方法還不足以完成工作。
典型的人為生成的非結構化數據包括:
- 文本文件:文字處理、電子表格、演示文稿、電子郵件、日志。
- 電子郵件:電子郵件由于其元數據而具有一些內部結構,我們有時將其稱為半結構化。但是,消息字段是非結構化的,傳統的分析工具無法解析它。
- 社交媒體:來自新浪微博、微信、QQ、Facebook,Twitter,LinkedIn等平臺的數據。
- 網站: YouTube,Instagram,照片共享網站。
- 移動數據:短信、位置等。
- 通訊:聊天、即時消息、電話錄音、協作軟件等。
- 媒體:MP3、數碼照片、音頻文件、視頻文件。
- 業務應用程序:MS office文檔、生產力應用程序。
典型的機器生成的非結構化數據包括:
- 衛星圖像:天氣數據、地形、軍事活動。
- 科學數據:石油和天然氣勘探、空間勘探、地震圖像、大氣數據。
- 數字監控:監控照片和視頻。
- 傳感器數據:交通、天氣、海洋傳感器。
結構化數據與非結構化數據:有何區別
從上文的解釋中,結構化和非結構化數據之間的差異逐漸變得清晰。除了存儲在關系數據庫和存儲非關系數據庫之外的明顯區別之外,最大的區別在于分析結構化數據與非結構化數據的便利性。針對結構化數據存在成熟的分析工具,但用于挖掘非結構化數據的分析工具正處于萌芽和發展階段。
并且非結構化數據要比結構化數據多得多。非結構化數據占企業數據的80%以上,并且以每年55%~65%的速度增長。如果沒有工具來分析這些海量數據,企業數據的巨大價值都將無法發揮。
隨著儲存成本的下降,以及新興技術的發展,行業對非結構化數據的重視程度得到提高。比如物聯網、工業4.0、視頻直播產生了更多的非結構化數據,而人工智能、機器學習、語義分析、圖像識別等技術方向則更需要大量的非結構化數據來開展工作。
文章來源:探碼科技
參考文章:
《Structured vs. Unstructured Data》
《What’s the Difference Between Structured and Unstructured Data?》
《大數據可能“說謊”,非結構化將呈現更豐富的世界》