過去的十年,我們經常聽說的是互聯網時代,而我們現在更經常聽到的是大數據時代。大數據這個詞,聽起來高大上。但到底什么是大數據呢,優就業專業講師給大家詳細解讀一番。
大數據首先是一個非常大的數據集,可以達到TB(萬億字節)甚至ZB(十萬億億字節)。這里面的數據可能既有結構化的數據,也有半結構化和非結構化的數據,而且來自于不同的數據源。
結構化的數據是什么呢?對于接觸過關系型數據庫的小伙伴來說,應該一點都不陌生。對了,就是我們關系型數據庫中的一張表,每行都具有相同的屬性。如下面的一張表:
每行數據都有相同的屬性,這就是結構化的數據。
我們再來看半結構化數據。XML或JSON格式的數據就是我們所常見的半結構的數據。如,下面所示的XML數據:
<book>
<name>大數據時代</name>
<author>趙牟</author>
<price>¥60.5</price>
</book>
子標簽的次序和個數不一定完全一致。
那什么又是非結構化數據呢?這類數據沒有預定義完整的數據結構,在我們日常工作生活中可能更多接觸的就是這類數據,比如,圖片、圖像、音頻、視頻、辦公文檔等等。
知道了這三類結構的數據,我們再來看看大數據的數據源有哪些呢?歸納起來大致有五種數據源。
一是社交媒體平臺,如有名氣的Facebook、Twitter、YouTube和Instagram等。媒體是最受歡迎的大數據來源之一,因為它提供了關于消費者偏好和變化趨勢的寶貴依據。并且因為媒體是自我傳播的,可以跨越所有的物理和人口障礙,因此它是企業深入了解目標受眾、得出模式和結論、增強決策能力的最快方式。
二是云平臺,公有的、私有的和第三方的云平臺。如今,越來越多的企業將數據轉移到云上,超越了傳統的數據源。云存儲支持結構化和非結構化數據,并為業務提供實時信息和隨需應變的依據。云計算的主要特性是靈活性和可伸縮性。由于大數據可以通過網絡和服務器在公共或私有云上存儲和獲取,因此云是一種高效、經濟的數據源。
三是Web資源。公共網絡構成了廣泛且易于訪問的大數據,個人和公司都可以從網上或“互聯網”上獲得數據。此外,國內的大型購物網站,淘寶、京東、阿里巴巴,更是云集了海量的用戶數據。
四是IoT(Internet of Things)物聯網數據源。物聯網目前正處于迅猛發展勢頭。有了物聯網,我們不僅可以從電腦和智能手機獲取數據,還可以從醫療設備、車輛流程、視頻游戲、儀表、相機、家用電器等方面獲取數據。這些都構成了大數據寶貴的數據來源。
五是來自于數據庫的數據源。現今的企業都喜歡融合使用傳統和現代數據庫來獲取相關的大數據。這些數據都是企業驅動業務利潤的寶貴資源。常見的數據庫有MS Access、DB2、Oracle、MySQL以及大數據的數據庫Hbase、MongoDB等。
我們再來總結一下,什么樣的數據就屬于大數據呢?通常來大數據有4個特點,這就是業內人士常說的4V,volume容量、 variety多樣性、velocity速度和veracity準確性。