大數據現在并不是一個陌生的名詞了,這個詞語已經“出圈”了,不僅僅是相關的從業人員對它很了解,即便是完全不懂IT技術的人,也都能夠說出點大數據的東西來。我們在談論大數據的時候,避不開的其實是大數據的特征,有些地方會提到大數據有4V的特征,而有些地方會提到有5V的特征。那么這里所謂的4V、5V都是什么呢?
其實這里所謂的4V、5V,是幾個單詞的縮寫: Volume、Variety、Value、Velocity、Veracity,因為這幾個單詞的首字母都是V,因此被我們稱為4V、5V的特征。在這里,我們就來聊一聊這5個V都表示什么含義:
Volume
中文翻譯是“大量”的意思,顧名思義,就是數據量非常的龐大。而這也是大數據的字面含義。我們知道在表示數據大小的時候,生活中常見的計量單位有KB、MB、GB、TB等,但是在此之上還有其他的單位,例如: PB、EB、ZB、YB、BB、NB、DB等。這些單位之間的換算率都是1024,也正是因此,人們會把每年的10月24日定為程序員節。我們每一個人在互聯網上進行各種各樣的行為,都會留下數據,而這些數據量雖然不算大,但是在龐大的用戶基數下,累計起來的還是非常龐大的。在一個中大型企業中,需要處理的數據規模是很容易達到PB、EB的級別的,而這也正是大數據的第一個特征: 大量。
Variety
中文翻譯是“多樣化”的意思。我們知道學習大數據就是來處理龐大的數據集的,那么組成這個龐大的數據集的數據是可以分為不同的類型的。我們把這些數據大致分為三類:結構化的數據、半結構化的數據和非結構化的數據。
結構化的數據,一般指的是關系型數據庫中的數據,例如MySQL、Oracle中的表中的數據。這些數據中,每一行的數據都保持著相同的數據格式,有規律可循,非常容易處理。
半結構化的數據,指的是有一定的結構性,但是比起關系型數據庫表中的結構化的數據來說,結構不是那么清晰,處理起來也比結構化的數據略微麻煩。常見的半結構化的數據有json、xml、html等。
非結構化的數據,指的就是沒有絲毫結構性可言的數據了。數據沒有固定的格式,通常需要我們單獨設計程序來處理這些數據,從中提取出來有價值的信息。
而我們在工作中要處理的數據,往往都是以半結構化和非結構化的居多。
Value
中文翻譯是“價值”的意思。這里其實有兩點體現:價值密度低、商業價值高。
大數據相關的技術體系,需要處理的數據量是非常龐大的,動輒PB、EB規模的數據,但是真正具有價值的數據卻非常稀少,只有100M,甚至更少。我們就需要從這么龐大的數據集中提取出來這些密度非常低的有價值的數據進行處理。
但是,也就是這些密度非常低的數據,能夠發揮出來巨大的商業價值。這點其實也是來推動大數據發展的重要的特征之一,因為這些大數據相關的技術體系可以給商人帶來巨大的利益,老板才愿意培養人來從事這個行業;越來越多的人涌入到這個行業,才能夠推動這門技術不斷地向前發展。
Velocity
中文翻譯是“速度”的意思。我們要處理的數據集在很多情況下,并不是一潭死水,而是在不斷增長的。對于一個企業來說,每天都會新增龐大的數據,這些數據可能來自于用戶的操作、可能來自于智能家居、可能來自于各種傳感器等,數據的來源非常多,而且數據量的增速也是非??膳碌?。以淘寶、京東這類的電商來說,每日新增的數據量達到幾百個GB是很正常的事情。在這樣快速的數據增長的情況下,也對我們處理數據的速度有了較高的要求了。我們一定要優化我們的業務邏輯,提高處理的速度,才不會造成數據積壓。
Veracity
中文翻譯是“真實性”的意思。大規模的數據量,在處理的時候,對技術體系是有較高的要求的。在還沒有形成現有的技術體系的年代,人們在處理龐大的數據集的時候,往往束手無策,要么實效性非常差,要么干脆無法處理。那個時代甚至流行一種做法:隨機抽樣。隨機的從龐大的數據集中抽取一部分出來進行處理,以這樣的處理結果,作為整個數據集的處理結果。追求真實性的,可能會多隨機幾次。但是這個結果其實是不準確的,并不能夠體現出這些數據完整的價值,甚至還可能得到錯誤的結論。但是現在大數據的技術體系相對成熟,我們不再使用這樣的隨機抽樣的方式了。我們就是要對所有的數據進行高效的處理,得出的結論自然也是正確的。
以上就是大數據的特征,有人在聊特征的時候會提到4V的說法,指的就是Volume、Variety、Value、Velocity。如果說到5V特征的話,那就把Veracity加上就可以咯。
優秀的你與大廠之間只差一個“好程序員”!