對于數據庫研究人員和從業人員而言,從數據庫(DB)到大數據(BD)的轉變可以用“池塘捕魚”到“大海捕魚”做類比。“池塘捕魚”代表著傳統數據庫時代的數據管理方式,而 “大海捕魚”則是大數據時代的數據管理方式。這些差異主要體現在如下幾個方面:
1、數據規模
數據庫和大數據最明顯的區別就是規模。數據庫規模相對較小,即便是先前認為比較大的數據庫,比如 VLDB(Very Large Database),和大數據XLDB(Extremely Large Database)比起來還是差很遠。
數據庫的處理對象一般以 MB 為基本單位,而大數據則是GB、TB、PB 為基本處理單位。
2、數據類型
傳統數據庫數據種類單一,往往僅僅有一種或少數幾種,這些數據又以結構化數據為主。而大數據的種類數以億計,而這些數據既包括結構化、半結構化以及非結構化的數據,重要的是半結構化和非結構化數據所占份額越來越大。
3.模式(Schema)和數據的關系
傳統的數據庫都是先有模式,然后才會產生數據。而大數據很多情況下難以預先確定模式,模式只有在數據出現之后才能確定,且模式隨著數據量的增長處于不斷的演變之中。
4.處理對象
傳統數據庫數據是其處理的對象。而大數據的處理對象除了是數據以外,還能通過這些數據去預測其他數據出現的可能性,將收集到的數據作為一種資源來輔助解決其他諸多領域的問題。