IT 時代,最重要的特征就是:“數據越來越多”。每天產生的數據源源不斷,成為了
現代社會的“石油”。大數據的存儲、分析都成了非常重要的技術。
1. 大數據學習之前“必看”
大數據是現在這個時代非常流行的概念,并且隨著人工智能的崛起,大數據也越來越有
價值。人工智能算法其實在三十年前就有了,但是沒有用。原因是:第一、計算機不夠快;
第二、數據量不夠大,訓練出來的模型太差。
IT 時代,其實也是大數據時代。我們產生的數據越來越多,這些數據反過來就像“石
油”一樣,為我們提供了進一步的價值。人工智能等算法就像“吞食數據的怪獸”,數據越
多人工智能也越強大。
因此,在學習大數據之前,一定要先搞明白幾個問題:
1. 什么大數據?
2. 什么是云計算?
3. 什么是數據挖掘?
4. 什么是人工智能?
5. 什么條件才能學習大數據?
了解之后你才能有的放矢,以及想一想自己是否適合學習。同時,也至少不會被人騙,
因為了解這些問題之后,一看課程大綱里面有“遙控機器人技術,Android 技術”等。這些
技術肯定和大數據是沒有關系的。
由于篇幅的問題,這個幾個問題的解答已經錄制成一套視頻。視頻列表如下:
建議:在學習大數據之前最好花 2 個小時,認真看一下,所有人都能看懂。就算不想學
習大數據,也可以增加大家的知識面。
2. Hadoop 框架
Hadoop 的框架最核心的設計就是:HDFS 和 MapReduce。HDFS 為海量的數據提供了存儲,則 MapReduce 為海量的數據提供了計算。
HDFS 是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS 能提供高吞吐量的數據訪問,非常適合大規模數據集上的程序計算。HDFS 技術是整個大數據的“入門”。只要從事大數據方面工作的程序員,不管你后面用什么樣的分析技術都必須要學會HDFS。
MapReduce 是用于大規模數據集(大于 1TB)的并行運算。它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統上。因為只有分布式計算才能解決“海量數據”的分析問題。
學好 HDFS,就能知道為什么它可以存儲海量數據,知道“百度網盤”本身是什么?能否自己也能實現一個網盤。讓大家一開始就進入大數據實戰狀態。
Hadoop 是大數據中必學的一個技術,也是大數據職位要求必有的一個技術。Hadoop 也
是后面其他技術的基礎,學好了 Hadoop 才能更好的學好 Hive,Hbase,Spark,Storm 等。
3. 數據倉庫技術
大數據的數據倉庫技術主要包括:Hive,Hbase,Sqoop,Flume 等。其中 Hive 在企業
中使用最為廣泛。對于同學們來說,Hive 最容易入門,因為不用寫代碼;只需要有 sql 基
礎就能很好的學習 Hive。
Hbase 是一個分布式、列式數據庫。它解決的問題是:在海量數據的情況下還能做到秒
級的增、刪、改、查操作。
4. Spark 內存計算框架
Spark 是當前最為流行的基于內存計算的分布式框架,在 Spark 的生態圈中的框架幾乎能夠解決所有的大數據的應用場景,如果基于內存計算,計算速度比 Hadoop 生態圈MapReduce 快 100 倍,如果是基于磁盤的計算,那么速度快 10 倍以上,所以 Spark 是當前大數據開發人員必備的。
Spark 是有 Scala 語言開發的,包括:
Spark-Core ( 離 線 計 算 ) 、 Spark-SQL 、
Spark-Streaming(流式計算)、Spark-MLlib(機器學習)。
Spark 是整個大數據技術中的“重中之重”。因為在面試過程中,筆試題和面試題有 60%
的可能性會涉及到 Spark 知識點。所以,Spark 的學習要求是:了解 Spark 源碼,能夠優化
Spark、能夠用 JAVA,Scala,Python 三種計算機語言開發任何的 Spark 程序。
5. 機器學習和數據挖掘
機器學習(machine Learning, ML)是一門多領域交叉學科,涉及概率論、統計學、逼近
論、凸分析、算法復雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,
以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。它是人工智能
的核心,是使計算機具有智能的根本途徑,其應用遍及人工智能的各個領域。
6. Storm 流式計算框架
目前有兩種比較流行的計算方式:離線計算和流式計算。
流計算方式:它可以很好地對大規模流動數據在不斷變化的運動過程中實時地進行分析,
捕捉到可能有用的信息,并把結果發送到下一計算節點。
Storm 是流式計算中的技術之一,Storm 集群由一個主節點和多個工作節點組成。主節
點運行了一個名為“Nimbus”的守護進程,用于分配代碼、布置任務及故障檢測。每個工作
節 點都運行了一個名為“Supervisor”的守護進程,用于監聽工作,開始并終止工作進程。
Nimbus 和 Supervisor 都能快速失敗,而且是無 狀態的,這樣一來它們就變得十分健壯。
部分大數據學習配套視頻資料圖: