其實(shí)大數(shù)據(jù)行業(yè)發(fā)展到現(xiàn)在,最大的痛點(diǎn)并不是數(shù)據(jù)的可視化和分析問(wèn)題。而是龐大業(yè)務(wù)數(shù)據(jù)的預(yù)處理。
NO.1 80%-90%的項(xiàng)目時(shí)間大量花費(fèi)在將不同來(lái)源的業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)傳輸?shù)酵粋€(gè)地方進(jìn)行整合的過(guò)程中。
這里面存在的時(shí)間成本、用工成本、實(shí)施成本問(wèn)題(規(guī)則定義、清洗、字典轉(zhuǎn)換、傳輸、安全、性能……)亟待解決。
而一旦數(shù)據(jù)進(jìn)入企業(yè)數(shù)據(jù)網(wǎng)絡(luò)信息中心倉(cāng)庫(kù)后,不管是分析還是可視化的問(wèn)題都有解決方案,而在如何快速精準(zhǔn)處理這些業(yè)務(wù)數(shù)據(jù)上卻鮮有解決之道。
ETL就是解決這個(gè)問(wèn)題的關(guān)鍵工具。
ETL,Extraction-Transformation-Loading的縮寫(xiě),中文名為數(shù)據(jù)抽取、轉(zhuǎn)換和加載。
ETL負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。
NO.2
如果說(shuō)數(shù)據(jù)倉(cāng)庫(kù)的模型設(shè)計(jì)是一座大廈的設(shè)計(jì)藍(lán)圖,
數(shù)據(jù)是磚瓦的話,
那么ETL就是將磚瓦分類、清潔、運(yùn)輸、存儲(chǔ)的過(guò)程。
在整個(gè)項(xiàng)目中最難部分是用戶需求分析和模型設(shè)計(jì),而ETL規(guī)則設(shè)計(jì)和實(shí)施則是工作量最大的,約占整個(gè)項(xiàng)目的60%~80%,工作時(shí)間占到整個(gè)項(xiàng)目時(shí)間的三分之一。這是國(guó)內(nèi)外從眾多實(shí)踐中得到的普遍共識(shí)。
大數(shù)據(jù)ETL工程師到底有多稀缺?
拿招聘企業(yè)舉例,很多企業(yè)明明知道自己缺這個(gè)人,也知道這個(gè)人要什么樣的,以及他需要掌握哪些技術(shù),但就是招不來(lái)。
社會(huì)上會(huì)這個(gè)技術(shù)的人太少了,我們合作的一家企業(yè)崗位掛了兩個(gè)多月了,只收到了1個(gè)簡(jiǎn)歷,更別說(shuō)在行業(yè)里深耕五六年甚至更久的技術(shù)人才了,那基本上都是公司的“珍寶”。
大數(shù)據(jù)這個(gè)方向還是缺少底蘊(yùn)。對(duì)比其他行業(yè)方向,十年以上的專家比比皆是!大數(shù)據(jù)這個(gè)技術(shù)方向滿打滿算才發(fā)展不到六七年,所以說(shuō)十年以上的大數(shù)據(jù)專家非常之稀缺。
1、在這個(gè)行業(yè)里,真正五年以上的大數(shù)據(jù)背景的人,已經(jīng)可以算的上是半個(gè)專家了,業(yè)內(nèi)絕對(duì)是稀有動(dòng)物;
2、而諸如三四年的,會(huì)點(diǎn)數(shù)據(jù)架構(gòu),又會(huì)點(diǎn)上層數(shù)據(jù)應(yīng)用挖掘的,估計(jì)至少也能算的是半個(gè)中堅(jiān)了,這種人不算太少,但也絕對(duì)不算多;
3、最多的是那種不到兩年大數(shù)據(jù)行業(yè)背景的,特別是那種聽(tīng)聞大數(shù)據(jù)行情好,紛紛轉(zhuǎn)過(guò)來(lái)一兩年左右的,再就是那種一畢業(yè)就立志投身大數(shù)據(jù)行業(yè)的新人朋友,這類型的人應(yīng)該是占據(jù)大數(shù)據(jù)從業(yè)人士中的絕大部分。
巨大的人才缺口問(wèn)題一直懸而不決,這也給了我們轉(zhuǎn)行大數(shù)據(jù)ETL行業(yè)一個(gè)契機(jī)。
這樣的情況意味著你作為一個(gè)新人有相當(dāng)大的機(jī)會(huì)能夠脫穎而出,成為行業(yè)里的精英。