眾所周知,大數(shù)據(jù)就是海量數(shù)據(jù),如視頻網(wǎng)站每天用戶上傳的視頻數(shù)量數(shù)以萬計,這個“萬計”是以GB為單位嗎?不,是PB為單位,即1PB等于差不多100萬GB。這就是大數(shù)據(jù)了。這些數(shù)據(jù)如果沒有分析的話,是沒用的,如我想知道視頻網(wǎng)站上最受歡迎的裙子,我如果不將視頻數(shù)據(jù)轉(zhuǎn)換為一種能比較的單一格式,如Excel表格,這堆大數(shù)據(jù)就對我沒用的,相反,如果我做了數(shù)據(jù)分析,找出了最受歡迎的裙子,這堆大數(shù)據(jù)就有用了。
當(dāng)前做數(shù)據(jù)分析工作的朋友,大部分人能使用Excel吧,畢竟不會用的,估計都退休了。如果某天,你需要面對的數(shù)據(jù)量是以PB為單位的Excel文件,恐怕做到退休都無法完成吧。
估計別人以為我是說笑,其實,這不好笑,我只說一件事,傳感器越來越智能了。不談傳感器的概念,我舉幾個例子你就明白了,人臉識別的攝像頭,藍(lán)牙體溫計,聲控防盜門等等。生物為了從外界獲取信息,必須借助于感覺器官,而我們?yōu)榱俗寵C器從外界獲取信息,發(fā)明了傳感器,這樣會不會好明白一點。
當(dāng)越來越多的企業(yè)借助傳感器來進行記錄工作,如倉庫的收發(fā)存,物流的出車記錄,發(fā)票的開具工作,貨款的收款記錄均通過傳感器來處理,這樣,這些傳感器產(chǎn)生的數(shù)據(jù),他們每天所產(chǎn)生的數(shù)據(jù)就不再以GB為單位,而是以PB,EB為單位了。
再長遠(yuǎn)一點,如果未來是以無線信息技術(shù)為載體的話,即,無紙化+手機終端+網(wǎng)絡(luò)云+物聯(lián)網(wǎng),數(shù)據(jù)的輸入,存放,輸出都不需經(jīng)過人手處理的,能自動記錄事件的時間,地點,人物,起因,經(jīng)過和結(jié)果。你面對的,除了大堆的數(shù)據(jù),還將是很多顆粒度非常細(xì)的數(shù)據(jù)沙,你必須利用更好的數(shù)據(jù)處理工具。
有人認(rèn)為,審計中最重要的是職業(yè)判斷,風(fēng)控理論,而審核數(shù)據(jù),數(shù)據(jù)分析這些工作,只是審計手段中的一部分,不需要太重視。我覺得,隨著技術(shù)革新促進產(chǎn)業(yè)結(jié)構(gòu)的不斷調(diào)整,固守之前的風(fēng)控理論,無疑是“刻舟求劍”。雖然現(xiàn)在很多行業(yè)的信息化程度不高,但不代表信息技術(shù)真的不重要。
我們目前正面臨著一個重大的歷史節(jié)點。應(yīng)該說,改革開放的三十余年后,中國在工業(yè)化、信息化、網(wǎng)絡(luò)化方面交出了一份不錯的成績單。如今世界正式邁入大數(shù)據(jù)時代,世界也向我們出了一份試卷。
小數(shù)據(jù)與大數(shù)據(jù)
如果以數(shù)據(jù)量進行劃分,工業(yè)時代可以被劃分為大數(shù)據(jù)時代和小數(shù)據(jù)時代。目前有多很的討論,如大數(shù)據(jù)時代與小數(shù)據(jù)時代的劃分標(biāo)準(zhǔn)。而我有一些不同的想法,這個就是獲取數(shù)據(jù)的成本。
在20年前,獲取大量的數(shù)據(jù)是一件高成本的事,我記得,想要獲取客戶的消費喜好,需要專業(yè)調(diào)查公司做大量的統(tǒng)計工作,有的公司采用抽樣的方式來進行統(tǒng)計,有的公司采用問卷調(diào)查進行統(tǒng)計,無論結(jié)果如何,而且這些數(shù)據(jù)錄入和輸出都需要人手操作,而且,對獲取數(shù)據(jù)的源頭是有限制的,即我只調(diào)查1000人,或我只抽樣1000人,這個是小數(shù)據(jù)時代下無可奈何的妥協(xié)。
而現(xiàn)在,隨著智能手機,5G網(wǎng)絡(luò),云計算,物聯(lián)網(wǎng)的出現(xiàn),獲取數(shù)據(jù)的成本已經(jīng)大大降低了,以手機為例,智慧手機除了能上網(wǎng)之外,還是一個很好的傳感器。在這一次的新冠疫情當(dāng)中,出現(xiàn)了手機加載的“健康碼”,就是大數(shù)據(jù)應(yīng)用的一個例子。
“健康碼”其實不是證明你是否健康,而是證明你進過的超市、坐過的公交、乘過的飛機火車等,是否有高危人群。其信息來源包括公民登記、企業(yè)登記、基層登記。如果你不幸的與感染者同時進出超市,那么你的“健康碼”就從綠變紅了。還有,如果你去了另一個城市,手機能自動記錄你去過的時間和地點,“健康碼”就會自動更新。
這個時候,智能手機就是一個數(shù)據(jù)收集點,而全國幾乎人手一臺的情況下,數(shù)據(jù)的產(chǎn)生、記錄和傳遞就比較省成本了。當(dāng)18個省的出行數(shù)據(jù)通過手機網(wǎng)絡(luò)匯總到數(shù)據(jù)中心后臺,同時讓各個省的數(shù)據(jù)得到數(shù)據(jù)互認(rèn),從而實現(xiàn)對人群流動的精準(zhǔn)管理。
我個人認(rèn)為,大數(shù)據(jù)與小數(shù)據(jù)之間并沒有絕對的界限,但以獲取成本來劃分,能相對準(zhǔn)確。畢竟,一個技術(shù)能不能得到社會的承認(rèn),很大一部分是他的成本能不能讓人接受。
除手機之外,人臉識別攝像頭也是一個很好的傳感器,它承擔(dān)著圖像采集的任務(wù),而圖像采集之后,就與服務(wù)器中的數(shù)據(jù)庫進行比對,如身份證數(shù)據(jù)比對。這樣一來,就可以判定兩個人是否為同一人。這個數(shù)據(jù)比對的過程其實也是大數(shù)據(jù)應(yīng)用的過程,因為用一個人的特征去搜索14億人的數(shù)據(jù),無論如果,都是小數(shù)據(jù)時代所不能達(dá)到的。
雖然大數(shù)據(jù)被炒得火熱,但很多時候,對于個人而言,記錄身邊的點點滴滴,小數(shù)據(jù)就夠了。比如,今年的我比去年的我增加了多少斤肉,我要跑多久才可以減少一斤肉,只要小數(shù)據(jù)就可以了。
VBA與小數(shù)據(jù)
在windows2.0的時代,EXCEL已經(jīng)出來了,當(dāng)時Windows系統(tǒng)只賣99美元,還捆綁了EXCEL。幾年之后,EXCEL從Windows分割出來,卻被捆綁到Microsoft office中,同一時期,VBA(Visual Basic for Applications)剛剛從BASIC語言基礎(chǔ)上開發(fā)出來,還屬于非常先進的計算機語言,微軟也將其內(nèi)嵌在Microsoft Office,這樣一來,EXCEL和VBA就走在一起了。老實說,這在當(dāng)時是非常先進的,因為一個是可視化表格和一個可視化是計算機語言,兩者集成在一起,使批量處理變得簡單和高效,是一個劃時代的標(biāo)志。可以說,Microsoft Office取得巨大成功的一個重要原因就是VBA。
VBA中的B,就是Basic語言,Basic是非常親民的語言,其誕生于70年代,是專門為非計算機人士而設(shè)的,只要英語語法過關(guān),基本能猜到語句的含義。本人學(xué)的第一個計算機語言就是Basic,在電腦興趣班中上三四節(jié)課,就能寫一個簡單點的小程序。而VBA仍然繼承了Basic語言的關(guān)鍵字和語法,所以算是易學(xué)易用的一種語言。功能上,VBA與微軟的產(chǎn)品融合得不錯,所以在Windows系統(tǒng)中運行一點都不吃力。
以我的古董電腦為例,在WinXP系統(tǒng)下,EXCEL的工作表最大行數(shù)是100萬行左右,所以如果數(shù)據(jù)量多的話,就要分成很多個工作表。如果運行一個超過50MB的Excel文件,系統(tǒng)會變得有點卡,如果做一個篩選后合并計算,除了執(zhí)行時間長之外,還一不小心就宕機。但如果事先用VBA進行篩選后合并計算,執(zhí)行時間短,而且沒感覺到系統(tǒng)變卡。
另外,VBA可以進行批處理,例如,要將十幾個分公司的花名冊匯總到一張表中,簡單點的就是打開所有分公司的花名冊文件,然后用復(fù)制黏貼的方法將名單匯總到一張表中。但如果分公司不是十幾個,而是幾百個,這就麻煩了。不過,如果有VBA,可以使用FileArr函數(shù)和For…Next…語句,就可以幾百個公司的花名冊匯總到一張表中。
當(dāng)然,這是有限制的,當(dāng)一個EXCEL文件達(dá)到200MB的時候,連打開文件都變得很慢時,想查找數(shù)據(jù),就要將EXCEL文件導(dǎo)入ACCESS中,進行查找。ACCESS可以進行分類匯總,條件查詢等,另外,ACCESS內(nèi)也有VBA的,所以批量處理也不是問題。
不過問題來了,ACCESS也是有限制的,最大的上限是2GB,所以,如果文件大的話,最后還需將數(shù)據(jù)進行拆分。于是數(shù)據(jù)庫軟件出來了,知名的如Oracle、MySQL、SQL Server等,當(dāng)然,這個是服務(wù)器級的,畢竟在1990年,是沒有8G內(nèi)存的個人電腦的,普遍是128MB的內(nèi)存,能用數(shù)據(jù)庫的都是企業(yè)級服務(wù)器。而在數(shù)據(jù)庫軟件之中,最貴的是Oracle,為什么?除了穩(wěn)定性強外,他的功能齊全,能對數(shù)據(jù)能進行可視化分析,對大企業(yè)的決策層是非常有幫助的。
當(dāng)時,電商還是一件新鮮的業(yè)務(wù),并不是所有人都看好的,除了極少數(shù)人,沒人會想到電商日后的輝煌,更沒有人想到有公司一天的交易量會是2000億,一分鐘的交易量會是65億。可以說,電商的輝煌催生了云計算,也為大數(shù)據(jù)提供的物理基礎(chǔ)。
Python與大數(shù)據(jù)
Python與VBA不一樣,它是一種解釋型語言,編程涉及更少的代碼行。它能夠以最少的代碼行執(zhí)行程序。另外一個就是開源,Python作為一種開源語言,能支持多種平臺。而且,它可以在Windows和linux等各種環(huán)境中運行。
Python的受歡迎程度如下:
Python具有支持?jǐn)?shù)據(jù)處理的內(nèi)置功能。您可以使用此功能來支持對非結(jié)構(gòu)化和非常規(guī)數(shù)據(jù)的數(shù)據(jù)處理。這就是大數(shù)據(jù)公司偏愛選擇Python的原因。
例如在數(shù)據(jù)分析中,Python有pandas(熊貓)庫。它能夠從多個來源讀取數(shù)據(jù),并具有一些內(nèi)置的可視化效果,可用于將結(jié)果繪制成圖表,可將完成的分析結(jié)果轉(zhuǎn)換為Excel電子表格。同時,他提供了:數(shù)值計算、數(shù)據(jù)分析、統(tǒng)計分析、數(shù)據(jù)可視化的功能。特別在很多的金融數(shù)據(jù)分析,經(jīng)常見到他的身影。
Python的強大是建立在一系列強大的開源庫上面的,無論是神經(jīng)網(wǎng)絡(luò)、智能算法、數(shù)據(jù)分析、圖像處理、科學(xué)計算,都有各式各樣的庫在等著你用。而這些是VBA語言是沒有的。
另外,與其他語言相比較,Python能與Hadoop完全兼容的。Hadoop是一個大數(shù)據(jù)框架系統(tǒng),非常出名,有人說,Hadoop是大數(shù)據(jù)的代名詞,這個不過分,因為Hadoop它是開源的,能用于多臺計算機的,解決大量計算和處理大量數(shù)據(jù)使用的軟件,特別是它能存儲PB級別的文件。所以你會用Hadoop,你就成為大數(shù)據(jù)市場上最搶手的員工。
由于筆者不是做Hadoop開發(fā)的,所以就不多介紹了。
我在這里強調(diào)Python與大數(shù)據(jù),是因為Python可以成為審計的一個工具,在審計之前,很多會計師事務(wù)所都要做風(fēng)險評估程序,什么是風(fēng)險評估程序呢?在回答這個之前,先說一下什么叫做“拇指規(guī)則”,這樣好理解一點。
“拇指規(guī)則”是指的是在農(nóng)業(yè)播種時,為了達(dá)到合適的種子深度,拇指經(jīng)常被用來快速地測量種子掩埋的深淺,而在經(jīng)濟領(lǐng)域,指的是指經(jīng)濟決策者對信息的處理方式不是按照理性預(yù)期的方式,把所有獲得的信息都引入到?jīng)Q策模型中。他們往往遵循的是:只考慮重要信息,而忽略掉其他信息。否則信息成本無限高。
是不是很熟悉?
風(fēng)險評估就是審計程序當(dāng)中的那只拇指,從而判斷風(fēng)險大小的,其中更多的是主觀判斷。
為什么現(xiàn)在還需要主觀判斷?這是因為時間,無錯,時間不夠用。
注冊會計師職業(yè)是在第二次工業(yè)革命后期正式成熟的,在產(chǎn)業(yè)集團化的背景下,風(fēng)險評估為導(dǎo)向的審計模式與運用方式,可以更省時間,舉個例,為了證明你批烤鴨是安全的,以食品安全法為原則設(shè)計了一系列的問卷調(diào)查測試,然后判斷抽查的范圍。如我認(rèn)為這批烤鴨的安全風(fēng)險是低的,我這次抽十只烤鴨進行檢查,這樣節(jié)省了時間。
但是,如果是風(fēng)險不單獨存在于食品安全,而是在禽流感的話,這樣的風(fēng)險就被低估了。
還好,隨著信息化的發(fā)展,其實就是以信息為基礎(chǔ)的第三次工業(yè)革命,有人提出了用大數(shù)據(jù)來解決樣本不足引起的風(fēng)險,即我每一只烤鴨從他從鴨蛋到烤制的過程都有數(shù)字記錄的,是的,每一只鴨子,而不是十只,這樣的話,風(fēng)險就轉(zhuǎn)移了。這個方向有很多人在探索,筆者也在探索之中,而Python就是其中的一個探索工具。
Python用法舉例:
先說Python,因為相比較VBA,Python的語法更簡單,而且容易理解,之后再去學(xué)VBA,就能舉一反三。
如用Python打印“我是中國人”
如果用VBA打印“我是中國人”