在實際應用中,幾乎所有的數據分析工作都是從數據讀取開始的,如果數據量太大導致數據文件讀取失敗了,這樣后續的工作就沒有辦法進行了,在機器自身硬件內存限制的情況下,當文件量過大的時候直接使用read等函數來進行操作的時候就會報錯,這里就需要采取一定的策略來盡可能地避免這樣的問題產生,今天的工作中就遇上了這樣的問題,需要處理的數據文件一共是6.86GB,電腦內存是8GB的,讀取的時候就報錯了,用read或者readlines函數都是需要將整個文件都讀進內存中去的,這樣就不行了,查了一些資料,也簡單總結了一下,把處理方法在這里介紹一下,具體如下:
#!usr/bin/env Python #encoding:utf-8 ''' __Author__:沂水寒城 功能: 使用python來讀取超大型文件 在機器自身硬件內存限制的情況下,當文件量過大的時候直接使用read等函數來進行操作的 時候就會報錯,這里就需要采取一定的策略來避免這樣的問題產生 ''' import linecache def readFunc1(data='test.txt'): ''' 通過指定單次讀取的數據大小長度 ''' myfile=open(data) while True: block=myfile.read(1024) if not block: break else: print block myfile.close() def readFunc2(data='test.txt'): ''' 設定每次只讀取一行 ''' myfile=open(data) while True: line=myfile.readline() if not line: break else: print line myfile.close() def readFunc3(data='test.txt'): ''' 利用可迭代對象file,這樣會自動的使用buffered IO以及內存管理 ''' with open(data,'r') as myflie: for line in myflie: if not line: break else: print line def readFunc4(data='test.txt'): ''' 借助于第三方模塊 linecache ''' #讀取全部數據 all_text=linecache.getlines(data) #讀取第二行數據,要注意linecache的讀取索引是從1開始的,而不是從0開始的 text=linecache.getline(data, 2) print 'line 2: ',text if __name__=='__main__': readFunc1(data='test.txt') readFunc2(data='test.txt') readFunc3(data='test.txt') readFunc4(data='test.txt')
部分結果如下:
{ "11-06": { "temperate": { "day": { "today_temperate": "10\u2103", "now_temperate": "\u6c14\u6e29" }, "three_hour": { "11-06-23:00": "17.4\u2103", "11-06-20:00": "18\u2103", "11-06-17:00": "18.4\u2103", "11-06-02:00": "20.4\u2103", "11-06-14:00": "18.7\u2103", "11-06-05:00": "17.9\u2103", "11-06-11:00": "19.8\u2103", "11-06-08:00": "17.5\u2103" } }, "wind_speed": { "day": { "today_winds": "\u5fae\u98ce", "now_winds": "\u98ce\u5411\u98ce\u901f" }, "three_hour": { "11-06-23:00": "0.9\u7c73/\u79d2", "11-06-20:00": "1.1\u7c73/\u79d2", "11-06-17:00": "2.3\u7c73/\u79d2", "11-06-02:00": "1.8\u7c73/\u79d2", "11-06-14:00": "2\u7c73/\u79d2", "11-06-05:00": "2.3\u7c73/\u79d2", "11-06-11:00": "2.2\u7c73/\u79d2", "11-06-08:00": "1\u7c73/\u79d2" } }, ......
四種方法相比而言,前兩種方法的核心就是化大為小,即將原始的大文件數據轉化為小粒度的數據來進行讀取,每次只處理單次讀取的數據;第三種方法采用的是文件迭代器的方式,借助于python自帶的迭代機制,自動地使用了buffered IO以及內存管理方法來解決大文件數據的讀取;最后一種方法是借助于第三方的模塊linecache來完成讀取的,這是一個自帶緩存機制的數據讀取模塊,最常用的方法就是上面提到的兩個函數了,親測非常好用,讀取5GB的文件大概在十幾秒左右的吧,直接使用pip安裝的話滅有成功,我是在網上找了一個安裝包完成安裝的,這里放一下下載鏈接,如果需要的話就拿去測試使用吧,個人感覺還是很不錯的。