日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

使用python來讀取超大型文件數據

 

在實際應用中,幾乎所有的數據分析工作都是從數據讀取開始的,如果數據量太大導致數據文件讀取失敗了,這樣后續的工作就沒有辦法進行了,在機器自身硬件內存限制的情況下,當文件量過大的時候直接使用read等函數來進行操作的時候就會報錯,這里就需要采取一定的策略來盡可能地避免這樣的問題產生,今天的工作中就遇上了這樣的問題,需要處理的數據文件一共是6.86GB,電腦內存是8GB的,讀取的時候就報錯了,用read或者readlines函數都是需要將整個文件都讀進內存中去的,這樣就不行了,查了一些資料,也簡單總結了一下,把處理方法在這里介紹一下,具體如下:

#!usr/bin/env Python
#encoding:utf-8
 
 
'''
__Author__:沂水寒城
功能: 使用python來讀取超大型文件
 在機器自身硬件內存限制的情況下,當文件量過大的時候直接使用read等函數來進行操作的
 時候就會報錯,這里就需要采取一定的策略來避免這樣的問題產生
'''
 
import linecache
 
 
 
def readFunc1(data='test.txt'):
 '''
 通過指定單次讀取的數據大小長度
 '''
 myfile=open(data)
 while True:
 block=myfile.read(1024)
 if not block:
 break
 else:
 print block
 myfile.close()
 
 
 
def readFunc2(data='test.txt'):
 '''
 設定每次只讀取一行
 '''
 myfile=open(data)
 while True:
 line=myfile.readline()
 if not line:
 break
 else:
 print line
 myfile.close()
 
 
def readFunc3(data='test.txt'):
 '''
 利用可迭代對象file,這樣會自動的使用buffered IO以及內存管理
 '''
 with open(data,'r') as myflie:
 for line in myflie:
 if not line:
 break
 else:
 print line
 
 
def readFunc4(data='test.txt'):
 '''
 借助于第三方模塊 linecache
 '''
 #讀取全部數據
 all_text=linecache.getlines(data)
 #讀取第二行數據,要注意linecache的讀取索引是從1開始的,而不是從0開始的
 text=linecache.getline(data, 2)
 print 'line 2: ',text
 
 
if __name__=='__main__':
 readFunc1(data='test.txt')
 readFunc2(data='test.txt')
 readFunc3(data='test.txt')
 readFunc4(data='test.txt')

部分結果如下:


{
	"11-06": {
		"temperate": {
			"day": {
				"today_temperate": "10\u2103",
				"now_temperate": "\u6c14\u6e29"
			},
			"three_hour": {
				"11-06-23:00": "17.4\u2103",
				"11-06-20:00": "18\u2103",
				"11-06-17:00": "18.4\u2103",
				"11-06-02:00": "20.4\u2103",
				"11-06-14:00": "18.7\u2103",
				"11-06-05:00": "17.9\u2103",
				"11-06-11:00": "19.8\u2103",
				"11-06-08:00": "17.5\u2103"
			}
		},
		"wind_speed": {
			"day": {
				"today_winds": "\u5fae\u98ce",
				"now_winds": "\u98ce\u5411\u98ce\u901f"
			},
			"three_hour": {
				"11-06-23:00": "0.9\u7c73/\u79d2",
				"11-06-20:00": "1.1\u7c73/\u79d2",
				"11-06-17:00": "2.3\u7c73/\u79d2",
				"11-06-02:00": "1.8\u7c73/\u79d2",
				"11-06-14:00": "2\u7c73/\u79d2",
				"11-06-05:00": "2.3\u7c73/\u79d2",
				"11-06-11:00": "2.2\u7c73/\u79d2",
				"11-06-08:00": "1\u7c73/\u79d2"
			}
		},
......

四種方法相比而言,前兩種方法的核心就是化大為小,即將原始的大文件數據轉化為小粒度的數據來進行讀取,每次只處理單次讀取的數據;第三種方法采用的是文件迭代器的方式,借助于python自帶的迭代機制,自動地使用了buffered IO以及內存管理方法來解決大文件數據的讀取;最后一種方法是借助于第三方的模塊linecache來完成讀取的,這是一個自帶緩存機制的數據讀取模塊,最常用的方法就是上面提到的兩個函數了,親測非常好用,讀取5GB的文件大概在十幾秒左右的吧,直接使用pip安裝的話滅有成功,我是在網上找了一個安裝包完成安裝的,這里放一下下載鏈接,如果需要的話就拿去測試使用吧,個人感覺還是很不錯的。

分享到:
標簽:python
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定