国产精品精品久久久久久 ,日本媚薬痉挛在线观看免费 ,大桥未久无码AV在线播放

使用python來讀取超大型文件數據

在實際應用中，幾乎所有的數據分析工作都是從數據讀取開始的，如果數據量太大導致數據文件讀取失敗了，這樣后續的工作就沒有辦法進行了，在機器自身硬件內存限制的情況下，當文件量過大的時候直接使用read等函數來進行操作的時候就會報錯，這里就需要采取一定的策略來盡可能地避免這樣的問題產生，今天的工作中就遇上了這樣的問題，需要處理的數據文件一共是6.86GB，電腦內存是8GB的，讀取的時候就報錯了，用read或者readlines函數都是需要將整個文件都讀進內存中去的，這樣就不行了，查了一些資料，也簡單總結了一下，把處理方法在這里介紹一下，具體如下：

#!usr/bin/env Python
#encoding:utf-8
 
 
'''
__Author__:沂水寒城
功能： 使用python來讀取超大型文件
 在機器自身硬件內存限制的情況下，當文件量過大的時候直接使用read等函數來進行操作的
 時候就會報錯，這里就需要采取一定的策略來避免這樣的問題產生
'''
 
import linecache
 
 
 
def readFunc1(data='test.txt'):
 '''
 通過指定單次讀取的數據大小長度
 '''
 myfile=open(data)
 while True:
 block=myfile.read(1024)
 if not block:
 break
 else:
 print block
 myfile.close()
 
 
 
def readFunc2(data='test.txt'):
 '''
 設定每次只讀取一行
 '''
 myfile=open(data)
 while True:
 line=myfile.readline()
 if not line:
 break
 else:
 print line
 myfile.close()
 
 
def readFunc3(data='test.txt'):
 '''
 利用可迭代對象file，這樣會自動的使用buffered IO以及內存管理
 '''
 with open(data,'r') as myflie:
 for line in myflie:
 if not line:
 break
 else:
 print line
 
 
def readFunc4(data='test.txt'):
 '''
 借助于第三方模塊 linecache
 '''
 #讀取全部數據
 all_text=linecache.getlines(data)
 #讀取第二行數據，要注意linecache的讀取索引是從1開始的，而不是從0開始的
 text=linecache.getline(data, 2)
 print 'line 2: ',text
 
 
if __name__=='__main__':
 readFunc1(data='test.txt')
 readFunc2(data='test.txt')
 readFunc3(data='test.txt')
 readFunc4(data='test.txt')

部分結果如下：


{
	"11-06": {
		"temperate": {
			"day": {
				"today_temperate": "10\u2103",
				"now_temperate": "\u6c14\u6e29"
			},
			"three_hour": {
				"11-06-23:00": "17.4\u2103",
				"11-06-20:00": "18\u2103",
				"11-06-17:00": "18.4\u2103",
				"11-06-02:00": "20.4\u2103",
				"11-06-14:00": "18.7\u2103",
				"11-06-05:00": "17.9\u2103",
				"11-06-11:00": "19.8\u2103",
				"11-06-08:00": "17.5\u2103"
			}
		},
		"wind_speed": {
			"day": {
				"today_winds": "\u5fae\u98ce",
				"now_winds": "\u98ce\u5411\u98ce\u901f"
			},
			"three_hour": {
				"11-06-23:00": "0.9\u7c73/\u79d2",
				"11-06-20:00": "1.1\u7c73/\u79d2",
				"11-06-17:00": "2.3\u7c73/\u79d2",
				"11-06-02:00": "1.8\u7c73/\u79d2",
				"11-06-14:00": "2\u7c73/\u79d2",
				"11-06-05:00": "2.3\u7c73/\u79d2",
				"11-06-11:00": "2.2\u7c73/\u79d2",
				"11-06-08:00": "1\u7c73/\u79d2"
			}
		},
......

四種方法相比而言，前兩種方法的核心就是化大為小，即將原始的大文件數據轉化為小粒度的數據來進行讀取，每次只處理單次讀取的數據；第三種方法采用的是文件迭代器的方式，借助于python自帶的迭代機制，自動地使用了buffered IO以及內存管理方法來解決大文件數據的讀取；最后一種方法是借助于第三方的模塊linecache來完成讀取的，這是一個自帶緩存機制的數據讀取模塊，最常用的方法就是上面提到的兩個函數了，親測非常好用，讀取5GB的文件大概在十幾秒左右的吧，直接使用pip安裝的話滅有成功，我是在網上找了一個安裝包完成安裝的，這里放一下下載鏈接，如果需要的話就拿去測試使用吧，個人感覺還是很不錯的。

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

使用python來讀取超大型文件數據

數獨大挑戰2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運動步數有氧達人2018-06-03

每日養生app2018-06-03

體育訓練成績評定2018-06-03