如何使用pandas正確讀取txt文件-魔扣目錄

如何使用pandas正確讀取txt文件，需要具體代碼示例

Pandas是一個(gè)廣泛使用的Python數(shù)據(jù)分析庫(kù)，它可以用于處理各種各樣的數(shù)據(jù)類型，包括CSV文件、Excel文件、SQL數(shù)據(jù)庫(kù)等。同時(shí)，它也可以用于讀取文本文件，例如txt文件。但是，在讀取txt文件時(shí)，我們有時(shí)會(huì)遇到一些問(wèn)題，例如編碼問(wèn)題、分隔符問(wèn)題等。本文將介紹如何使用pandas正確讀取txt文件，并提供具體代碼示例。

讀取普通txt文件

如果要讀取普通的txt文件，我們只需要使用pandas中的read_csv函數(shù)，并指定文件路徑和分隔符即可。下面是一個(gè)例子：

import pandas as pd

# 讀取txt文件
df = pd.read_csv('data.txt', sep='    ')

# 顯示前5行數(shù)據(jù)
print(df.head())

登錄后復(fù)制

在這個(gè)例子中，我們使用了read_csv函數(shù)來(lái)讀取data.txt文件，并指定分隔符為制表符，也就是’ ‘。這個(gè)文件中每一行數(shù)據(jù)都用制表符來(lái)分隔各個(gè)列。如果我們沒(méi)有指定分隔符，pandas默認(rèn)使用逗號(hào)作為分隔符。

讀取含有中文的txt文件

在讀取含有中文的txt文件時(shí)，我們需要注意編碼問(wèn)題。如果文件的編碼是utf-8，我們只需要在read_csv函數(shù)中指定編碼方式即可。下面是一個(gè)例子：

import pandas as pd

# 讀取txt文件
df = pd.read_csv('data.txt', sep='    ', encoding='utf-8')

# 顯示前5行數(shù)據(jù)
print(df.head())

登錄后復(fù)制

在這個(gè)例子中，我們?cè)趓ead_csv函數(shù)中指定了編碼方式為utf-8。

但是，如果文件的編碼不是utf-8，我們就需要在讀取之前先將文件編碼轉(zhuǎn)換成utf-8。例如，如果文件的編碼是gbk，我們可以使用如下代碼來(lái)讀取文件：

import pandas as pd

# 先將文件編碼轉(zhuǎn)換成utf-8
with open('data.txt', 'r', encoding='gbk') as f:
    text = f.read()
    text = text.encode('utf-8')
    with open('data_utf8.txt', 'wb') as f2:
        f2.write(text)

# 讀取轉(zhuǎn)換后的txt文件
df = pd.read_csv('data_utf8.txt', sep='    ', encoding='utf-8')

# 顯示前5行數(shù)據(jù)
print(df.head())

登錄后復(fù)制

在這個(gè)例子中，我們先使用open函數(shù)打開原始文件，并將它轉(zhuǎn)換成utf-8編碼的字符串。然后，我們?cè)偈褂胦pen函數(shù)打開另一個(gè)文件，并將轉(zhuǎn)換后的字符串寫入到它中。最后，我們讀取轉(zhuǎn)換后的txt文件，和前面的例子一樣，指定分隔符為制表符并指定編碼方式為utf-8。

讀取含有缺失值的txt文件

如果txt文件中含有缺失值，我們可以使用read_csv函數(shù)中的na_values參數(shù)來(lái)指定缺失值的表示方式。例如，如果缺失值用字符’#N/A’表示，我們可以用如下代碼來(lái)讀取文件：

import pandas as pd

# 讀取txt文件，指定缺失值的表示方式為'#N/A'
df = pd.read_csv('data.txt', sep='    ', na_values='#N/A')

# 顯示前5行數(shù)據(jù)
print(df.head())

登錄后復(fù)制

在這個(gè)例子中，我們?cè)趓ead_csv函數(shù)中使用na_values參數(shù)來(lái)指定’#N/A’為缺失值的表示方式。這樣，pandas就會(huì)自動(dòng)將這些值識(shí)別為NaN（缺失值），方便我們進(jìn)行后續(xù)的數(shù)據(jù)處理。

讀取含有日期時(shí)間的txt文件

如果txt文件中含有日期時(shí)間格式的數(shù)據(jù)，我們可以使用read_csv函數(shù)中的parse_dates參數(shù)來(lái)將它們轉(zhuǎn)換成pandas中的日期時(shí)間類型。例如，如果文件中含有一個(gè)名為’date’的列，其中的數(shù)據(jù)格式為’yyyy-mm-dd’，我們可以用如下代碼來(lái)讀取文件：

import pandas as pd

# 讀取txt文件，并將'date'列的數(shù)據(jù)轉(zhuǎn)換成日期時(shí)間類型
df = pd.read_csv('data.txt', sep='    ', parse_dates=['date'])

# 顯示前5行數(shù)據(jù)
print(df.head())

登錄后復(fù)制

在這個(gè)例子中，我們?cè)趓ead_csv函數(shù)中使用parse_dates參數(shù)來(lái)指定’date’列的數(shù)據(jù)要被轉(zhuǎn)換成日期時(shí)間類型。這樣，pandas就會(huì)自動(dòng)將它們轉(zhuǎn)換成Datetime類型，方便我們進(jìn)行后續(xù)的數(shù)據(jù)處理。

綜上所述，我們可以使用pandas中的read_csv函數(shù)來(lái)讀取txt文件，并針對(duì)不同的問(wèn)題采取相應(yīng)的解決方法。同時(shí)，我們也需要注意一些細(xì)節(jié)問(wèn)題，例如編碼方式、缺失值表示方式、日期時(shí)間格式等。

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

如何使用pandas正確讀取txt文件

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

每日養(yǎng)生app2018-06-03

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03