Pandas是Python第三方庫,提供高性能易用數(shù)據(jù)類型和分析工具,pandas 是基于NumPy 的一種工具,該工具是為了解決數(shù)據(jù)分析任務(wù)而創(chuàng)建的。Pandas 納入了大量庫和一些標(biāo)準(zhǔn)的數(shù)據(jù)模型,提供了高效地操作大型數(shù)據(jù)集所需的工具。pandas提供了大量能使我們快速便捷地處理數(shù)據(jù)的函數(shù)和方法。
與numpy對比區(qū)別:
image
2.pandas庫怎么用
安裝
pip install pandas
導(dǎo)入
import pandas as pd
3.pandas兩個(gè)數(shù)據(jù)類型
兩個(gè)數(shù)據(jù)類型:Series, DataFrame
Series類型
Series類型由一組數(shù)據(jù)及與之相關(guān)的數(shù)據(jù)索引組成
image
第一列的0,1,2,3是自動索引,第二列是實(shí)際數(shù)據(jù)值,最后的dtype表示數(shù)據(jù)類型
image
Series類型數(shù)據(jù)的常見創(chuàng)建方式
python列表
image
標(biāo)量值
image
python字典
image
ndarray
image
Series類型數(shù)據(jù)的基本操作
獲得索引和數(shù)據(jù)
image
更改索引
image
索引
image
切片
image
DataFrame類型
DataFrame類型由共用相同索引的一組列組成,是一個(gè)表格型的數(shù)據(jù)類型,每列值類型可以不同,既有行索引、也有列索引,常用于表達(dá)二維數(shù)據(jù)。
image
image
DataFrame類型數(shù)據(jù)的常見創(chuàng)建方式
二維ndarray對象
image
一維ndarray、列表、字典、元組或Series構(gòu)成的字典
image
image
image
DataFrame類型數(shù)據(jù)的基本操作
獲得行列索引和數(shù)據(jù)
image
更改行列索引
image
選擇數(shù)據(jù)
索引切片獲取列數(shù)據(jù)和單個(gè)數(shù)據(jù)
image
索引切片獲取行數(shù)據(jù)
image
iloc():按照索引的位置來選取,這里要注意這種方式是包含切片的末尾的數(shù)據(jù)的
image
loc():按照索引index的值選取,如果沒有自定義值,行數(shù)據(jù)也可以通過切片獲取。
image
image
image
4.查看數(shù)據(jù)
imag數(shù)據(jù)分析-pandas庫快速了解e
5.文件數(shù)據(jù)讀取和保存
保存
image
讀取
這里多了一列數(shù)據(jù)是因?yàn)樯厦鎸懭霑r(shí)把索引寫入了,可以再寫入時(shí)去掉index,to_csv(file,index=False)
image
限于篇幅原因,還有更多內(nèi)容(空值處理,分組,合并,排序,刪除等),這個(gè)會在后面的具體場景中應(yīng)用。