日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

數據的爬取

代碼:

import pandas as pd

data=pd.read_csv("example_data.csv",header=1)

print(data)

data1=pd.read_csv("北京地區信息.csv",header=1,encoding='gbk')

data2=pd.read_csv("天津地區信息.csv",encoding='gbk')

print(data1)

print(data2)

代碼運行結果:

Python數據分析——處理中國地區信息

 

首先使用pandas的read_csv()方法進行數據的讀取,然后就能夠看到相應的表格信息。

檢查重復數據

# 2.2檢查重復數據

dupnum=data.duplicated()

print(dupnum)

# 對重復值進行處理

caldup=data.drop_duplicates()

print(caldup)

代碼運行結果:

Python數據分析——處理中國地區信息

 

主要是是使用這個duplicated()方法進行數據的查重,返回一個布爾序列,僅對唯一元素而言為True。如果有重復的數據就會在該數值的部分返貨Flase。

然后我們就可以使用drop_duplicates()進行重復值刪除。

檢查缺失值

代碼:

from pandas import Series

from numpy import NAN

# import pandas as pd 

series_obj=Series([1,None])

pd.notnull(series_obj)

# 上面做的是測試

pd.notnull(data)

pd.notnull(data1)

pd.notnull(data2)

代碼運行結果:

Python數據分析——處理中國地區信息

 

使用pd.notnull(data1)進行非空數值的返回, 返回值是布爾型的矩陣,再取df[布爾型矩陣]返回的是id為非空的行。

檢查異常值

import numpy as np

# 2.4 檢查異常值

def three_sig(ser1):

  mean_value=ser1.mean()

#   標準差

  std_value=ser1.std()

#   位于3σ范圍外的都是異常值

# 數值大于u+3σ小雨u-3σ

  rule=(mean_value-3*std_value>ser1)|(ser1.mean()+3*ser1.std()<ser1)

  index=np.arange(ser1.shape[0])[rule]

  outrange=ser1.iloc[index]

  return outrange

three_sig(data2["女性"])

代碼運行結果:

Python數據分析——處理中國地區信息

 


Python數據分析——處理中國地區信息

 

3σ原則又稱為拉依達準則,該準則具體來說,就是先假設一組檢測數據只含有隨機誤差,對原始數據進行計算處理得到標準差,然后按一定的概率確定一個區間,認為誤差超過這個區間的就屬于異常值。

通俗理解就是正態分布。

分享到:
標簽:分析 數據
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定