日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

在本文中,我將分享4個在一行代碼中完成的Pandas操作。這些操作可以有效地解決特定的任務,并以一種好的方式給出結果。

四個解決特定的任務的Pandas高效代碼

從列表中創建字典

我有一份商品清單,我想看看它們的分布情況。更具體地說:希望得到唯一值以及它們在列表中出現的次數。

Python/ target=_blank class=infotextkey>Python字典是以這種格式存儲數據的好方法。鍵將是字典,值是出現的次數。

這里可以使用value_counts和to_dict函數,這項任務可以在一行代碼中完成。

這里有一個簡單的例子來說明這種情況:

import pandas as pd
 
 grades = ["A", "A", "B", "B", "A", "C", "A", "B", "C", "A"]
 
 pd.Series(grades).value_counts().to_dict()
 
 # output
 {'A': 5, 'B': 3, 'C': 2}

將列表轉換為Pandas Series,這是Pandas的一維數據結構,然后應用value_counts函數來獲得在Series中出現頻率的唯一值,最后將輸出轉換為字典。這個操作非常高效且易于理解。

從JSON文件創建DataFrame

JSON是一種常用的存儲和傳遞數據的文件格式。

當我們清理、處理或分析數據時,我們通常更喜歡使用表格格式(或類似表格的數據)。由于json_normalize函數,我們可以通過一個操作從json格式的對象創建Pandas DataFrame。

假設數據存儲在一個名為data的JSON文件中。一般情況我們都是這樣讀取:

import json
 
 with open("data.json") as f:
     data = json.load(f)
 
 data
 # output
 {'data': [{'id': 101,
    'category': {'level_1': 'code design', 'level_2': 'method design'},
    'priority': 9},
  {'id': 102,
    'category': {'level_1': 'error handling', 'level_2': 'exception logging'},
    'priority': 8}]}

如果我們將這個變量傳遞給DataFrame構造函數,它將創建如下的DataFrame,這絕對不是一個可用的格式:

df = pd.DataFrame(data)

四個解決特定的任務的Pandas高效代碼

但是如果我們使用json_normalize函數將得到一個整潔的DataFrame格式:

df = pd.json_normalize(data, "data")

四個解決特定的任務的Pandas高效代碼

Explode函數

如果有一個與特定記錄匹配的項列表。需要重新格式化它,為該列表中的每個項目提供單獨的行。

四個解決特定的任務的Pandas高效代碼

這是一個經典的行分割成列的問題。有許多的不同的方法來解決這個任務。其中最簡單的一個(可能是最簡單的)是Explode函數。

我們以這個df為例

四個解決特定的任務的Pandas高效代碼

使用explosion函數并指定列名:

df_new = df.explode(column="data").reset_index(drop=True)

四個解決特定的任務的Pandas高效代碼

reset_index會為DataFrame分配一個新的整數索引。

combine_first函數

combine_first函數用于合并兩個具有相同索引的數據結構。

它最主要的用途是用一個對象的非缺失值填充另一個對象的缺失值。這個函數通常在處理缺失數據時很有用。在這方面,它的作用與SQL中的COALESCE函數相同。

df = pd.DataFrame(
    {
         "A": [None, 0, 12, 5, None], 
         "B": [3, 4, 1, None, 11]
    }
 )

四個解決特定的任務的Pandas高效代碼

我們需要a列中的數據。如果有一行缺少值(即NaN),用B列中同一行的值填充它。

df["A"].combine_first(df["B"])
 
 # output
 0     3.0
 1     0.0
 2    12.0
 3     5.0
 4    11.0
 Name: A, dtype: float64

可以看到的列A的第一行和最后一行取自列B。

如果我們想要使用3列,我們可以鏈接combine_first函數。下面的代碼行首先檢查列a。如果有一個缺失的值,它從列B中獲取它。如果列B中對應的行也是NaN,那么它從列C中獲取值。

df["A"].combine_first(df["B"]).combine_first(df["C"])

我們還可以在DataFrame級別使用combine_first函數。在這種情況下,所有缺失的值都從第二個DataFrame的相應值(即同一行,同列)中填充。

df1 = pd.DataFrame({'A': [1, 2, np.nan, 4], 'B': [5, np.nan, 7, 8]}, index=['a', 'b', 'c', 'd'])
 df2 = pd.DataFrame({'A': [10, np.nan, 30, 40], 'B': [50, 60, np.nan, 80]}, index=['a', 'b', 'c', 'd'])
 result_df = df1.combine_first(df2)

在合并的過程中,df1 中的非缺失值填充了 df2 中對應位置的缺失值。這有助于處理兩個數據集合并時的缺失值情況。

Merged DataFrame:
       A     B
 a   1.0   5.0
 b   2.0  60.0
 c  30.0   7.0
 d   4.0   8.0

總結

從計算簡單的統計數據到高度復雜的數據清理過程,Pandas都可以快速解決任務。上面的代碼可能不會經常使用,但是當你需要處理這種任務時,它們是非常好的解決辦法。

分享到:
標簽:Pandas
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定