當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Pandas的crosstab函数

發(fā)布時間：2023/12/20 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了 Pandas的crosstab函数小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者|Bex T. 編譯|VK 來源|Towards Datas Science

介紹

我很喜歡DataCamp上的“Seaborn中間數(shù)據(jù)可視化”(Intermediate Data Visualization with Seaborn)這個課程。它教給新手非常棒的圖表和方法。但說到熱圖，課程的老師不知怎么地引入了一個全新的pandas函數(shù)crosstab。然后，很快說：“crosstab是一個計算交叉表的有用函數(shù)…”

我就在那里不理解了。顯然，我的第一反應是查看函數(shù)的文檔。我剛開始覺得我可以處理Matplotlib的任何文檔，但是…我錯了。.

在我練習之后，我知道這是別人也會掙扎的事情。所以，我在這里寫了一整篇文章。

在本文的最后一部分中，我討論了為什么有些課程不教你像crosstab這樣的高級函數(shù)。因為如果不在具體的環(huán)境下很難使用這樣的函數(shù)，同時又保持示例的初學者級別。

此外，大多數(shù)課程使用小型或玩具數(shù)據(jù)集。在更復雜的數(shù)據(jù)科學環(huán)境中，這些復雜函數(shù)的好處更為明顯，并且經常被更有經驗的pandas用戶使用。

在這篇文章中，我將教你如何使用crosstab以及如何在其他類似函數(shù)中選擇它。

設置

# 導入必要的庫 import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np# 忽略警告 import warnings warnings.filterwarnings('ignore')# 啟用多單元輸出 from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = 'all'

對于示例數(shù)據(jù)，我將使用Seaborn內置的diamonds數(shù)據(jù)集。它足夠大，并且有一些可以用crosstab()的變量：

diamonds = sns.load_dataset('diamonds') diamonds.head()

crosstab()基礎知識

與許多計算分組匯總統(tǒng)計信息的函數(shù)一樣，crosstab()可以處理分類數(shù)據(jù)。它可用于將兩個或多個變量分組，并為每組的給定值執(zhí)行計算。當然，使用groupby()或pivot_table()可以執(zhí)行此類操作，但正如我們稍后將要看到的，crosstab()為你的日常工作流程帶來了許多好處。

函數(shù)接受兩個或多個列表、pandas series 或dataframe，默認情況下返回每個組合的頻率。我總是喜歡從一個例子開始，這樣你可以更好地理解定義，然后我將繼續(xù)解釋語法。

crosstab()總是返回一個數(shù)據(jù)幀，下面是一個例子。dataframe是diamonds中兩個變量的交叉表：cut和color。交叉表表示取一個變量，將其組顯示為index，取另一個變量，將其組顯示為columns。

pd.crosstab(index=diamonds['cut'], columns=diamonds['color'])

語法相當簡單。index用于對變量進行分組，并將其顯示為index(行)，對于列也是如此。如果沒有給定聚合函數(shù)，則每個單元格將計算每個組合中的觀察數(shù)。例如，左上角的單元格告訴我們，有2834顆顏色代碼為D而且是理想切割的鉆石，。

接下來，我們要查看每個組合的平均價格。crosstab()提供values參數(shù)來引入第三個要聚合的數(shù)值變量：

pd.crosstab(index=diamonds['cut'],columns=diamonds['color'],values=diamonds['price'],aggfunc=np.mean).round(0)

現(xiàn)在，每個單元格包含了cut和color組合的平均價格。為了說明我們要計算平均價格，我們將price列傳遞給values。請注意，始終必須同時使用values和aggfunc。否則，你將得到一個錯誤。我還使用round()將答案四舍五入。

盡管它有點高級，但是當你將crosstab()表傳遞到seaborn的熱圖中時，你將充分利用crosstab()表的優(yōu)點。讓我們在熱圖中看到上表：

cross = pd.crosstab(index=diamonds['cut'],columns=diamonds['color'],values=diamonds['price'],aggfunc=np.mean).round(0) sns.heatmap(cross, cmap='rocket_r', annot=True, fmt='g');

seaborn可以自動將crosstab()表轉換為熱圖。我將注釋設置為True，并用顏色條顯示熱圖。seaborn還為列和索引名添加了樣式(fmt='g' 將數(shù)字顯示為整數(shù)而不是科學計數(shù))。

熱圖更容易解釋。你不想讓你的最終用戶看到一張滿是數(shù)字的表格。因此，我將在需要時將每個crosstab()結果放入熱圖中。為了避免重復，我創(chuàng)建了一個有用的函數(shù)：

def plot_heatmap(cross_table, fmt='g'):fig, ax = plt.subplots(figsize=(8, 5))sns.heatmap(cross_table,annot=True,fmt=fmt,cmap='rocket_r',linewidths=.5,ax=ax)plt.show();

Pandas crosstab()與pivot_table()和groupby()的比較

在我們繼續(xù)討論更有趣的內容之前，我想我需要澄清計算分組摘要統(tǒng)計的三個函數(shù)之間的區(qū)別。

我在本文的第一部分介紹了pivot_table()和groupby()的區(qū)別。對于crosstab()，這三者之間的區(qū)別在于語法和結果的形狀。讓我們使用這三種方法計算：

# 使用 groupby() >>> diamonds.groupby(['cut', 'color'])['price'].mean().round(0)cut color Ideal D 2629.0E 2598.0F 3375.0G 3721.0H 3889.0I 4452.0J 4918.0 Premium D 3631.0E 3539.0F 4325.0G 4501.0H 5217.0I 5946.0J 6295.0 Very Good D 3470.0E 3215.0F 3779.0G 3873.0H 4535.0I 5256.0J 5104.0 Good D 3405.0E 3424.0F 3496.0G 4123.0H 4276.0I 5079.0J 4574.0 Fair D 4291.0E 3682.0F 3827.0G 4239.0H 5136.0I 4685.0J 4976.0 Name: price, dtype: float64# 使用 pivot_table() diamonds.pivot_table(values='price',index='cut',columns='color',aggfunc=np.mean).round(0) # 使用 crosstab() pd.crosstab(index=diamonds['cut'],columns=diamonds['color'],values=diamonds['price'],aggfunc=np.mean).round(0)

以上是pivot_table的輸出

以上是crosstab的輸出

我想你已經知道你最喜歡的了。grouppy()返回一個序列，而另兩個返回相同的數(shù)據(jù)幀。但是，可以將groupby系列轉換為相同的數(shù)據(jù)幀，如下所示：

grouped = diamonds.groupby(['cut', 'color'])['price'].mean().round(0) grouped.unstack()

如果你不了解pivot_table()和unstack()的語法，我強烈建議你閱讀本文的第一部分。

說到速度，crosstab()比pivot_table()快，但都比groupby()慢得多：

%%timeit diamonds.pivot_table(values='price',index='cut',columns='color',aggfunc=np.mean) 11.5 ms ± 483 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)%%timeit pd.crosstab(index=diamonds['cut'],columns=diamonds['color'],values=diamonds['price'],aggfunc=np.mean) 10.8 ms ± 344 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)%%timeit diamonds.groupby(['cut', 'color'])['price'].mean().unstack() 4.13 ms ± 39.8 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)

如你所見，即使使用unstack()鏈接，groupby()也比其他兩個快3倍。這說明如果你只想分組和計算摘要統(tǒng)計信息，那么應該使用相同的groupby()。當我鏈接其他方法(如simple round()時，速度差甚至更大。

其余的比較主要是關于pivot_table()和crosstab()。如你所見，這兩個函數(shù)的結果的形狀是相同的。兩者之間的第一個區(qū)別是crosstab()可以處理任何數(shù)據(jù)類型。

它可以接受任何類似數(shù)組的對象，比如列表、numpy數(shù)組、數(shù)據(jù)幀列(pandas series)。但是，pivot_table()只對dataframe有效。在一個很有幫助的StackOverflow中，我發(fā)現(xiàn)如果在數(shù)據(jù)幀上使用crosstab()，它會在后臺調用pivot_table()。

接下來是參數(shù)。有些參數(shù)只存在于一個參數(shù)中，反之亦然。第一個最流行的是crosstab()的normalize。normalize接受以下選項(來自文檔)：

如果傳遞了all或True，則將規(guī)范化所有值。
如果傳遞index，將規(guī)范化每一行。
如果傳遞columns，將規(guī)范化每個列。

讓我們看一個簡單的例子：

cross = pd.crosstab(index=diamonds['cut'],columns=diamonds['color'],normalize='all') plot_heatmap(cross, fmt='.2%')

如果傳遞all，對于每個單元格，pandas計算總金額的百分比：

# 證明所有值加起來約等于1 >>> pd.crosstab(diamonds['cut'], diamonds['color'], normalize='all').values.sum()1.0000000000000002

如果傳遞index或columns，則按列或按行執(zhí)行相同的操作：

cross = pd.crosstab(diamonds['cut'], diamonds['color'], normalize='index') plot_heatmap(cross, fmt='.2%')

以上是按行規(guī)范化

cross = pd.crosstab(diamonds['cut'], diamonds['color'], normalize='columns') plot_heatmap(cross, fmt='.2%')

以上是按列規(guī)范化

在crosstab()中，還可以使用行名和列名直接在函數(shù)內更改索引和列名。之后不必手動執(zhí)行。當我們一次按多個變量分組時，這兩個參數(shù)非常有用，你將在后面看到。

參數(shù)fill_value只存在于pivot_table()中。有時，當你按許多變量分組時，不可避免地會出現(xiàn)不一致。在pivot_table()中，可以使用fill_value將它們更改為自定義值：

diamonds.pivot_table(index='color', columns='cut', fill_value=0)

但是，如果使用crosstab()，則可以通過在dataframe上鏈接fillna()來實現(xiàn)相同的效果：

pd.crosstab(diamonds['cut'], diamonds['color']).fillna(0)

Pandas crosstab()的進一步定制

crosstab()的另外兩個有用參數(shù)是margins和margins_name(兩者都存在于pivot_table()中)。設置為True時，邊界計算每行和每列的和。我們來看一個例子：

pd.crosstab(index=diamonds['cut'], columns=diamonds['clarity'], margins=True)

pandas自動添加最后一行和最后一列，默認名稱為All。margins_name可以控制名字：

pd.crosstab(index=diamonds['cut'],columns=diamonds['clarity'],margins=True,margins_name='Total Number')

右下角的單元格將始終包含觀察的總數(shù)，或者如果“normalize”設置為True，則為1：

pd.crosstab(index=diamonds['cut'],columns=diamonds['clarity'],margins=True,margins_name='Total Percentage',normalize=True)

請注意，如果將margins設置為True，則熱圖是無用的。

Pandas crosstab()，多組

對于index和columns參數(shù)，可以傳遞多個變量。結果將是一個具有多級索引的數(shù)據(jù)幀。這次我們插入所有的分類變量：

pd.crosstab(index=[diamonds['cut'], diamonds['clarity']],columns=diamonds['color'])

對于index，我傳遞了color和cut。如果我把它們傳遞給列，結果將是一個包含40列的數(shù)據(jù)幀。如果你注意的話，多級索引如預期的那樣命名為cut和clear。對于存在多級索引或列名的情況，crosstab()有方便的參數(shù)來更改它們的名稱：

pd.crosstab(index=[diamonds['cut'], diamonds['clarity']],columns=diamonds['color'], rownames=['Diamond Cut', 'Clarity']).head()

傳遞相應名稱的列表，以將索引名稱更改為行名稱。這個過程對于控制列名的colnames是相同的。

有一件事讓我很驚訝，如果你把多個函數(shù)傳遞給aggfunc，pandas就會拋出一個錯誤。同樣，StackOverflow上的伙計們認為這是一個bug，而且已經有6年多沒有解決過了。

最后要注意的是，在pivot_table()和crosstab()中，都有一個dropna參數(shù)，如果設置為True，則會刪除包含所有nan的列或行。

原文鏈接：https://towardsdatascience.com/meet-the-hardest-functions-of-pandas-part-ii-f8029a2b0c9b

歡迎關注磐創(chuàng)AI博客站： http://panchuang.net/

sklearn機器學習中文官方文檔： http://sklearn123.com/

歡迎關注磐創(chuàng)博客資源匯總站： http://docs.panchuang.net/

總結

以上是生活随笔為你收集整理的Pandas的crosstab函数的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： linux学习笔记入门之用户及文件权限
下一篇：《基于数字信号处理的相干光通信技术》读书