日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

第三十一期:大数据分析师学习入门,10个数据可视化技巧

發布時間:2023/12/10 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 第三十一期:大数据分析师学习入门,10个数据可视化技巧 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在這篇文章,我想和大家分享 10 個基本的中級和高級的繪圖工具。我發現在現實生活中,當涉及到繪圖解釋你的數據時,這些工具非常有用。

作者:加米谷大數據來源:今日頭條

?

  • 我必須對你說實話:當我學習數據科學時,我完全低估了繪圖的重要性。沒錯,那時一切都一團糟:我從頭開始學習 python、熟悉了所有可能的算法、理解了所有東西背后的數學原理,但是我的繪圖技巧很糟糕。

為什么會這樣?我們總是在做同樣的事情。你知道的:pairplots,distplots,qqplots…你在可視化數據時使用圖表是理解數據的唯一方法。這些都是非常有用、通用和默認的圖表。所以,復制和粘貼一堆代碼成了我時最常做的事情。

對于我的項目來說,可交付結果總是一個模型。由于數小時的數據清洗和特征工程,很可能會有一個不錯的分數。我是我項目的唯一參與者,我的教授們在他們給我這些數據時就已經知道關于數據的一切。那我作圖是為了給誰看?我自己?好吧…沒必要!對不?我比任何人都清楚每一步在實現什么,我不需要向任何人解釋。

但除此之外,老實說,作圖一點都不神秘。任何人都可以作圖。我 60 歲的父親只要用 excel 就能作出一些圖表。當然,每個人都能做到,這就是為什么我認為它并不神秘。我和我的朋友們都在從事數據科學和機器學習,但大多數人甚至不明白那是什么。正如《哈佛商業評論》(Harvard Business Review)雜志所說,這就是為什么我們都那么帥氣性感。

問題是小伙子們——如果你們還沒有從我過分的諷刺中發現,現實生活并非如此。我相信這可能是我在數據科學中的最大失敗:沒有充分考慮可解釋性和可解釋性的重要性。你可能是個天才,但如果你不能向第三方解釋你是如何得到這些美妙的結論,以及為什么得到這些結論,那么你可能什么都不是。例如,在 Ravelin Technology,我們提供基于機器學習的欺詐預防解決方案。想象一下,你告訴一個客戶,你封鎖了 x% 的交易,只是因為機器學習模型是這樣說的,但你根本不知道為什么要這樣做會怎樣?當然,對于任何試圖最大化環化率和銷售情況的電子商務來說,這都不是很有吸引力,對吧?想象一下,在醫療保健等其他敏感領域出現同樣的情況……那簡直是災難即將來臨的千兆。

現在,除了與業務相關的問題,甚至從法律的角度或者從你的業務只關心預測的結果來看——不管你如何得到它們,理解一個算法實際上是如何工作的對你會有幫助。你不僅能更好地向客戶解釋輸出的原因,還能更好地協調數據科學家和分析師的工作。

因此,在現實世界中,情況與我在學校從事學術數據科學項目時的情況完全不同:我從來不是項目的唯一參與者,我的同事和/或客戶通常對我使用的數據不太了解。那我現在要為誰作圖呢?聽起來還沒必要嗎?很顯然不是。能夠向人們解釋你的思維過程是任何數據相關工作的關鍵部分。在這種情況下,復制和粘貼圖表是不夠的,圖表的個性化變得非常重要。

在這篇文章的剩余部分,我想和大家分享 10 個基本的中級和高級的繪圖工具。我發現在現實生活中,當涉及到繪圖解釋你的數據時,這些工具非常有用。

我將在下面幾行中引用的庫:

  • Seaborn:import?seaborn?as?sns??
  • matplotlib:matplotlib.pyplot?as?plt?
  • 此外,如果需要,可以設置樣式和你喜歡的格式,例如:

  • plt.style.use('fivethirtyEight')??
  • %config?inlinebackend.figure\format='retina'??
  • %matplotlib?inline?
  • 說到這里,讓我們直接跳到這些工具:

    1.繪制復合圖

    有時,你會想在一個圖表中繪制出不同的東西。但有時,你會希望在同一行或列中拋出不同的圖表,相互補充和/或顯示不同的信息片段。

    為此,這里給出一個非常基本但必不可少的工具:subplots。如何使用它?很簡單。matplotlib 中的圖表是一種結構,可以這樣使用:

    • 圖形:繪制圖表的背景或畫布
    • 軸:我們的圖表

    通常,這些東西是在代碼后臺自動設置的,但是如果要繪制多個圖形,我們只需要按照以下方式創建圖形和軸對象:

  • fig,?ax?=?plt.subplots(ncols=number_of_cols,?nrows=number_of_rows,?figsize=(x,y)?
  • 例如,如果設置 ncols=1 和 nrows=2,我們將創建一個由 x,y 軸組成的圖形,其中只有兩個圖表,分布在兩個不同的行中。剩下的唯一事情是從 0 開始使用'ax'參數指定不同繪圖的順序。例如:

  • sns.scatterplot(x=horizontal_data_1,?y=vertical_data_1,?ax=ax[0]);??
  • sns.scatterplot(x=horizontal_data_2,?y=vertical_data_2,?ax=ax[1]);?
  • 2.軸標簽

    這可能看起來沒有必要,或者不是很有幫助,但是你無法想象,如果你的圖表有點混亂,或者看到數據的人對此不是很熟悉,你會被問多少次 x/y 軸代表的是什么。按照前面的兩個繪圖示例,如果要為軸設置特定名稱,則必須使用以下代碼行:

  • ax[0].set(x?label='My?X?Label',ylabel='My?Y?Label')??
  • ax[1].set(xlabel='My?Second?X?Label',ylabel='My?Second?and?Very?Creative?Y?Label')?
  • 3.設置標題

    如果我們要將數據呈現給第三方,另一個基本但關鍵的要點是使用標題,它和之前的軸標記非常相似:

  • ax[0].title.set_text(‘This?title?has?to?be?very?clear?and?explicative’)??
  • ax[1].title.set_text(‘And?this?title?has?to?explain?what’s?different?in?this?chart’?
  • 4.給圖表重點元素做注釋

    通常情況下,僅僅在圖表的左右兩側使用刻度本身并不是很清楚。在圖上標注值對于解釋圖表非常有用。

    假設現在我們使用 subplots,我們有幾個圖表,其中一個是位于 ax[0] 位置的 seaborn 的 barplot。在這種情況下,在條形圖中每個條上獲取注釋的代碼要復雜一些,但很容易實現:

  • for?p?in?ax[0].patches:?
  • ?
  • ax[0].annotate(“%.2f”?%?p.get_height(),?(p.get_x()?+?p.get_width()?/?2.,?p.get_height()),??
  • ha=’center’,?va=’center’,?fontsize=12,?color=’white’,?xytext=(0,?-10),?textcoords=’offset?points’?
  • 對于圖表中的每個「patch」或條形圖,直到「ha」參數獲取條形圖的位置、高度和寬度為止,以便將值注釋放在正確的位置。以類似的方式,我們還可以指定注釋的對齊方式、字體大小和顏色,而「xytext」參數指示我們是否要在某個 x 或 y 方向移動注釋。在上面的例子中,我們將在 y 軸上向下移動注釋文本。

    5.使用不同顏色區分標簽

    在某些情況下,在一段時間或一系列的值中,我們可能測量了不同種類的物體。例如,假設我們測量 6 個月以來狗和貓的體重。在實驗結束時,我們想畫出每只動物的體重,分別用藍色和紅色區分貓和狗。為此,在大多數傳統繪圖中,我們可以使用參數「hue」為元素提供顏色列表。

    舉個例子:

  • weight?=?[5,4,8,2,6,2]?month?=?[‘febrero’,’enero’,’abril’,’junio’,’marzo’,’mayo’]?animal_type?=?[‘dog’,’cat’,’cat’,’dog’,’dog’,’dog’]?hue?=?[‘blue’,’red’,’red’,’blue’,’blue’,’blue’]?sns.scatterplot(x=month,?y=weight,?hue=hue);?
  • 6.改變散點圖中點的大小

    使用上面的相同示例,我們還可以使用從 1 到 5 的刻度表示圖表中動物的大小。將此額外指標添加到繪圖中的一個好選擇是修改散點圖的大小,通過「size」參數將大小指定給新的附加向量,并使用「size」調整它們之間的關系:

  • size?=?[2,3,5,1,4,1]??
  • sns.scatterplot(x=month,?y=weight,?hue=hue,?size=size,?sizes=?(50,300));?
  • 順便說一下,如果如上圖所示,圖例使繪圖更難閱讀,你可以將「legend」參數設置為 false。

    7.在數據中包含一行以顯示閾值

    在現實生活中的許多情況下,數據高于或低于某個閾值可能是問題提示信號或錯誤警告。如果要在繪圖中清楚地顯示,可以使用以下命令添加一行:

  • ax[0].axvline(32,0,c='r')?
  • 加在哪里?

    • ax[0] 將是我們要在其中插入行的圖表
    • 32 將是繪制線的值
    • c = 'r' 表示圖表將是紅色的

    如果我們使用的是 subplots,那么將 axvline 添加到相應的 axe 就很簡單,如上面的示例所示。但是,如果不使用 subplots,則應執行以下操作:

  • g=sns.scatterplot(x=month,y=weight,hue=hue,legend=false)??
  • g.axvline(2,c='r')??
  • plt.show()?
  • 8.多 Y 軸繪圖

    這可能是最簡單,但也是最有用的技巧之一。

    有時我們只需要在圖表中添加更多信息,除了在繪圖的右 y 軸上添加新的度量之外,沒有其他方法可以繞過它:

  • ax2=ax[0].twinx()?
  • 現在可以添加任何要將「ax」參數指向「ax2」的圖表

  • sns.lineplot(x=month,?y=average_animal_weight,?ax=ax2?
  • 請注意,這個例子再次假設你使用的是 subplots。如果沒有,你應該遵循與前一點相同的邏輯:

  • g?=?sns.scatterplot(x=month,?y=weight,?hue=hue,?legend=False)??
  • g.axvline(2,c=’r’)??
  • ax2?=?g.twinx()??
  • sns.lineplot(x=month,?y=average_animal_weight,?ax=ax2,?c=’y’)??
  • plt.show()?
  • 請注意,要使其工作,你應該為兩個圖表中的 x 軸設置始終相同的數據。否則,它們就不匹配了。

    零基礎大數據分析培訓機構,加米谷大數據小班教學,數據分析與挖掘10月零基礎班,預報名享優惠

    9. 重疊繪圖和更改標簽和顏色

    在同一軸上重疊圖表很容易:我們只需要為所有想要的繪圖編寫代碼,然后,我們可以簡單地調用'plt.show()'將它們全部繪制在一起:

  • a=[1,2,3,4,5]??
  • b=[4,5,6,2,2]??
  • c=[2,5,6,2,1]??
  • sns.lineplot(x=a,y=b,c='r')??
  • sns.lineplot(x=a,y=c,c='b')??
  • plt.show()?
  • 然而,有時重疊會導致混淆,所以我們可能需要做一些改進,讓人更容易理解。

    例如,假設你希望在同一個圖形中重疊你采集的兩個不同樣本的身高分布:一個來自你的同事,另一個來自當地的籃球隊。最好添加一些個性化的東西,如不同的顏色,并添加一個圖例,表明它們具體代表的是哪一個。好吧,簡單點:

    • 設置「colour」標簽,我們可以為每一個設置一種特定的顏色。請注意,有時此參數可以更改為簡單的「c」
    • 使用「label」參數,我們可以通過簡單地調用 x.legend()用來指定要顯示的任何文本

    舉個例子:

  • g?=?sns.distplot(workmates_height,?color=’b’,?label=’Workmates’)??
  • sns.distplot(basketball_team,?color=’r’,?ax=g,?label=’Basket?team’)??
  • g.legend()??
  • plt.show()?
  • 10.在條形圖中設置軸的順序

    最后是一個非常特殊的工具~如果你喜歡使用條形圖,你可能會面臨這樣的問題:你的條形圖沒有按照你想要的順序排列。在這種情況下,有一個簡單的修復方法,將一個帶有你想要的特定順序的列表傳遞給「order」參數:

  • a=['second','first','third']?
  • b=[15,10,20]?
  • sns.barplot(x=a,y=b,order=['first','second','third']);?
  • 繪圖本身就是一個世界,根據我的經驗,提高你技能的最好方法就是練習。但我希望這些工具和技巧能幫助你做好現實中數據科學的工作,就像當初幫助我一樣。

    閱讀目錄(置頂)(長期更新計算機領域知識)https://blog.csdn.net/weixin_43392489/article/details/102380691

    閱讀目錄(置頂)(長期更新計算機領域知識)https://blog.csdn.net/weixin_43392489/article/details/102380882

    閱讀目錄(置頂)(長期科技領域知識)https://blog.csdn.net/weixin_43392489/article/details/102600114

    總結

    以上是生活随笔為你收集整理的第三十一期:大数据分析师学习入门,10个数据可视化技巧的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。