数据字典简单例子_Python学习100天-Day14(数据分析篇-pandas02)
Day14-讀取文件
接著上一天的內(nèi)容,我在學(xué)習(xí)的過程中發(fā)現(xiàn),DF數(shù)據(jù)還可以利用幾個Series數(shù)據(jù)組成,具體看一個例子:
兩種形式,第一種是直接對Series創(chuàng)建DF對象,得出的結(jié)果。第二種是通過字典的形式創(chuàng)建DF對象,把Series的name映射到Series,簡單來說,通過字典形式創(chuàng)建,可以看做將Series的name作為了列名,各個元素通過相同的index對應(yīng)合并在一起。創(chuàng)建出來的DF有點類似一張excel的sheet,行是1,2,3,4....,列是A,B,C,D....。
讀取csv文件
除了通過字典和Series的方式創(chuàng)建DF,還可以通過讀取CSV文件的形式創(chuàng)建DF對象。
例如讀取本地的一份NBA球員2013賽季的數(shù)據(jù)表,格式是CSV,通過read_csv 函數(shù)讀取文件,返回DF數(shù)據(jù)給NBA_data,NBA_data就是DF數(shù)據(jù)類型,可以查看數(shù)據(jù)的列名,還可以顯示數(shù)據(jù)的前五行數(shù)據(jù)。
大家可以留意到,讀取數(shù)據(jù)的時候,我們沒有指定索引號,所以系統(tǒng)自動添加了索引號,默認(rèn)從0開始,我們可以在讀取的時候加入?yún)?shù),指定數(shù)據(jù)框的索引:
數(shù)據(jù)框的索引成了player,所以列名就沒有了player字段。擴展一下學(xué)習(xí),DF數(shù)據(jù)結(jié)果可以直接用列名選擇數(shù)據(jù),下面我們看一個例子:
選取數(shù)據(jù)集的時候都會帶去索引號,所以如果設(shè)置球員名稱為索引號,這樣選取出來的信息就會更加清晰。更多關(guān)于read_csv函數(shù)的參數(shù)可以查看pandas官方文檔。
讀取xlsx文件
除了CSV文件,pandas還可以直接讀取xlsx文件。加入?yún)?shù)sheet_name可以選擇要讀取的sheet。
如果要選擇多個列的子集,需要以列表的形式傳入數(shù)據(jù)框。下面我們來做一個小練習(xí),鞏固一下今天學(xué)習(xí)的內(nèi)容,就是用pandas合并同一個文件夾內(nèi)的所有csv文件(xlsx文件同理),并保存。現(xiàn)在我的D盤下有文件夾NBA,下有三個csv文件,nba_2013.csv、nba_2014.csv、nba_2015.csv。
簡單說一下,這個合并的小程序主要用到了列表的迭代,pandas的CSV的讀取方法,保存方法,還和數(shù)據(jù)框的合并函數(shù),同理合并xlsx。留一個大家思考的問題,如果有多個xlsx文件,而且文件里面有多個sheet,那么要怎么合并?明天開始我給大家演示一下,這個我也是前不久自己學(xué)會,提示一下:要用到xlrd這個包去獲取xlsx文件中的sheent個數(shù)。
總結(jié)
以上是生活随笔為你收集整理的数据字典简单例子_Python学习100天-Day14(数据分析篇-pandas02)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python剑指offer面试题_剑指o
- 下一篇: websocket python爬虫_p