R语言学习笔记之——数据处理神器data.table
前言
數據處理在數據分析流程中的地位相信大家都有目共睹,也是每一個數據從業(yè)者面臨的最為繁重的工作任務。
在實際應用場景下,雖然SQL(SQL類專業(yè)的etl語言)是數據處理的首選明星語言,性能佳、效率高、容易培養(yǎng)數據思維,但是SQL沒法處理構建全流程的數據任務,之后仍然需要借助其他數據分析工具來對接更為深入的分析任務。
R語言作為專業(yè)的統(tǒng)計計算語言,數據處理是其一大特色功能,事實上每一個處理任務在R語言中都有著不止一套解決方案(這通常也是初學者在入門R語言時,感覺內容太多無從下手的原因),當然這些不同方案確實存在著性能和效率的絕大差異。
合理選擇一套自己的數據處理工具組合算是挺艱難的選擇,因為這個涉及到使用習慣和遷移成本的問題,比如你先熟知了R語言的基礎繪圖系統(tǒng),在沒有強大的驅動力的情況下,你可能不太愿意畫大把時間去研究ggplot2,你用會寫for/while循環(huán),就不太愿意去掌握apply組函數,甚至那些性能逆天的并行算運算包;剛開始會用基礎字符串處理,看到stringr包就面臨著技能工具更新的問題……
太多的選擇,讓人眼花繚亂,我自己也遇到過這種困惑,為了避免注意力分散,我的做法是先做可能性羅列——羅列一個可以實現同類功能的所有工具清單并做一套功能卡(也算是初步了解)。然后根據自己掌握的現狀選擇最熟練的一套,隨著時間的推移慢慢發(fā)現現有工具組合的不足,開始嘗試往更加高效、簡介的工具遷移,這樣以需求為推動力的技能升級和遷移更為徹底和明確。
最典型的幾個技能組合遷移如下:
基礎字符串處理函數——stringr 繪圖系統(tǒng):plot——ggplot2 代碼風格:函數嵌套總結
以上是生活随笔為你收集整理的R语言学习笔记之——数据处理神器data.table的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: tableau可视化数据分析60讲(十五
- 下一篇: Tableau实战系列构建基本视图以浏览