【业务建模_2】通用数据工具
背景
在公司做數據工作會接觸很多相關工具,這里會匯總一些核心并更理想化的工具。
工具匯總
1.打點平臺
module,op,參數數組(s0-s5),常用參數,[實際打點位置截圖,打點觸發條件說明]
——后兩者暫時沒有,但在使用過程中發現經常不知道某個打點到底是什么意思。打點變化太快了,而且歷史打點不規范經常沒有人上傳原型流程圖;實時測試打點有延遲,測完發現少很多認為應該有的點,多了一些不應該有的點;有些點可能是開發直接加的點,未經過打點平臺,沒有中文名字比較難理解;即使有的點看懂了,實際觸發條件并不一定是所想的。
另外,日志中經常有一系列相關的點需要一起看,增加系列(也可以說增加多層module)和系列層級也許會更好。
有什么工具可以圖形化顯示op關系?比如我以前用Excel樹狀結構來表示,但op太多太復雜也很難看。
——其實我想過在可視化日志統計上實現這樣的功能,即在圖形甚至原型流程圖上顯示uv/轉化率/pv比uv等數據;還有個想法是在看單個人的日志時發現很難理解用戶操作流程,能直接開發個工具將日志流復現為原型流程圖甚至動態的app操作更好了(想得美==)。
2.事件分析&漏斗分析
基于日志數據,甚至整合常用維度(比如城市、性別等)。
事件分析,即基于一個度量事物(比如uv),能進行篩選,并可按某些維度分組計算。
漏斗分析,即基于一系列事件的某個度量事物,能篩選,并能組織漏斗上下層級是left join還是只是不left join(上下層事件互相獨立)。
3.timeline
按時間點組織,將各個時間點發生的版本升級、功能變化等等時間記錄下來,并標簽可能影響的指標,便于分析時關聯上。
——這個是我一直想做但沒做的。
4.hive/spark
這一套指整個離線數倉,t+1同步。通常需要了解線上表(找開發問)+同步過程(數倉負責,涉及數據字典和同步規則——增量全量拉鏈等)+線下表。
hive/spark是在持續版本更新的,UDF也需要數倉去建,所以在寫SQL應用某些函數時遇到不能解決的可以問數倉。
5.報表&可視化平臺
大小公司必不可少的,使用者通常是不懂數據的業務人員+老板。差一點的就直接是報表和固定的可視化內容,好一點是能由分析師自建可視化內容共享出來。
這里涉及到數據表建模,中間表任務,前端可視化控件。
——其實最重要的是數據表建模,玩過tableau都知道就是一些事實表+維度表,然后創建各種維度和計算度量就好。但很多時候沒有人知道數據建模這個職能的存在,所以經常是分析師玩自己的,BI團隊建自己的,然后并沒有人用。
6.實時流量平臺
這個主要針對需要實時監控的指標,例如收入,uv等。
7.定時郵件任務&表任務工具
分析師經常會接到一些快速報表需求,直接用SQL出表,此時定時郵件任務就很好用了。
很多時候底層表太麻煩,或一條SQL很難搞定的,也會自己建中間表;或者有些外部數據要應用到SQL中,建表輔助也是很好用的。
——其實有建表+郵件工具+可視化控件,報表需求分析師都能搞定。
轉載于:https://www.cnblogs.com/everda/p/10382987.html
總結
以上是生活随笔為你收集整理的【业务建模_2】通用数据工具的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: .NET Core开发日志——配置
- 下一篇: javaScript学习之正则表达式初探