《商业数据分析》读书笔记(一)
https://learning.oreilly.com/library/view/data-science-for/9781449374273/
這本書重點在于講解商業數據分析背后的重點原則。幫助人形成一套科學的應用數據分析的流程。
對于有數據分析基礎知識的人來說,可以作為一種融會貫通的思維練習。
?
前言
?
1.介紹:數據分析思考
數據機會的普遍存在
案例:法國颶風
案例:預測客戶流失
數據科學,工程,和數據驅動決策制定
數據處理和“大數據”
從大數據1.0到大數據2.0
作為戰略資產的數據和數據科學能力
數據分析思考
這本書
數據挖掘和數據科學,再訪
化學不是關于試管的:數據科學VS數據科學家的工作
總結
?
前言
?
這本書適合:
與數據科學家共事的商務人士,主導數據科學導向的項目和數據科學相關的風投人士。
試圖用數據科學解決商務問題的開發者
有抱負的數據科學家
?
這本書重點在于介紹商務數據科學背后的原則,而非算法細節。
讀者不需要深厚的數學素養,但是內容依舊具有技術性。因為它不是一個全局概覽性的樹。
?
這本書橫跨展望問題,到應用數據科學技巧,到部署結果提升決策制定水平的整個過程。
?
概念適合三大類:
1.關于數據科學如何植入到組織中的概念,包括吸引,構建,培養數據科學團隊;數據科學如何轉化為競爭優勢的方法;與數據科學團隊相處的戰術概念
2.數據分析思維的大體方法。幫助人識別合適的數據和考慮合適的方法。概念包括數據挖掘過程以及不同復雜度的數據挖掘任務
3.真正從數據中挖掘知識的整體概念。
?
?
這本書不光被本系的MBA喜歡,其他理工學生也喜歡。還被其他幾個學校作為教材。
?
?
第一章 介紹:數據分析思考
?
要有大大的夢想,小夢想不能驅動人心——歌德
?
過去十五年在商務基礎設施方面有了廣闊的投資,這改善了在企業各方面手機數據的能力實質上商業的各個方面現在都對數據收集敞開大門而且經常甚至配備了數據收集裝備:運營,制造,供應鏈管理,消費者行為,營銷表現,工作流程等等。與此同時,信息正在諸如市場趨向,行業新聞,和競爭者運動方面有更廣泛的可用性。這種對數據廣泛的可用性讓人對從信息中抽取有用信息的理論更感興趣,那就是——數據科學領域。
?
**
商業的各個層級都有數據,而且可用性日趨增大,數據科學就是從數據中抽取有用信息。
**
?
數據機會普遍存在
?
隨著大量數據可用,幾乎各行各業的公司都在應用數據提高競爭優勢。過去,公司會雇傭統計學家,建模師和分析師手動探索數據集,但是數據的體量和多樣性已經遠遠手動分析的能力。同時,計算機已經更強大,網絡無處不在,可以連接數據集和更廣更深分析的算法已經開發出來。種種現象的匯聚讓數據科學原則和數據挖掘技術的商業應用大大擴展。
?
營銷領域現主要用于目標營銷,線上廣告,交叉銷售推廣。客戶關系管理,管理消耗和最大化期望客戶價值。
金融領域用于信用評分和交易
運營領域欺詐偵測和勞工管理
主要零售商沃爾瑪和亞馬遜在從營銷到供應鏈管理方方面面應用數據科學。
?
本書首要目標是幫助你從數據角度看待商業問題和理解從數據中抽取有用信息的基本原則。當然,這并不是說,閱讀這本書以后就會擁有商務或數據科學意識,師傅領進門,修行在個人。
?
兩個例子
?
法國颶風
沃爾瑪首席信息官在颶風來臨前一個星期通過歷史數據分析在接下來一周的貨物需求量,來管理庫存。挖掘出什么信息?不僅是顯而易見的瓶裝水會大賣,而且草莓和啤酒也會大賣。如果不進行數據挖掘,就得不到這個信息,到時候會斷貨。導致銷售損失。
?
**
商業數據分析,目標是解決商務問題。賣更多東西。
對于任何人,處在任何位置,都需要做決策,決策背后能否用數據支持呢?
**
?
預測客戶流失
這些數據分析表現如何?考慮第二個,一個更典型的商業行動方案,如何通過數據視角看待它。這個問題會作為一個動態例子來闡明這本書提出的主要問題并且提供一個參考通用模型。
?
數據無處不在。
數據科學的核心作用是預測,發現背后的規律,用這種規律來預測將來發生的事情。
這就引出來一個問題,我想知道什么,或是別人特別想知道什么,這個東西可不可以被預測。
mege公司面臨用戶流失問題,假設你就是分析員。
他們打算給客戶提供一項激勵以保留現有客戶,你的任務就是在細節上決定把這些激勵給哪些客戶(要知道,營銷預算有限,保留老客戶比吸引新客戶更省錢,而且也不能給所有人這項激勵,必須充分運用這些預算)
?
仔細思考你需要什么數據以及如何利用他們?
描述客戶的特征向量,包括最終是否流失,帶來的利潤等等歷史數據。
?
電信和金融領域的客戶保留中大量應用數據挖掘
?
數據科學,工程,和數據驅動決策制定
?
數據科學在通過(自動)分析理解現象中包括原則,流程和技巧。這本書中,我們將數據科學的根本目標設定為改善決策制定,因為它通常在商業中帶來直接利益。
?
數據驅動決策并不完全依賴于經驗和直覺或是抽象的數據分析,而是兩者的結合。
數據驅動決策已經被科學家確證了可以顯著提高決策水平。
?
沃爾瑪的對手瞄準(TARGET)從歷史數據中分析預測誰會懷孕,以便進行精準營銷。
從歷史數據中帶著發現一些有用的東西的希望去挖掘,而非簡單測驗一個假設。
?
對于客戶管理中的數據科學(以下簡稱DS)應用,關鍵目的是保留客戶。預測哪些客戶會流失,預測每個客戶的可能消費是多少,決定要在他身上投入多少。無論是否有DS的參與,營銷活動都必須進行,顯然,DS讓營銷更有效了。
?
同樣的邏輯可以應用于許多領域,在直接營銷,線上廣告,信用評分,金融交易,服務臺管理,欺詐偵測,艘多排序,產品推薦等等領域都有DS的大量集中應用。
?
數據驅動決策(data driving decision making,DDD)支持決策制定,并且商業決策由計算機系統自動制定的情況越來越多。
?
自動決策在不同行業有不同的應用率。在電信和金融領域內最早被采納,很大程度上是因為它們較早具備數據網絡和大范圍計算的應用,這允許他們對大數據聚合和建模以及應用決策咨詢模型。
?
**
自動決策以后就像機器一樣越來越被人信賴和依賴,因為人的決策過程,說到底就是數學,既然是數學,就有可能被程序執行。這是比機電設備更高一級別的自動化。
但是人的直覺,人的無意識或是潛意識,也就是現在還無法用邏輯解釋的創造靈感,目前來看還無法用算法代替。
因此,自我實現,在算法時代,更凸顯了重要性。不能把人當做工具。應該把人當做具有創造性和主觀能動性的人。不要試圖完全掌控別人,要給予別人充分的自主性。企業不是軍隊。
**
?
上世紀90年代金融電信行業就部署了大數據決策系統。接著是零售業,然后是網絡營銷,如亞馬遜和網飛,因為越來越多的人在網上消費,這要求系統有作出瞬間線上商業決策的能力。
?
數據科學的核心在于發現規律和預測。
基礎設施鋪設——》數據科學的個性化應用
信息社會,數據越來越多,數據科學能力成為戰略能力。
培養數據科學思維:從數據分析的角度看待問題。
這是在只覺得基礎上,增加這一種能力,能讓人成為更為完善,更為整合的人。
注意:也千萬不要忽視直覺力,這是我們作為人最珍貴的能力。
數據科學對我來說是一種有力的工具。它可以用來解決我關心的問題。
?
直覺,是走向和諧完滿的唯一途徑。
自我實現,是我唯一神圣使命。
大數據的個性化應用,是現在的主流。
?
數據處理和大數據
?
有必要離題一下。數據處理不是DS,數據工程(DE)和數據處理(DP)對支持DS很重要,但是他們更廣泛。DS需要DE/DP出來的數據,但他們不是DS本身。DS是從數據中抽取知識,實現DDD。
?
熱門的Hadoop /HBase/MongoDB都是屬于數據處理和數據工程領域。
?
DS的本質,是從數據中獲取知識。
?
從大數據1.0到大數據2.0
?
作者將數據科技類比成互聯網科技。當你有了基本的通訊網絡之后,你會想干更多的事情。
你就從web1.0跨越到了為web2.0,當你有了更多的數據之后,你就會對數據有更多思考,考慮現在能不能做以前從未做過的事情,或者能不能比以前做得更好?這就開始了跨越。
?
亞馬遜在網絡和數據技術應用方面都走在了最前線。
意思就是有了更深入或是更細分的應用?
?
數據和數據科技能力作為一種戰略資產
持有這種觀點,可以讓決策者進行清楚明確的思考。注重在這方面的投資。
數據和數據科學能力缺一不可。建造拔尖的數據科學團隊不是平凡的事業,但是可以在決策領域產生巨大的改變。
?
西奈銀行是一個經典案例。上世紀80年代數據科技給它帶來巨變。給失約概率建模將這個行業從個人失信可能性評估改變到戰略性的大規模評估,這隨之帶來了大量的經濟效益。雖然現在看起來很奇怪,但是在那是,信用卡有同樣定價,因為:1)公司沒有足夠的信息系統處理大規模不同定價, 2)銀行管理層認為顧客不接受區別定價
?
**
真讓我有些吃驚,也有些受到啟發。現在存在的東西,只適合它創造的時候,并不適合現在。萬事萬物都在不斷的發展變化著,對待事情就像對待人一樣,不能有成見,保持開放的胸懷和頭腦。
鄧小平和李光耀都具有這種魄力。無論自己犯了多么大的錯誤,損失了多少東西,一旦自己發現方向錯了或走錯了路,就會毫不猶豫的
?
上個世紀八九十年代,銀行的信用卡定價系統從統一變革到了個性化!
因為當時沒有足夠強大的的信息系統對每個客戶進行個個性化信用評估,甚至銀行認為人們根本不會接受區別定價?!
事情應該怎么做?這是獨立理性思考的范疇。而事情的現狀是什么樣則不一定合理。所謂的變革,就是從發現這種不合理開始。
“存在即合理”是一句沒用的廢話。這只不過是理論家們為了自圓其說發明的狗屁不通的屁話。目的就是讓人們看不懂,想不通。
銀行本質上就是借貸。
當然需要考量借貸人的信用?傻子才不這么想!
但是,從技術角度做不到。
現在有許多行業其實也到了啟動這項變革的節點。是什么呢?有數據的地方就有知識和預見。有預見能力就可以更好的決策。
?
這個西奈銀行的案例很有趣,值得反復研習。
?
**
?
?
大約1990年,richard faribanks and morris nigel 認為信息技術已經足夠強大到計算個性化信用(個性化應用已經成為了一種趨勢,正在被實踐)。他們跑遍各大銀行沒有得到高管的支持,最后在一家區域性銀行——西奈銀行得到了支持。他們要對每個客戶的贏利性和失約性進行建模。
?
開始西奈前了幾年的數據籌集過程,導致了可觀的損失,但是他們把這些損失看作是對數據科學的投資。因此,在股東抱怨重重的時候堅持下來。
?
開始信用評級之應用到了銀行內客戶數據,后來又引入了社會統計數據,更多的數據讓交易表現獲得了驚人的成長。
亞馬遜收集數據,給客戶進行個性化推薦讓營業額顯著增長。
?
?
臉書上有海量的個人和他們的喜好數據。但是這些數據能否被充分應用還是個問題。小扎不是接受國會質詢了嗎?
?
**
大量的行業應用案例,確實說明了數據和數據科學大有用武之地。
**
?
作者的觀點是數據科技的個性化應用。
?
這本書
這本書偏重于理念。但也不是不注重技術。技術承載了種種理念。
這本書奉獻很多注意力在從大數據中抽取有用的(何為有用?非凡的,能指導實際行動的)模型或模式,或說規律(也就是道)
比如,在客戶流失案例中,是發現模式,行為模式,幫助我們預測哪些人不會與我們再續約。
?
數據分析思維
分析類似客戶流失問題的案例提高了我們用數據分析解決問題的能力。推廣擴大這種視角是這本書的目的之一。當我們面臨一個業務問題時,應該能夠評估是否和如何用數據來解決改善這個問題。我們討論了一系列促進仔細思考的基本概念和原則。我們開發了一個框架讓分析成為一個系統。
?
DDD在商業活動中扮演越來越重要的角色。所以,不管你是否要直接參與到DDD中,都應該對它有所了解,這樣才能有能力與其互動,或者發掘它的威脅。
當你的咨詢師說要挖掘一個數據集時,你能夠進行基本的判斷,該不該這么做;
?
從較小的方面說,一個雇員要能和數據科學團隊互動,也需要知道基本的原則和概念。這種不理解對數據團隊傷害很大。種種不理解會浪費數據科學團隊的時間,甚至作出錯誤決策。
?
**
作為一個商業數據科學工作者,就有義務向別人(任何人)解釋為什么你做的事情重要。。。它有什么實際作用。數據科學人員必須具有說服力,才能讓別人心甘情愿協助工作。
作者提出了一個重要且清晰的觀點:從數據中提取有用信息,什么是有用?非凡的——有些東西即使不做數據分析也可以得到,那就不是有用的;可執行的——發現了知識,但是根本與商業問題聯系不起來,沒法指導商業決策或商業行為,這也叫無用。
**
?
?
以下是本書中的基本理念,它們以及更多的理念會在后續章節中詳細說明。
基本理念:
從數據中抽取有用知識可以系統的有邏輯的按照定義好的步驟完成。跨行業數據挖掘標準流程,縮寫是CRISP-DM(2000年),是這個過程的一個成典。
?
**
簡言之,數據挖掘有章可循。
2015年,IBM發行了新版本。縮寫ASUM-DM。
**
?
基本理念:
信息技術可以發現信息豐富的描述性屬性。
拿客戶流失案例說,一個客戶對應多個屬性,如使用,服務歷史,和其他。那么哪個屬性給我們提供了它要停止續約的信息,提供了多少信息。有時候,這個過程涉及到粗略的找到與“流失”相關的變量。分析師或許會進行一些假設檢驗,并且還有一些工具幫助我們推進這個實驗。或者,分析師可以將信息技術應用到自動發現重要屬性——本質上是做大規模自動篩選。更進一步,這個理念可以一再應用到進行多屬性模型構建。
?
**
簡言之,自動化特征工程。甚至,自動化模型構建。作者應該是要告訴我們,應該有用程序自動化一些東西這個理念,并且應用這個理念。學會應用自動化工具甚至創造自動化工具。
**
?
基本理念:
如果你使勁兒審視一個數據集,你會發現一些東西,但會失去泛化能力。過擬合是個重要概念,尤其在實際問題中。它滲透到了數據科學處理,算法和評估的各個部分。
?
基本理念:
規劃數據挖掘解法和評估結果包含仔細思考它將要被應用到的環境。
如果我們的目標是抽取潛在有用知識,我們如何具體定義有用?它關鍵取決于應用。以流失管理為例,我們如何應用從歷史數據中抽取出來的模式?應不應該把客戶價值加入到離開可能性的考量中?寬泛一點說,這個模式相對于一些其他選擇能帶來更好的決策嗎?如果隨機決策效果怎么樣?
?
**
這個理念是最重要的,就是切合具體商務問題情景。思考DS能不能解決問題。能解決什么問題。又沒有更好的其他方式解決問題。。。。這些問題需要我們思考,使勁而思考。
**
?
化學不是關于試管的:數據科學VS 數據科學家的工作
再繼續進行之前,我得在簡要說一下數據科學的工程一面。就如同一個化學家一定是一個稱職的實驗室技師一樣,一個數據科學家或數據科學工作者一定是能夠應用軟件工具的。
?
說了這一點,這本書關注通用原則與理念。技術發展迅速,但是這些理念過去二十年和未來幾十年不會變化太大。
?
總結
?
?
總結
以上是生活随笔為你收集整理的《商业数据分析》读书笔记(一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: cesium实现自定义地球球体背景效果
- 下一篇: 【操作篇】qBittorrent下载+转