数据分析的 5 种归纳方法
公眾號后臺回復“圖書“,了解更多號主新書內容
?作者:林驥
?來源:林驥
下面介紹 5 種歸納方法,即:求同法、求異法、共用法、共變法和剩余法,其實這些方法早在古代就有,后來培根在《新工具》一書中進行了概括和歸納,最后由穆勒加以系統的整理和說明,因此通常稱為「穆勒五法」。
1. 求同法
在多個場合中,如果只有一個條件相同,那么這個相同的條件,就是我們要找的原因。
用字母來表示,如果有 A 就有 a,那么 A 可能是 a 的原因。
| (1) | A、B、C | a |
| (2) | A、D、E | a |
| (3) | A、F、G | a |
| …… | …… | …… |
比如說,火雞吃了「發霉的花生」,得癌癥死了,鴿子、老鼠、魚等動物吃了這種花生,也都得癌癥死了。
在這個例子中,只有「發霉的花生」這個條件是相同的,其中「發霉的花生」是 A,「得癌癥死亡」就是 a,于是猜想,吃發霉的花生是得癌癥死亡的原因。
后來,通過化驗證明,在發霉的花生中,有一種黃曲霉素,這是一種致癌的物質。
再比如,有一組患 a 病的人,他們年齡不同,身高不同,性別不同,飲食習慣等等都不同。他們只有一個共同點,就是都酗酒。利用求同法,酗酒和 a 病之間可能存在因果關系。
求同法相對比較簡單,但是要注意它的局限性,不要把巧合當成因果。
2. 求異法
如果一個現象是否出現,只有一個條件不同,那么這個不同的條件,就是我們要找的原因。
用字母來表示,如果有 A 就有 a,且無 A 就無 a,那么 A 可能是 a 的原因。
| (1) | A、B、C | a |
| (2) | 一、B、C | 一 |
| …… | …… | …… |
比如說,在化學實驗中,氯化鉀加熱會產生氧氣,但速度很慢,當加入少量「二氧化錳」之后,產生氧氣的速度明顯加快。
在這個例子中,「二氧化錳」是影響速度快慢的唯一不同條件,其中「二氧化錳」是 A,「快速產生氧氣」是 a,所以,二氧化錳是快速產生氧氣原因。
再比如,中國人和外國人遠洋航行,途中,外國人都得了壞血病,中國人都沒事。用求異法發現,中國人喜歡喝茶,這一點與外國人不同,其中「喝茶」是 A,「抵御壞血病」是 a,于是歸納出「喝茶能夠抵御壞血病」的猜想。
在現實的業務環境中,很難找到只有一個條件不同的場景,所以,一般要借助 AB 測試,控制好實驗組與對照組的唯一不同條件,讓其他條件都盡可能保持一致。比如投放兩組廣告,只有標題不同,其他都一樣,然后分析轉化率的差異。
3. 共用法
共用法,就是把求同法和求異法結合起來共同使用,從而讓分析結論更加可靠,但并不能保證結論完全正確。
具體來說,共用法包括兩次求同和一次求異,即以下三個步驟:
第一步:正面場合求同,尋找現象出現的相同條件,有 A 就有 a;
第二步:反面場合求同,尋找現象不出現的相同條件,無 A 就無 a;
第三步:正反場合求異,得出數據分析的結論,A 可能是 a 的原因。
| (正面場合1) | A、B、C | a |
| (正面場合2) | A、D、E | a |
| (正面場合3) | A、F、G | a |
| …… | …… | …… |
| (反面場合1) | 一、B、C | 一 |
| (反面場合2) | 一、D、E | 一 |
| (反面場合3) | 一、F、G | 一 |
| …… | …… | …… |
比如說,有陽光,韭菜等植物是綠色,沒有陽光,韭菜等植物不是綠色,其中「陽光」是 A,「綠色」是 a,所以陽光可能是韭菜等植物變成綠色的原因。
再比如,為了調查甲狀腺腫大的原因,先到幾個這種病流行的地區,發現這些地區的地理環境、經濟水平都各不相同,但有一點是相同的,即居民經常食用的食物和飲用的水中缺碘。再到一些這種病不流行的地區去調查,發現這些地區的地理環境和經濟水平也各不相同,但有一點是相同的,即居民經常食用的食物和飲用的水中不缺碘。其中「缺碘」是 A,「甲狀腺腫大」是 a,所以缺碘可能導致甲狀腺腫大。
再舉一個商業環境中的例子,對廣告效果進行數據分析的時候,假如廣告文案中包含「限時」的轉化率就較高,不包含「限時」的轉化率就不高,那么我們可以認為,「限時」這個關鍵詞對轉化率可能有提升效果。
在實際工作中,共用法比求同法和求異法的應用更加廣泛,得出的結論往往也更加可靠。
4. 共變法
在其他條件不變的情況下,如果某一現象發生變化,另一現象也發生變化,那么這兩個現象之間可能存在因果聯系。
用字母來表示,如果 A 變化的時候 a 也變化,那么 A 可能是 a 的原因。
| (1) | A1、B、C | a1 |
| (2) | A2、B、C | a2 |
| (3) | A3、B、C | a3 |
| …… | …… | …… |
比如說,氣溫上升,水銀體積就膨脹;氣溫下降,水銀體積就縮小,其中「氣溫」是 A,「水銀體積」是 a,氣溫與水銀體積之間可能存在因果關系。
再比如,廣告投放量增加,銷量就上升,廣告投放量減少,銷量就下降,其中「廣告投放量」是 A,「銷量」是 a,廣告投放量與銷量之間存在因果聯系。
使用共變法時要注意,不能僅憑簡單觀察,就確定因果關系。有時兩種現象共變,但實際上并無因果聯系,比如閃電與雷鳴。
5. 剩余法
已知復合結果是由復合原因引起的,如果其中一部分原因導致一部分結果,那么剩余部分原因也會導致剩余部分結果。
用字母來表示,如果 A、B、C、D 導致 a、b、c、d,其中 A、B、C 分別導致 a、b、c,那么 D 可能導致 d。
| (1) | A、B、C、D | a、b、c、d |
| (2) | A | a |
| (3) | B | b |
| (4) | C | c |
比如說,天王星的運行軌道,有四個地方發生偏離,其中三個地方的偏離是由三個行星引起的,所以天文學家和數學家認為,第四個地方的偏離肯定是因為受到另一個行星的引力。其中三個行星分別是 A、B、C,三個地方的偏離分別是 a、b、c,第四個地方的偏離是 d,而另一個行星就是要找的 D。
后來果然發現了這個行星,它就是海王星,是唯一利用數學預測發現的行星。
一般來說,剩余法只能用于研究復合現象的原因。
小結
以上介紹的 5 種歸納方法,即:求同法、求異法、共用法、共變法、剩余法,是我們獲取新知的重要方法。需要注意的是,它們都屬于不完全歸納法,也就是說,即使推理過程看起來沒問題,但是得出的結論可能是錯誤的,應該經過進一步的驗證。
有許多的案例和故事都說明,有限的觀察不等于真理。
比如說,中國的天鵝是白色的,美國的天鵝也是白色的,于是有人猜想,所有天鵝都是白色的。但是,世界上確實有黑天鵝存在。
再比如,在《三體》中有這么一個故事:
一個農場里有一群火雞,農場主每天中午十一點來喂食。火雞中有位科學家,觀察了近一年都沒有例外,于是它發現了自己宇宙中的偉大定律:「每天上午十一點,會有食物降臨。」它在感恩節的早晨,向火雞們公布了這個定律,但這天上午十一點,食物沒有降臨,農場主進來把它們都捉去殺了。
為了避免以偏概全,我們需要運用合適的方法,加強歸納思維的訓練,積累更多實戰的經驗,這樣歸納總結出來的結論,才能經得起時間的考驗,才會更有現實意義。
◆?◆?◆ ?◆?◆ 麟哥新書已經在當當上架了,我寫了本書:《拿下Offer-數據分析師求職面試指南》,目前當當正在舉行400-240活動,大家可以用相當于原價4折的預購價格購買,還是非常劃算的,掃描下方小程序即可進入購買頁面:數據森麟公眾號的交流群已經建立,許多小伙伴已經加入其中,感謝大家的支持。大家可以在群里交流關于數據分析&數據挖掘的相關內容,還沒有加入的小伙伴可以掃描下方管理員二維碼,進群前一定要關注公眾號奧,關注后讓管理員幫忙拉進群,期待大家的加入。管理員二維碼:猜你喜歡●?麟哥拼了!!!親自出鏡推薦自己新書《數據分析師求職面試指南》●?厲害了!麟哥新書登頂京東銷量排行榜!●?笑死人不償命的知乎沙雕問題排行榜 ●?用Python扒出B站那些“驚為天人”的阿婆主!●?你相信逛B站也能學編程嗎總結
以上是生活随笔為你收集整理的数据分析的 5 种归纳方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: C语言冒泡排序(从小到大排序)
- 下一篇: 2021年山东大学考研数字电路906真题