5种较为简单的缺失值处理方法
如果你調(diào)查的數(shù)據(jù)發(fā)現(xiàn)有缺失(這幾乎是不可避免的),首先建議先做一些分析,比如這些缺失數(shù)據(jù)和全部數(shù)據(jù)在性別、年齡等一些指標(biāo)上有無(wú)差異(但愿是沒(méi)有差異的)。
如果差別不大,那還勉強(qiáng)說(shuō)的過(guò)去,如果差別較大,那就麻煩了。審稿人肯定會(huì)說(shuō),為什么全部數(shù)據(jù)中男性占50%,而缺失數(shù)據(jù)中男性占70%?這是不是說(shuō)明缺失的主要是男性,那會(huì)不會(huì)影響你的主要研究結(jié)局?等等之類的。當(dāng)然,理論上,你需要證明在所有的因素中差別都不大,但這一點(diǎn)很難,實(shí)際中,很多人都是大概看看在一些主要的基線資料中差別不大就算是心里安慰了。
先說(shuō)一個(gè)原則性問(wèn)題,處理缺失值最好的方式是什么?答案是:沒(méi)有最好的方式。或者說(shuō),最好的方式只有一個(gè),預(yù)防缺失,盡量不要缺失。
聽起來(lái)像開玩笑,但這是真理。任何的填補(bǔ)技術(shù)都是有問(wèn)題的,就像有人說(shuō)的,所有的統(tǒng)計(jì)方法都是錯(cuò)誤的,任何的統(tǒng)計(jì)方法都是有條件的,在適當(dāng)條件下,結(jié)論可能比較可信,否則就是錯(cuò)誤的。
缺失值的處理有很多種方式,本文先說(shuō)一些比較簡(jiǎn)單的。
直接刪除法
這種方法簡(jiǎn)單粗暴,是非專業(yè)人士很喜歡用的方式??赡苣銜?huì)說(shuō),這算是什么方法?事實(shí)上,在有些時(shí)候,這種方法也是有效的。在缺失數(shù)很少的時(shí)候,這種方法無(wú)可厚非,而且效率很高。如調(diào)查了1000人,只有30人缺失,可以考慮刪除,通常影響不會(huì)太大。
但這么理想的情況不多見,更多的是缺失率較高的情形。如每個(gè)變量缺失30個(gè),這時(shí)盡管每個(gè)變量缺失都不多,但如果缺失沒(méi)有重合,只要有一個(gè)變量缺失,就要?jiǎng)h除整條觀測(cè)。因此如果直接刪除的話,如果有10個(gè)變量缺失,就要?jiǎng)h除300條,那就不一樣了。
一般情況下,很少有恰好所有變量都在相同的觀測(cè)缺失,所以,當(dāng)有缺失數(shù)據(jù)的變量很多的時(shí)候,直接刪除會(huì)導(dǎo)致樣本量減少很多。即使你不在乎分析精度,起碼也得考慮一下前期花費(fèi)的精力吧,相當(dāng)于你花了100%的精力卻只拿到了70%或60%的回報(bào)。
所以,除非你調(diào)查的自變量很少,而且每個(gè)自變量缺失的都特別少,否則盡量不要采用這種方法。
LOCF法
這種方法主要用于臨床試驗(yàn)中。臨床試驗(yàn)中經(jīng)常需要多次觀察,這就會(huì)導(dǎo)致有的人可能第1次隨訪有數(shù)據(jù),而第2次(或第3次、第4次)就失訪了,后面就沒(méi)有數(shù)據(jù)了。
這種時(shí)候最簡(jiǎn)單直接、而且也是很常用的一種方式就是LOCF(last observation carried forward),意思就是,用前一次的數(shù)據(jù)填補(bǔ)后面的數(shù)據(jù)。
比如張三,第一次隨訪的血糖是11.3,第二次失訪了,那么第二次以及后面所有的隨訪都填補(bǔ)為11.3。
既然提到LOCF,就順便提一下與其有關(guān)的其它類似的幾種方式,比如BOCF(baseline observation carried forward),顧名思義,以基線數(shù)據(jù)填補(bǔ)后面的缺失;WOCF(worst observation carried forward),以各次隨訪中最差的結(jié)果作為缺失值的填補(bǔ),或者以各次隨訪中最優(yōu)的結(jié)果作為缺失值的填補(bǔ),做一些敏感性分析,看看最差是什么樣,最好是什么樣。?
文章剩余內(nèi)容查看<<<<
總結(jié)
以上是生活随笔為你收集整理的5种较为简单的缺失值处理方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 如何评估ChatGPT的道德风险?
- 下一篇: 如何将ChatGPT应用于不同的领域?