日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

5种较为简单的缺失值处理方法

發(fā)布時(shí)間:2025/3/13 编程问答 18 豆豆
生活随笔 收集整理的這篇文章主要介紹了 5种较为简单的缺失值处理方法 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

如果你調(diào)查的數(shù)據(jù)發(fā)現(xiàn)有缺失(這幾乎是不可避免的),首先建議先做一些分析,比如這些缺失數(shù)據(jù)和全部數(shù)據(jù)在性別、年齡等一些指標(biāo)上有無(wú)差異(但愿是沒(méi)有差異的)。

如果差別不大,那還勉強(qiáng)說(shuō)的過(guò)去,如果差別較大,那就麻煩了。審稿人肯定會(huì)說(shuō),為什么全部數(shù)據(jù)中男性占50%,而缺失數(shù)據(jù)中男性占70%?這是不是說(shuō)明缺失的主要是男性,那會(huì)不會(huì)影響你的主要研究結(jié)局?等等之類的。當(dāng)然,理論上,你需要證明在所有的因素中差別都不大,但這一點(diǎn)很難,實(shí)際中,很多人都是大概看看在一些主要的基線資料中差別不大就算是心里安慰了。

先說(shuō)一個(gè)原則性問(wèn)題,處理缺失值最好的方式是什么?答案是:沒(méi)有最好的方式。或者說(shuō),最好的方式只有一個(gè),預(yù)防缺失,盡量不要缺失。

聽起來(lái)像開玩笑,但這是真理。任何的填補(bǔ)技術(shù)都是有問(wèn)題的,就像有人說(shuō)的,所有的統(tǒng)計(jì)方法都是錯(cuò)誤的,任何的統(tǒng)計(jì)方法都是有條件的,在適當(dāng)條件下,結(jié)論可能比較可信,否則就是錯(cuò)誤的。

缺失值的處理有很多種方式,本文先說(shuō)一些比較簡(jiǎn)單的。

直接刪除法

這種方法簡(jiǎn)單粗暴,是非專業(yè)人士很喜歡用的方式??赡苣銜?huì)說(shuō),這算是什么方法?事實(shí)上,在有些時(shí)候,這種方法也是有效的。在缺失數(shù)很少的時(shí)候,這種方法無(wú)可厚非,而且效率很高。如調(diào)查了1000人,只有30人缺失,可以考慮刪除,通常影響不會(huì)太大。

但這么理想的情況不多見,更多的是缺失率較高的情形。如每個(gè)變量缺失30個(gè),這時(shí)盡管每個(gè)變量缺失都不多,但如果缺失沒(méi)有重合,只要有一個(gè)變量缺失,就要?jiǎng)h除整條觀測(cè)。因此如果直接刪除的話,如果有10個(gè)變量缺失,就要?jiǎng)h除300條,那就不一樣了。

一般情況下,很少有恰好所有變量都在相同的觀測(cè)缺失,所以,當(dāng)有缺失數(shù)據(jù)的變量很多的時(shí)候,直接刪除會(huì)導(dǎo)致樣本量減少很多。即使你不在乎分析精度,起碼也得考慮一下前期花費(fèi)的精力吧,相當(dāng)于你花了100%的精力卻只拿到了70%或60%的回報(bào)。

所以,除非你調(diào)查的自變量很少,而且每個(gè)自變量缺失的都特別少,否則盡量不要采用這種方法。

LOCF法

這種方法主要用于臨床試驗(yàn)中。臨床試驗(yàn)中經(jīng)常需要多次觀察,這就會(huì)導(dǎo)致有的人可能第1次隨訪有數(shù)據(jù),而第2次(或第3次、第4次)就失訪了,后面就沒(méi)有數(shù)據(jù)了。

這種時(shí)候最簡(jiǎn)單直接、而且也是很常用的一種方式就是LOCF(last observation carried forward),意思就是,用前一次的數(shù)據(jù)填補(bǔ)后面的數(shù)據(jù)。

比如張三,第一次隨訪的血糖是11.3,第二次失訪了,那么第二次以及后面所有的隨訪都填補(bǔ)為11.3。

既然提到LOCF,就順便提一下與其有關(guān)的其它類似的幾種方式,比如BOCF(baseline observation carried forward),顧名思義,以基線數(shù)據(jù)填補(bǔ)后面的缺失;WOCF(worst observation carried forward),以各次隨訪中最差的結(jié)果作為缺失值的填補(bǔ),或者以各次隨訪中最優(yōu)的結(jié)果作為缺失值的填補(bǔ),做一些敏感性分析,看看最差是什么樣,最好是什么樣。?


文章剩余內(nèi)容查看<<<<

總結(jié)

以上是生活随笔為你收集整理的5种较为简单的缺失值处理方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。