日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据中异常值的鉴定和处理(1)

發布時間:2025/3/15 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据中异常值的鉴定和处理(1) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數據預處理中最不想碰到但又繞不過的一個問題是異常樣品的鑒定和處理。異常樣本,也稱為離群樣本,其定義是與其它樣本有顯著差異的樣本。通常是由實驗操作失敗、樣本受損等不易發現的外部因素引起,比如樣本被污染了、細胞死亡了、細胞破損了、動物個體遺傳背景不符、抗體特異性差、核酸提取不純、RNA降解、測序質量差、測序深度很低等。異常樣本的存在會干擾數據分析結果的穩定性,常見統計指標非常容易受到異常值的影響,例如均值、方差和相關性等。相比于保留更多的樣本,我們更希望保留質量更高的樣本 (這也要求我們測序重復要較多,不然只有2重復,去掉一個就沒法分析了)。

異常樣本有什么特征?異常樣在數據上體現在與其它所有樣本都差別比較大,比如樣品GC含量異常、比對率遠低于低于中位比對率、基因表達量整體都特別高或幾乎都為0、菌的構成很異常、與同組樣品差別大、檢測到的基因數異常多或異常少、單細胞里面還會考慮線粒體基因的表達比例等。

現在又到了另一個問題,這些是很好的指標,但閾值怎么設置?

如果和導師說這個樣本異常,然后被靈魂質問,你以為你以為的就是你以為的嗎。那我們如何來有效地發現和定義異常樣本呢?

聚類結果判斷異常樣本

一般可以通過層級聚類樹或PCA的方式查看是否存在異常樣品,但具體判斷哪個樣品是異常樣本缺乏明確的標準。如下面左圖展示的是數據中混入了異常樣本(圖中藍框)后數據聚類成一大一小兩個分支,51-52一枝,其它樣品一枝。我們現在判定51-52為異常樣本,把它們去除,圖就變成了右側的樣子,變成兩個大分支,左側分支的樣品42要被判斷為異常樣本嗎?沒有答案。

異常值的判定 Z-score方法

我們先從最簡單的情況看起,假如有一組數,-10,10,20,3,1,3,3,4,4,4,4,5,6,7,100, 哪個數字看起來最異常呢?異常值的定義是與其余數據有顯著差異的數據,看上去應該是100,怎么計算一下呢?

如果數據主體符合正態分布,一般使用Z-score的方法。Z-score (也稱standard score) 代表一個給定的測量值偏離平均值多少倍的標準差,其正值代表大于平均值,負值代表小于平均值。計算方式如下:

在異常值檢測時,一般認為偏離3倍標準差以上為異常值:

在R中簡單實現如下:

set.seed(1) ysx <- c(round(c(rnorm(30)),1),10) ysx

[1] -0.6 ?0.2 -0.8 ?1.6 ?0.3 -0.8 ?0.5 ?0.7 ?0.6 -0.3 [11] ?1.5 ?0.4 -0.6 -2.2 ?1.1 ?0.0 ?0.0 ?0.9 ?0.8 ?0.6 [21] ?0.9 ?0.8 ?0.1 -2.0 ?0.6 -0.1 -0.2 -1.5 -0.5 ?0.4 [31] 10.0

ysx_scale <- round(as.vector(scale(ysx)),1) ysx_scale

[1] -0.5 -0.1 -0.6 ?0.6 -0.1 -0.6 ?0.1 ?0.2 ?0.1 -0.4 [11] ?0.6 ?0.0 -0.5 -1.3 ?0.4 -0.2 -0.2 ?0.3 ?0.2 ?0.1 [21] ?0.3 ?0.2 -0.2 -1.2 ?0.1 -0.3 -0.3 -1.0 -0.5 ?0.0 [31] ?4.8

另外也可用中位數和中位絕對偏差代替,結果更穩定一些

set.seed(1) ysx <- c(round(c(rnorm(30)),1),10) ysx ysx_mad = mad(ysx) ysx_median = median(ysx)ysx_scale = round((ysx-ysx_median) / ysx_mad,1) ysx_scale_outlier <- abs(ysx_scale) >=3 ysx_scale_outlier

[1] -0.6 ?0.2 -0.8 ?1.6 ?0.3 -0.8 ?0.5 ?0.7 ?0.6 -0.3 [11] ?1.5 ?0.4 -0.6 -2.2 ?1.1 ?0.0 ?0.0 ?0.9 ?0.8 ?0.6 [21] ?0.9 ?0.8 ?0.1 -2.0 ?0.6 -0.1 -0.2 -1.5 -0.5 ?0.4 [31] 10.0

[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE [9] FALSE FALSE FALSE FALSE FALSE ?TRUE FALSE FALSE [17] FALSE FALSE FALSE FALSE FALSE FALSE FALSE ?TRUE [25] FALSE FALSE FALSE FALSE FALSE FALSE ?TRUE

那么這個怎么應用到鑒定異常樣本之間呢?度量不同樣本之間的相似度可以使用Pearson correlation或Spearman corelation值等。如果一個樣本與其他樣本相似度都很低,低于3倍的標準差,則可視為異常樣品。這個怎么算呢?下文再說!

Z-score也常用于熱圖美化中:R語言學習 - 熱圖美化 (數值標準化和調整坐標軸順序)

往期精品(點擊圖片直達文字對應教程)

后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集

?

(請備注姓名-學校/企業-職務等)

總結

以上是生活随笔為你收集整理的数据中异常值的鉴定和处理(1)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 久久成人免费视频 | ts人妖另类精品视频系列 | 9·1·黄·色·视·频 | 免费美女毛片 | 两性免费视频 | 97精品人妻一区二区三区香蕉 | 中文字幕人成人乱码亚洲电影 | 婷婷视频一区 | 日韩二区在线观看 | 久久接色| 老熟妇毛茸茸 | 日b视频免费观看 | 久久久精品视频免费 | 国产日产精品一区二区三区四区 | 中国美女黄色一级片 | 日韩精品91| 国产一级特黄视频 | 碧蓝之海动漫在线观看免费高清 | 日本精品一区二区在线观看 | 亚洲色图 欧美 | 国产又粗又黄又爽又硬 | 国产精品视频一二区 | 91视频99 | 日韩欧美综合久久 | 精品久久久久久久中文字幕 | 久久久永久久久人妻精品麻豆 | 久久免费在线 | 99久久久国产精品无码免费 | 久久久久噜噜噜亚洲熟女综合 | 麻豆视屏 | 国产伦理片在线观看 | 久草免费福利视频 | 热久久av| 欧美一二三区 | 国产麻豆成人精品av | 500福利视频导航 | 国产色爱 | 久久精品999 | av视屏在线| 亚洲人成人 | 亚洲色图日韩精品 | 亚洲一区精品在线观看 | 一区二区三区视频在线播放 | 香蕉手机网 | 91www在线观看 | 黄色动漫在线观看 | 日韩欧美在线免费 | 无码精品人妻一区二区三区湄公河 | 精品日韩一区二区 | 国产精品99久久 | 日韩啪啪网站 | 依依激情网| gai视频在线观看资源 | 好吊操精品视频 | 亚洲成人激情av | 18禁超污无遮挡无码免费游戏 | 亚洲视频一区二区三区 | 91精品在线看 | 国产精品久久久久电影 | 欧美日韩久久久 | 国产成人精品无码片区在线 | 久久亚洲美女 | 久久人人精 | 自拍偷拍一区二区三区 | 污的视频在线观看 | 人妻一区二区三区在线 | 樱花视频在线观看 | 黑人毛片网站 | av在线一区二区 | 成年人免费在线观看网站 | 99国产一区 | 成人黄色小视频 | 男人插女人下面视频 | 国产欧美一区二区三区视频在线观看 | 免费a在线 | 蜜臀少妇久久久久久久高潮 | 五月婷av| 久久99亚洲精品 | 国产黄色自拍视频 | 精品国产va久久久久久久 | 白丝女仆被免费网站 | 国产精品久久..4399 | 91精品色| 农村老熟妇乱子伦视频 | 成全世界免费高清观看 | 免费看成人av | 波多野结衣先锋影音 | 欧美日韩激情网 | 日韩少妇一区 | 色婷婷综合在线 | 色版视频在线观看 | 蜜桃无码一区二区三区 | 一级在线观看 | 少妇高潮一69aⅹ | 午夜毛片在线 | 精品理论片 | 欧美日韩亚洲综合 | 国产精品99久久久久久久久久久久 | 亚洲欧美小视频 |