日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

不抛弃异常值的几种情况

發布時間:2024/3/24 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 不抛弃异常值的几种情况 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

異常數據是數據分布的常態,處于特定分布區域或范圍之外的數據
通常會被定義為異常或“噪音”。產生數據“噪音”的原因很多,例如業務
運營操作、數據采集問題、數據同步問題等。對異常數據進行處理前,
需要先辨別出到底哪些是真正的數據異常。

從數據異常的狀態看分為兩
種:
·一種是“偽異常”,這些異常是由于業務特定運營動作產生,其實
是正常反映業務狀態,而不是數據本身的異常規律。
·一種是“真異常”,這些異常并不是由于特定的業務動作引起的,
而是客觀地反映了數據本身分布異常的個案。


大多數數據挖掘或數據工作中,異常值都會在數據的預處理過程中
被認為是噪音而剔除,以避免其對總體數據評估和分析挖掘的影響。但
在以下幾種情況下,無須對異常值做拋棄處理。
1.異常值正常反映了業務運營結果
該場景是由業務部門的特定動作導致的數據分布異常,如果拋棄異
常值將導致無法正確反饋業務結果。
例如:公司的A商品正常情況下日銷量為1000臺左右。由于昨日舉
行優惠促銷活動導致總銷量達到10000臺,由于后端庫存備貨不足導致
今日銷量又下降到100臺。在這種情況下,10000臺和100臺都正確反映
了業務運營的結果,而非數據異常。
2.異常檢測模型
異常檢測模型是針對整體樣本中的異常數據進行分析和挖掘以便找
到其中的異常個案和規律,這種數據應用圍繞異常值展開,因此異常值
不能做拋棄處理。
異常檢測模型常用于客戶異常識別、信用卡欺詐、貸款審批識別、
藥物變異識別、惡劣氣象預測、網絡入侵檢測、流量作弊檢測等。在這
種情況下,異常數據

總結

以上是生活随笔為你收集整理的不抛弃异常值的几种情况的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。