日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习——数据降维和相关性分析

發布時間:2023/12/20 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习——数据降维和相关性分析 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

特征工程中數據降維方法思想有兩種:

1. 破壞數據原有的結構從而提取數據的主要特征,例如主成分分析(PCA);

2. 對數據進行相關性分析,按照一定的法則來對數據的屬性進行取舍達到降維的目的。

? ?相關性分析主要考量兩組數據之間的相關性,以一種指標來判定,觀察數據中哪些屬性與目標數據的相關性較強,從而做出保留,哪些較弱,進行剔除。

? ?相關性分析方法也分為線性相關性分析與非線性相關性分析兩種,分別應用于不同的場景。

一、 線性相關性分析

1.數據可視化方法:數據可視化在某些情況下可以簡單且直觀的判定數據之間的相關性,但是無法很好的展現出數據之間的關系。

2.皮爾遜相關性分析(還有斯皮爾曼)

使用pearson相關系數之前需要檢查數據是否滿足牽制條件:

1.兩個變量間有線性關系;

2.變量是連續變量;

3.變量符合正態分布,且二元分布也符合正態分布‘

4.兩變量獨立;

5.兩變量的方差不為0’

?

結果判斷與分析:

相關系數的絕對值越大,相關性越強(-1 , 1)

通常情況下通過以下取值范圍判斷變量的相關強度:

相關系數 0.8~1.0? 極強相關

? ? ? ? ? ? ? ? 0.6~0.8? 強相關

? ? ? ? ? ? ? ? 0.4~0.6 中等程度相關

? ? ? ? ? ? ? ? 0.2~0.4? 弱相關

? ?? ? ? ? ? ? ?0.0~0.2? 極弱相關或無相關

以上的分析是針對理論環境下,在實際的工程應用中也有學者發現且表明當相關性大于0.2即代表存在相關性。

注意:

1.Pearson相關系數是用來檢測兩個連續型變量之間線性相關的程度,并且要求這兩個變量分別分布服從正態分布;

2.pearson相關系數僅能度量變量間的線性相關性,如果變量間相關性未知,則pearson相關系數的大小沒有指導意義,此時需要借助可視化手段輔助判斷;

3.兩變量的pearson相關系數實際上是這兩個變量0均值化后的cosine相似度;

4.如果兩個變量是非線性相關,為了使用線性模型,可以先將特征變量進行非線性變換,使之與目標線性相關‘

5.pearson相關系數對異常值比較敏感,在數據清洗階段需要將異常值過濾或者平滑處理。

二、 非線性相關性分析

1,最大信息系數(maximal information coefficient, MIC)

最大信息系數是一種現代的相關性分析方法,該方法可以考察兩個變量(大量數據,通常數據量在500條以上)之間的線性關系和非線性關系。

最大信息系數:?https://minepy.readthedocs.io/en/latest/index.html#

?

(大概這么多,以后再補充)

參考:

https://www.cnblogs.com/zhuozige/p/12891600.html

?

?

?

?

?

總結

以上是生活随笔為你收集整理的机器学习——数据降维和相关性分析的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。