日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习与数据挖掘——第二章 数据与数据预处理

發布時間:2023/12/4 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习与数据挖掘——第二章 数据与数据预处理 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、關于數據

什么是數據?

數據是數據對象的集合及其屬性

屬性的類型

  • 標稱標度 nominal scale
    標稱屬性的值是一些符號或實物的名稱,每個值代表某種類別、編碼或狀態,所以標稱屬性又被看做是分類型的屬性(categorical)。這些值不存在順序關系,并且不是定量的。
    如:血型、身份號碼、郵政編碼
  • 類型標度 typological scale
  • 序列標度 ordinal scale
    在標稱標度的基礎上,加入了類別的順序關系,當不能進行算術運算
    如:成績(優、良、及格)、印度種姓制度
  • 間隔標度 interval scale
    含有對各個類進行分隔的間隔規模信息,數字不僅表示順序,還能進行加減算術運算,但不能進行乘除運算。
    間隔標度可以看成一個一次函數。
    如:日期、攝氏溫度
  • 比例標度 ratio scale
    含有對各個類別進行分隔的比例規模信息
    這種測量不僅保持了順序、實體間的間隔規模,還能描述實體之間的比率,可以進行加減乘除等任何算術運算。
    可以看成是一個比例函數。
    如:開爾文溫度、長度、時間
  • 離散屬性和連續屬性
    • 離散屬性
      只有一個有限集和可數無限集,如郵政編碼、計數。通常為整數變量。
    • 連續屬性
      實數作為屬性值,如溫度、高度。通常用浮點變量表示。

二、為什么要預處理數據

現實中的數據是臟的:

  • 不完全:缺少屬性值,或僅包含聚類數據
  • 噪音:包含錯誤和孤立點
  • 不一致:編碼或名字存在差異
  • 數據類型
  • 非平衡數據

三、數據清理

填充缺失值、識別/去除離散點、光滑噪音、糾正數據中的不一致

如何處理缺失數據?

  • 忽略元組
  • 手工填寫缺失數據
  • 自動填充:全局常量(如“unknown”)、屬性均值、推理的方式
  • 如何處理噪音數據

  • 分箱:排序數據,分布到等頻、等寬的箱中
  • 聚類:檢測和去除孤立點
    局部離群因子LOF:LOF越接近于1,說明A的其領域點密度差不多,A可能和領域屬于同一簇;如果這個比值約小于1,說明A的密度高于其領域點的密度,A為密集點;如果這個比值約大于1,說明A的密度小于其領域點,A越可能是異常點。
  • 回歸:回歸函數擬合數據
  • 四、數據集成

    合并多個數據源中的數據

    五、數據規約

    獲得數據的一個規約表示,規模比原來小、但接近原數據的完整性,使得得到幾乎相同的分析結果。

    • 數據立方體聚集
    • 維度規約——去除不重要的屬性
      主成分分析PCA:將一組N維向量降為K維,其目標是選擇K給單位正交基,使原始數據變換到這組基后,各字段兩兩協方差為0,而字段的方程則盡可能大。
      步驟:
    • 設有m條n維數據,按列組成n行m列矩陣X
    • 將X的每一行進行零均值化,即減去這一行的均值
    • 求出協方差矩陣C=X(X^T)/m
    • 求出協方差矩陣的特征值及對應特征向量
    • 將特征向量按對應特征值大小從上到下按行排列成矩陣,取前k行組成矩陣P
    • Y=PX即為降維后的向量
    • 數據壓縮
    • 數值規約
    • 離散化和產生概念分層
    創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

    總結

    以上是生活随笔為你收集整理的机器学习与数据挖掘——第二章 数据与数据预处理的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。