日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 综合教程 >内容正文

综合教程

(六)数据精简之(数据记录精简)

發(fā)布時(shí)間:2024/1/3 综合教程 30 生活家
生活随笔 收集整理的這篇文章主要介紹了 (六)数据精简之(数据记录精简) 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

數(shù)據(jù)精簡(jiǎn)之數(shù)據(jù)記錄精簡(jiǎn)方法

1.數(shù)據(jù)記錄精簡(jiǎn)的需求
  ? 隨著數(shù)據(jù)表中的數(shù)據(jù)記錄愈來(lái)愈多,有兩個(gè)問(wèn)題會(huì)浮現(xiàn)出來(lái)
    ? 整個(gè)數(shù)據(jù)挖掘所需的時(shí)間將跟著拉長(zhǎng)
    ? 所有統(tǒng)計(jì)的方法通通失效
2.數(shù)據(jù)記錄精簡(jiǎn)對(duì)所獲得的知識(shí)影響
  ? 求得之知識(shí)可能多少有些誤差
  ? 然而當(dāng)數(shù)據(jù)集合中存在無(wú)關(guān)、偏差的數(shù)據(jù)記錄時(shí),將數(shù)據(jù)記錄作適當(dāng)?shù)木?jiǎn),將能獲得更準(zhǔn)確有效的知識(shí)

3.數(shù)據(jù)記錄精簡(jiǎn)常用方法

(1)統(tǒng)計(jì)方法中抽樣(Sampling)的作法
  ? 數(shù)據(jù)集合中抽取部分的數(shù)據(jù)記錄樣本來(lái)代表整個(gè)數(shù)據(jù)集合母體
    ? 隨機(jī)抽樣(Random Sampling):有放回,無(wú)放回。

      

    ? 分層抽樣(Stratified Sampling):針對(duì)數(shù)據(jù)集合中同構(gòu)型高且互不重迭的分層,各自進(jìn)行隨機(jī)抽樣。將各分層的抽樣結(jié)果結(jié)合成一個(gè)樣本。

      

    ? 聚類抽樣(Cluster Sampling):利用聚類技術(shù),將整個(gè)數(shù)據(jù)集合分成數(shù)個(gè)群集,使得每個(gè)群集中的記錄相似度很高,不同群集間的記錄相似度很低隨機(jī)由這些群集中選取數(shù)個(gè)群集形成樣本。

    

    ? 系統(tǒng)抽樣(Systematic Sampling):假設(shè)數(shù)據(jù)集合中的數(shù)據(jù)記錄筆數(shù)為N,而所需之樣本數(shù)據(jù)記錄筆數(shù)為n,則系統(tǒng)抽樣的方式首先隨機(jī)由1~N/n之間選取一個(gè)數(shù)字;假設(shè)所選取的數(shù)字為k,以k開(kāi)始,每N/n個(gè)間隔 (interval),將相對(duì)應(yīng)的數(shù)據(jù)記錄選取進(jìn)樣本之中。

    

    ? 兩階段式抽樣(Two-Phase Sampling)

進(jìn)行兩個(gè)階段的抽樣選取以決定樣本
? 第一階段首先由數(shù)據(jù)集合中隨機(jī)抽樣出一個(gè)較大的樣本,接著將第一階段中所得到的樣本當(dāng)成數(shù)據(jù)集合,進(jìn)行第二階段的抽樣
? 兩階段式抽樣可以延伸成多階段式抽樣(Multi-Phase Sampling)

總結(jié)

以上是生活随笔為你收集整理的(六)数据精简之(数据记录精简)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。