数据挖掘概念与技术——读书笔记(1)
生活随笔
收集整理的這篇文章主要介紹了
数据挖掘概念与技术——读书笔记(1)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
原書第三版
Jiawei Han?????Micheline Kamber?????Jian Pei??著
第一章 引論
為什么進行數據挖掘
解決“數據豐富,但信息貧乏”的問題。
數據的爆炸式增長,廣泛可用,巨大數量??——>?? 數據時代??——>?? 需要功能強大和通用的工具,從海量數據中發現有價值的信息。
什么是數據挖掘
從數據中挖掘知識。
- 數據清理(消除噪聲和刪除不一致的數據)
- 數據集成(多種數據源可以組合在一起)
- 數據選擇(從數據庫中提取與分析任務相關的數據)
- 數據變換(通過匯總或聚集操作,把數據變換和統一成適合挖掘的形式)
- 數據挖掘(基本步驟,使用智能方法提取數據模式)
- 模式評估(根據某種興趣度度量,識別代表知識的真正有趣的數據)
- 知識表示(使用可視化和知識表示技術,向用戶提供挖掘的知識)
可以挖掘什么類型的數據
- 數據庫數據
- 由一組內部相關的數據和一組管理和存取數據的軟件程序組成。
- 關系數據庫是表的匯集(屬性—>字段或列,元祖—>記錄或行)。對象被唯一關鍵字標識,被一組屬性值描述。
- 數據倉庫
- 從多個數據源收集的信息儲存庫(例如分部遍布全世界的公司的數據庫)
- 從多個數據源收集的信息儲存庫(例如分部遍布全世界的公司的數據庫)
- 事務數據
- 每個記錄代表一個事務。
- 包含一個唯一的事務標識號,以及一個組成事務的項。
- 例如商場的第50條交易記錄,用戶購買了A,D,F這三件物品。
- 其他類型的數據
- 空間數據,超文本和多媒體數據……等等
可以挖掘什么類型的模式
- 描述性(刻畫目標數據中數據的一般性質)
- 預測性(在當前數據上做出歸納,以便進行預測)
類/概念描述:特征化與區分
數據特征化:目標類數據的一般特性或特征的匯總
數據區分:將目標類,與一個或多個可比較類進行比較。
?????????????????例如:定期購買電腦產品的客戶和不購買電腦產品的客戶進行比較。
挖掘頻繁模式、關聯和相關性
頻繁模式:在數據中頻繁出現的模式。
- 頻繁項集:頻繁在事務數據集中一起出現(顧客在小賣部總是一起買牛奶和面包)
- 頻繁子序列:顧客先買數碼相機,再買內存卡。
- 頻繁子結構
關聯分析(例如分析,哪些商品總是一起被購買)
- “computer”=>“software”[1% , 50%] 表示所有事務的1%顯示計算機和軟件被同時購買。購買了計算機的人,有50%的可能性會選擇購買軟件。
相關性(相關聯的屬性-值對之間的統計相關性)
用于預測分析的分類和回歸
- 分類:找出描述和區分數據類或概念的模型(或函數),預測類別標號。
- 回歸:建立連續值函數模型,預測缺失的或難以獲得的數值數據值。
相關分析可能需要在分類和回歸之前進行,它試圖識別與分類和回歸過程顯著相關的屬性。
聚類分析
聚類分析:分析數據對象,而不考慮類標號。可以使用聚類產生數據組群的類標號。
—>“最大化類內相似性,最小化類間相似性”
離群點分析
異常挖掘。有時看做噪聲而丟棄,但是在比如欺詐檢測等應用中,罕見事件的出現,更令人感興趣。
所有模式都是有趣的嗎?
- 易于被人理解
- 在某種確信度上,對于新的或檢驗數據是有效的
- 潛在有用的
- 新穎的
客觀度量:支持度,置信度。
使用什么技術
- 統計學:例如建立分類或預測模型之后,統計假設檢驗來驗證模型
- 機器學習:監督學習(基本上是分類的同義詞),無監督學習(本質上是聚類的同義詞),半監督學習,主動學習
- 信息檢索:搜索文檔或文檔中信息的科學
面向什么類型的應用
商務智能、Web搜索、生物信息學、衛生保健信息學、金融、數字圖書館……
數據挖掘的主要問題
- 挖掘方法
- 新的知識類型、多維空間中的知識、跨學科、網絡環境下的挖掘能力、模式評估
- 用戶交互
- 結合背景知識
- 表示和可視化,使知識更容易理解
- 有效性與可伸縮性
- 處理多種多樣的數據類型
- 動態的、復雜的。
- 數據挖掘與社會
- 保護隱私
- 社會影響
自己加油加油 笨鳥后飛也要飛呀飛
總結
以上是生活随笔為你收集整理的数据挖掘概念与技术——读书笔记(1)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: input-获取文本框值
- 下一篇: 微机原理与接口技术实验:宏实现1+2+3