日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘算法_算法篇(01) 数据挖掘算法初探

發(fā)布時(shí)間:2023/12/15 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据挖掘算法_算法篇(01) 数据挖掘算法初探 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

前言

無論是傳統(tǒng)行業(yè),還是互聯(lián)網(wǎng)行業(yè)。掌握數(shù)據(jù),就是掌握規(guī)律。當(dāng)你了解了市場數(shù)據(jù),對(duì)它進(jìn)行分析,就可以得到市場規(guī)律。當(dāng)你掌握了產(chǎn)品自身的數(shù)據(jù),對(duì)它進(jìn)行分析,就可以了解產(chǎn)品的用戶來源、用戶畫像等等。所以說數(shù)據(jù)是個(gè)全新的視角。

當(dāng)我們談?wù)摂?shù)據(jù)分析的時(shí)候,都在講些什么呢?這里可以把數(shù)據(jù)分析分成三個(gè)重要的組成部分。

數(shù)據(jù)采集:它是我們的原材料,也是最“接地氣”的部分,因?yàn)槿魏畏治龆家袛?shù)據(jù)源。

數(shù)據(jù)挖掘:它可以說是最“高大上”的部分,也是整個(gè)商業(yè)價(jià)值所在。之所以要進(jìn)行數(shù)據(jù)分析,就是要找到其中的規(guī)律,來指導(dǎo)我們的業(yè)務(wù)。因此數(shù)據(jù)挖掘的核心是挖掘數(shù)據(jù)的商業(yè)價(jià)值,也就是我們所談的商業(yè)智能 BI。

數(shù)據(jù)可視化:它可以說是數(shù)據(jù)領(lǐng)域中萬金油的技能,可以讓我們直觀地了解到數(shù)據(jù)分析的結(jié)果。

在這個(gè)專欄中,我們主要學(xué)習(xí)第二個(gè)部分:數(shù)據(jù)挖掘算法,一定程度上,也可以稱為機(jī)器學(xué)習(xí)算法。

一、數(shù)據(jù)挖掘的基本流程

數(shù)據(jù)挖掘的過程可以分成以下 6 個(gè)步驟:

商業(yè)理解:數(shù)據(jù)挖掘不是我們的目的,我們的目的是更好地幫助業(yè)務(wù),所以第一步我們要從商業(yè)的角度理解項(xiàng)目需求,在這個(gè)基礎(chǔ)上,再對(duì)數(shù)據(jù)挖掘的目標(biāo)進(jìn)行定義。

數(shù)據(jù)理解:嘗試收集部分?jǐn)?shù)據(jù),然后對(duì)數(shù)據(jù)進(jìn)行探索,包括數(shù)據(jù)描述、數(shù)據(jù)質(zhì)量驗(yàn)證等。這有助于你對(duì)收集的數(shù)據(jù)有個(gè)初步的認(rèn)知。

數(shù)據(jù)準(zhǔn)備:開始收集數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行清洗、數(shù)據(jù)集成等操作,完成數(shù)據(jù)挖掘前的準(zhǔn)備工作。

模型建立:選擇和應(yīng)用各種數(shù)據(jù)挖掘模型,并進(jìn)行優(yōu)化,以便得到更好的分類結(jié)果。

模型評(píng)估:對(duì)模型進(jìn)行評(píng)價(jià),并檢查構(gòu)建模型的每個(gè)步驟,確認(rèn)模型是否實(shí)現(xiàn)了預(yù)定的商業(yè)目標(biāo)。

上線發(fā)布:模型的作用是從數(shù)據(jù)中找到金礦,也就是我們所說的“知識(shí)”,獲得的知識(shí)需要轉(zhuǎn)化成用戶可以使用的方式,呈現(xiàn)的形式可以是一份報(bào)告,也可以是實(shí)現(xiàn)一個(gè)比較復(fù)雜的、可重復(fù)的數(shù)據(jù)挖掘過程。數(shù)據(jù)挖掘結(jié)果如果是日常運(yùn)營的一部分,那么后續(xù)的監(jiān)控和維護(hù)就會(huì)變得重要。

簡易版

二、算法分類

2.1 按照不同的目的,將常見的算法分成如下幾類:

分類算法:k-近鄰算法(KNN)、決策樹(ID3,C4.5,CART)、樸素貝葉斯(Naive Bayes)、隨機(jī)森林、邏輯回歸、SVM、Adaboost、CART

回歸算法:線性回歸、嶺回歸

聚類算法:K-Means、EM

關(guān)聯(lián)分析:Apriori

連接分析:PageRank

2.2 也可以分成:監(jiān)督學(xué)習(xí)(supervised learning)、無監(jiān)督學(xué)習(xí)(unsupervised learning)。

在具體介紹前,先簡述一下數(shù)據(jù)集的構(gòu)成,即:特征值 + 目標(biāo)值;但有些數(shù)據(jù)集是可以沒有目標(biāo)值的。

根據(jù)有無目標(biāo)值,就可以分為:監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)。

監(jiān)督學(xué)習(xí),輸入數(shù)據(jù)是由輸入特征值和目標(biāo)值所組成。輸出可以是一個(gè)連續(xù)的值(稱為回歸),或是輸出是有限個(gè)離散值(稱為分類)。

分類:k-近鄰算法、貝葉斯分類、決策樹與隨機(jī)森林、邏輯回歸 等;

回歸:線性回歸、嶺回歸 等;

無監(jiān)督學(xué)習(xí),輸入數(shù)據(jù)僅是由特征值所組成;如:聚類 k-means 等。

三、特征工程

在正式介紹特征工程前,先來看看以下幾個(gè)問題:

Q1:為什么需要特征工程(Feature Engineering)?

業(yè)界廣泛流傳,數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個(gè)上限而已。

Q2:什么是特征工程?

特征工程,是使用專業(yè)背景知識(shí)和技巧處理數(shù)據(jù),使得特征能在機(jī)器學(xué)習(xí)算法上發(fā)揮更好的作用的過程。Q3:特征工程的位置與數(shù)據(jù)比較

  • pandas:數(shù)據(jù)清洗、數(shù)據(jù)處理;
  • sklearn:對(duì)于特征的處理提供了強(qiáng)大的接口。

Q4:特征工程主要包含的內(nèi)容

特征抽取、特征預(yù)處理、特征降維;

在正式介紹特征工程之前,先來簡單介紹下數(shù)據(jù)集:

3.1 可用數(shù)據(jù)集

Kaggle網(wǎng)址:https://www.kaggle.com/datasets

  • 特點(diǎn):大數(shù)據(jù)競賽平臺(tái)、數(shù)據(jù)量巨大;

UCI數(shù)據(jù)集網(wǎng)址:http://archive.ics.uci.edu/ml/

  • 特點(diǎn):收錄了360個(gè)數(shù)據(jù)集,覆蓋科學(xué)、生活、經(jīng)濟(jì)等領(lǐng)域,數(shù)據(jù)量幾十萬;

scikit-learn網(wǎng)址:https://scikit-learn.org/stable/datasets/index.html#datasets

  • 特點(diǎn):數(shù)據(jù)量較小、方便學(xué)習(xí);

......

3.1.1 Scikit-learn 工具介紹

Python語言的機(jī)器學(xué)習(xí)工具,包括許多知名的機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn),文檔完善,容易上手,豐富的API。

# 安裝包 pip install Scikit-learn

包含內(nèi)容:

3.1.2 獲取sklearn自帶的數(shù)據(jù)集API

3.1.3 劃分?jǐn)?shù)據(jù)集

數(shù)據(jù)集會(huì)劃分為兩個(gè)部分:

  • 訓(xùn)練數(shù)據(jù):用于訓(xùn)練,構(gòu)建模型;
  • 測試數(shù)據(jù):在模型檢驗(yàn)時(shí)使用,用于評(píng)估模型是否有效;

劃分比例:測試集一般在20%-30%,不傳參,默認(rèn)25%;

API剖析

數(shù)據(jù)集劃分案例

本篇,先寫到這里吧!下一篇:特征工程介紹;

總結(jié)

以上是生活随笔為你收集整理的数据挖掘算法_算法篇(01) 数据挖掘算法初探的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。