當前位置：首頁 > 编程语言 > python >内容正文

python

python数据分析与应用

發布時間：2025/3/8 python 20 豆豆

生活随笔收集整理的這篇文章主要介紹了 python数据分析与应用小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

python數據分析與應用筆記

使用sklearn構建模型

1.使用sklearn轉換器處理數據

import numpy as np from sklearn.datasets import load_breast_cancer from sklearn.preprocessing import MinMaxScaler #該函數時對數據做標準化處理 from sklearn.decomposition import PCA #該函數時對數據進行降維處理 from sklearn.model_selection import train_test_split #該函數是對數據做訓練集和測試集的劃分 cancer = load_breast_cancer() #將數據集賦值給cancer變量 cancer_data = cancer['data'] #提取數據集中的數據 cancer_target = cancer['target'] #提取數據集中的標簽 cancer_names = cancer['feature_names'] #查看特征數目 cancer_desc = cancer['DESCR']#劃分訓練集和測試集，其中20%的作為測試集 cancer_train_data,cancer_test_data,cancer_train_target,cancer_test_target = train_test_split(cancer_data,cancer_target,test_size = 0.2,random_state = 42) scaler = MinMaxScaler().fit(cancer_train_data) #生成規則 # 將規則應用于訓練集和測試集 cancer_trainScaler = scaler.transform(cancer_train_data) cancer_testScaler = scaler.transform(cancer_test_data) #構建pca降維模型 pca_model = PCA(n_components = 10).fit(cancer_trainScaler) #將降維模型應用于標準化之后的訓練數據和測試數據 cancer_trainPca = pca_model.transform(cancer_trainScaler) cancer_testPca = pca_model.transform(cancer_testScaler)print('降維前訓練數據的形狀：',cancer_trainScaler.shape) print('降維后訓練數據的形狀：',cancer_trainPca.shape) print('降維前測試數據的形狀：',cancer_testScaler.shape) print('降維后測試數據的形狀：',cancer_testPca.shape) 降維前訓練數據的形狀： (455, 30) 降維后訓練數據的形狀： (455, 10) 降維前測試數據的形狀： (114, 30) 降維后測試數據的形狀： (114, 10)

任務：使用sklearn實現數據處理和降維操作

from sklearn.datasets import load_boston from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA boston = load_boston() boston_data = boston['data'] boston_target = boston['target'] boston_names = boston['feature_names'] boston_train_data,boston_test_data,boston_train_target,boston_test_target = train_test_split(boston_data,boston_target,test_size = 0.2,random_state = 42) stdScale = StandardScaler().fit(boston_train_data) boston_trainScaler = stdScale.transform(boston_train_data) boston_testScaler = stdScale.transform(boston_test_data)pca_model = PCA(n_components = 5).fit(boston_trainScaler) boston_trainPca = pca_model.transform(boston_trainScaler) boston_testPca = pca_model.transform(boston_testScaler)

2.構建并評價聚類模型

常用的聚類算法如表所示：

sklearn常用的聚類算法模塊cluster提供的聚類算法及其適用范圍如圖：

import pandas as pd from sklearn.manifold import TSNE #TSNE函數可實現多維數據的可視化展現 import matplotlib.pyplot as plt from sklearn.datasets import load_iris from sklearn.preprocessing import MinMaxScaler from sklearn.cluster import KMeans iris = load_iris() iris_data = iris['data'] iris_target = iris['target'] iris_names = iris['feature_names'] scale = MinMaxScaler().fit(iris_data) #構建規則 iris_dataScale = scale.transform(iris_data) #將規則應用于數據 kmeans = KMeans(n_clusters = 3,random_state = 123).fit(iris_dataScale) #構建并訓練聚類模型 result = kmeans.predict([[1.5,1.5,1.5,1.5]]) #用模型進行預測tsne = TSNE(n_components = 2,init = 'random',random_state=177).fit(iris_data) #使用TSNE對數據進行降維，降成兩維 df = pd.DataFrame(tsne.embedding_) #將原始數據轉化為DataFrame df['labels']=kmeans.labels_ #將聚類結果存儲進df數據集df1 = df[df['labels']==0] df2 = df[df['labels']==1] df3 = df[df['labels']==2]fig = plt.figure(figsize=(9,6)) plt.plot(df1[0],df1[1],'bo',df2[0],df2[1],'r*',df3[0],df3[1],'gD') #plt.axis([-60,60,-80,80]) plt.savefig('聚類結果.png') plt.show() # print(df) # print(df1) # print(kmeans.labels_) print(iris_names)

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

評價聚類模型

標準是：組內相似性越大，組間差別越大，其聚類效果越好
sklearn 的metrics模塊提供的聚類模型評價指標有：

使用FMI評級法去評價K-Means聚類模型

from sklearn.metrics import fowlkes_mallows_score for i in range(2,7):kmeans = KMeans(n_clusters = i,random_state = 123).fit(iris_data) score = fowlkes_mallows_score(iris_target,kmeans.labels_)print('iris數據聚%d類FMI評價分值為：%f'%(i,score)) iris數據聚2類FMI評價分值為：0.750473 iris數據聚3類FMI評價分值為：0.820808 iris數據聚4類FMI評價分值為：0.753970 iris數據聚5類FMI評價分值為：0.725483 iris數據聚6類FMI評價分值為：0.600691

使用輪廓系數評價法

from sklearn.metrics import silhouette_score import matplotlib.pyplot as plt silhouettteScore = [] for i in range(2,15):kmeans = KMeans(n_clusters = i,random_state = 123).fit(iris_data) score = silhouette_score(iris_data,kmeans.labels_)silhouettteScore.append(score) plt.figure(figsize=(10,6)) plt.plot(range(2,15),silhouettteScore,linewidth = 1.5,linestyle = '-') plt.show()

使用Calinski-Harabasz指數評價K-Means聚類模型

from sklearn.metrics import calinski_harabaz_score for i in range(2,7):kmeans = KMeans(n_clusters = i,random_state = 123).fit(iris_data) score = calinski_harabaz_score(iris_data,kmeans.labels_)print('iris數據聚%d類calinski_harabaz指數為：%f'%(i,score)) iris數據聚2類calinski_harabaz指數為：513.303843 iris數據聚3類calinski_harabaz指數為：560.399924 iris數據聚4類calinski_harabaz指數為：529.120719 iris數據聚5類calinski_harabaz指數為：494.094382 iris數據聚6類calinski_harabaz指數為：474.753604

轉載于:https://www.cnblogs.com/LouieZhang/p/9164302.html

總結

以上是生活随笔為你收集整理的python数据分析与应用的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：安卓线性布局LinearLayout
下一篇： websocket python爬虫_p