python数据分析与应用
生活随笔
收集整理的這篇文章主要介紹了
python数据分析与应用
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
python數據分析與應用筆記
使用sklearn構建模型
1.使用sklearn轉換器處理數據
import numpy as np from sklearn.datasets import load_breast_cancer from sklearn.preprocessing import MinMaxScaler #該函數時對數據做標準化處理 from sklearn.decomposition import PCA #該函數時對數據進行降維處理 from sklearn.model_selection import train_test_split #該函數是對數據做訓練集和測試集的劃分 cancer = load_breast_cancer() #將數據集賦值給cancer變量 cancer_data = cancer['data'] #提取數據集中的數據 cancer_target = cancer['target'] #提取數據集中的標簽 cancer_names = cancer['feature_names'] #查看特征數目 cancer_desc = cancer['DESCR']#劃分訓練集和測試集,其中20%的作為測試集 cancer_train_data,cancer_test_data,cancer_train_target,cancer_test_target = train_test_split(cancer_data,cancer_target,test_size = 0.2,random_state = 42) scaler = MinMaxScaler().fit(cancer_train_data) #生成規則 # 將規則應用于訓練集和測試集 cancer_trainScaler = scaler.transform(cancer_train_data) cancer_testScaler = scaler.transform(cancer_test_data) #構建pca降維模型 pca_model = PCA(n_components = 10).fit(cancer_trainScaler) #將降維模型應用于標準化之后的訓練數據和測試數據 cancer_trainPca = pca_model.transform(cancer_trainScaler) cancer_testPca = pca_model.transform(cancer_testScaler)print('降維前訓練數據的形狀:',cancer_trainScaler.shape) print('降維后訓練數據的形狀:',cancer_trainPca.shape) print('降維前測試數據的形狀:',cancer_testScaler.shape) print('降維后測試數據的形狀:',cancer_testPca.shape) 降維前訓練數據的形狀: (455, 30) 降維后訓練數據的形狀: (455, 10) 降維前測試數據的形狀: (114, 30) 降維后測試數據的形狀: (114, 10)- 任務:使用sklearn實現數據處理和降維操作
2.構建并評價聚類模型
常用的聚類算法如表所示:
sklearn常用的聚類算法模塊cluster提供的聚類算法及其適用范圍如圖:
評價聚類模型
- 標準是:組內相似性越大,組間差別越大,其聚類效果越好
sklearn 的metrics模塊提供的聚類模型評價指標有:
使用FMI評級法去評價K-Means聚類模型
使用輪廓系數評價法
from sklearn.metrics import silhouette_score import matplotlib.pyplot as plt silhouettteScore = [] for i in range(2,15):kmeans = KMeans(n_clusters = i,random_state = 123).fit(iris_data) score = silhouette_score(iris_data,kmeans.labels_)silhouettteScore.append(score) plt.figure(figsize=(10,6)) plt.plot(range(2,15),silhouettteScore,linewidth = 1.5,linestyle = '-') plt.show()使用Calinski-Harabasz指數評價K-Means聚類模型
from sklearn.metrics import calinski_harabaz_score for i in range(2,7):kmeans = KMeans(n_clusters = i,random_state = 123).fit(iris_data) score = calinski_harabaz_score(iris_data,kmeans.labels_)print('iris數據聚%d類calinski_harabaz指數為:%f'%(i,score)) iris數據聚2類calinski_harabaz指數為:513.303843 iris數據聚3類calinski_harabaz指數為:560.399924 iris數據聚4類calinski_harabaz指數為:529.120719 iris數據聚5類calinski_harabaz指數為:494.094382 iris數據聚6類calinski_harabaz指數為:474.753604轉載于:https://www.cnblogs.com/LouieZhang/p/9164302.html
總結
以上是生活随笔為你收集整理的python数据分析与应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 安卓线性布局LinearLayout
- 下一篇: websocket python爬虫_p