當前位置：首頁 > 编程语言 > python >内容正文

python

Python数据分析学习

發布時間：2023/12/10 python 28 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python数据分析学习小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Python skit-learn 學習

import pandas as pd from collections import OrderedDict # 先構建一個數據集 examDict = {'LearnTime':[0.05,0.75,1.00,1.25,1.50,1.75,1.75,2.00,2.25,2.50,2.75,3.00,3.25,3.50,4.00,4.25,4.50,4.75,5.00,5.50],'Soce': [10,22,13,43,20,22,23,50,48,55,75,63,73,81,76,64,82,90,93,100]} # 轉換成有序字典 examOrderDict = OrderedDict(examDict)# 通過有序字典構建數據框pd.DataFrame() examDf = pd.DataFrame(examOrderDict) print(examDf) print(examDf.head()) # 提取特征 exam_X = examDf.loc[:,'LearnTime'] exam_y = examDf.loc[:,'Soce'] print("exam_X") print(exam_X) print("exam_y") print(exam_y)# 繪制散點圖 import matplotlib.pyplot as plt# 使用scatter函數實現散點圖框架 plt.scatter(exam_X,exam_y,edgecolors='b',label = 'exam data') # x，y 軸標簽屬性 plt.xlabel('Hours') plt.ylabel('Score') # plt.show()# 建立數據和測試數據 # 繪制出散點訓練圖 from sklearn.model_selection import train_test_split # 建立train data和 test data，以及訓練數據占比 X_train,X_test,y_train,y_test=train_test_split(exam_X,exam_y,train_size=0.8) # s輸出數據大小 print('原始數據特征',exam_X.shape, ',訓練數據特征','X_train.shape', ',測試數據特征',X_test.shape) print('原水數據標簽',exam_y.shape, ',訓練數據標簽',y_train.shape,',測試數據標簽', y_test.shape) plt.scatter(X_train, y_train, color='b', label='train data') plt.scatter(X_test, y_test, color='red', label='test data') # 添加圖標標簽 plt.legend(loc=2) plt.xlabel('Hours') plt.ylabel('Score') plt.show()

總結：使用train_test_split()函數需要 import sklearn.model_selection

第一個參數是訓練數據

構建無監督學習數據模型
2. 準備raw data數據集，可以使用數據可視化直觀的剔除噪音數據
3. raw data 分配train data 和 test data，一般 test data 只要20%足已
4. 使用train data 建立數據特征model， plt scatter()
5. 使用test data 來檢驗model的精度，可以用使用score（） mean（）來計算精度

總結

以上是生活随笔為你收集整理的Python数据分析学习的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：《侠客行》古诗鉴赏
下一篇： python练习，随机数字函数，循环，