机器学习-概述01
機器學習的概述
- 什么是機器學習
- 機器學習是從數(shù)據(jù)中自動分析獲得規(guī)律(模型),并利用規(guī)律對未知數(shù)據(jù)進行預測。
- 為什么需要機器學習
- 解放生產(chǎn)力: 智能客戶 — 不知疲倦進行24小時作業(yè)
- 解決專業(yè)問題: ET醫(yī)療 ---- 幫助看病
- 提供社會便利 : 如杭州的城市大腦
- 機器學習在各領域的價值
- 領域:醫(yī)療,航空,教育,物流,電商…
- 目的: 讓機器學習程序替換手動的步驟,減少企業(yè)的成本也提高企業(yè)的效率
- 例子: 汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄給有這種喜好的客戶手中,從而大大增加商業(yè)機會等。
數(shù)據(jù)集的構(gòu)成
-
從歷史數(shù)據(jù)當中獲得規(guī)律?這些歷史數(shù)據(jù)是怎樣的格式?
- 機器學習的數(shù)據(jù):一般是文件 csv excel 等
- 因為數(shù)據(jù)庫存在性能瓶頸,讀取速度限制,格式不太符合機器學習要求數(shù)據(jù)的格式等
-
pandas/numpy:讀取工具
-
特征值+目標值
序號 顏色 形狀 重量 材料 類別
1 紅 長方形 50 鐵 A
2 黃 圓形 20 銅 B
3 白 橢圓形 10 鋁 C
4 綠 正方形 5 塑料 D
5 青 三角形 1 塑料 D
橫著的一行叫數(shù)據(jù)樣本
如: 1 紅 長方形 50 鐵
豎著的每一列叫特征值
如:顏色 形狀 重量 材料
想要的分類結(jié)果叫 目標值
如:類別 A,B,C,D 有4個目標值
特征工程直接影響預測結(jié)果
數(shù)據(jù)集中對特征的處理:
pandas:一個數(shù)據(jù)讀取非常方便以及基本處理格式的工具
- dataFrame: 缺失值,數(shù)據(jù)轉(zhuǎn)換,重復值(不需要去重)
sklearn:對于特征的處理提供了強大的接口
總結(jié)
- 上一篇: 数据分析学习03-pandas
- 下一篇: 机器学习-特征抽取02