Azure机器学习模型搭建
Azure機器學習模型搭建
Azure Machine Learning(簡稱“AML”)是微軟在其公有云Azure上推出的基于Web使用的一項機器學習服務,機器學習屬人工智能的一個分支,它技術借助算法讓電腦對大量流動數據集進行識別。這種方式能夠通過歷史數據來預測未來事件和行為,其實現方式明顯優于傳統的商業智能形式。
微軟的目標是簡化使用機器學習的過程,以便于開發人員、業務分析師和數據科學家進行廣泛、便捷地應用。
這款服務的目的在于“將機器學習動力與云計算的簡單性相結合”。
AML目前在微軟的Global Azure云服務平臺提供服務,用戶可以通過站點:https://studio.azureml.net/ 申請免費試用。
實驗步驟:
獲取數據
UCI機器學習數據庫的網址:****http://archive.ics.uci.edu/ml/****
該數據庫是加州大學歐文分校(UniversityofCaliforniaIrvine)提出的用于機器學習的數據庫,這個數據庫目前共有187個數據集,其數目還在不斷增加,UCI數據集是一個常用的標準測試數據集。數據庫不斷更新,是所有學習人工智能、機器學習等都需要用到的數據庫,是看文章、寫論文、測試算法的必備數據集。數據庫種類涉及生活、工程、科學各個領域,記錄數也是從少到多,最多達幾十萬條。
我們使用其中:美國人口普查數據集(****https://archive.ics.uci.edu/ml/datasets/census+income)****的數據,該數據從美國1994年人口普查數據庫抽取而來,可以用來預測居民收入是否超過50K/year。該數據集類變量為年收入是否超過50k,屬性變量包含年齡,工種,學歷,職業,人種等重要信息,
值得一提的是,14個屬性變量中有7個類別型變量,數據集各屬性:其中序號0~13是屬性, 14是類別
數據集局部圖如下圖所示:
現在,用 Microsoft Excel 或任何其他電子表格工具中打開 adult.data 文件,并為其添加網站中屬性列表的詳細信息,這些信息如下列出。注意,其中的一部分屬性值為連續的,因為它們以數值的形式表現,另一部分則為離散的。
****年齡(age)****,連續值
****工作種類(Workclass)****個人(Private), 無限責任公司(Self-emp-not-inc), 有限責任公司(Self-emp-inc), 聯邦政府(Federal-gov), 地方政府( Local-gov), 州政府(State-gov), 無薪人員(Without-pay), 無工作經驗人員(Never-worked)離散值
****序列號(********Fnlwgt********)****連續值
*教育情況(Education)* Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool )離散值
****受教育年限(Education-num)****,連續值
*婚姻狀況(Marital-status)* 已婚(Married-civ-spouse),離婚(Divorced),未婚(Never-married),離異(Separated),喪偶(Widowed),已婚配偶缺席(Married-spouse-absent)、 再婚(Married-AF-spouse),離散值
****職業情況(Occupation)****技術支持(Tech-support),維修工藝(Craft-repair),服務行業(Other-service)、 銷售(Sales)、 執行管理(Exec-managerial)、 專業教授(Prof-specialty),清潔工(Handlers-cleaners),機床操控人員(Machine-op-inspct)、 行政文員(Adm-clerical)、 養殖漁業(Farming-fishing)、 運輸行業(Transport-moving),私人房屋服務(Priv-house-serv),保衛工作(Protective-serv), 武裝部隊(Armed-Forces)職業情況,離散值
****親屬情況(Relationship)****妻子(Wife),子女(Own-child),丈夫(Husband),外來人員(Not-in-family)、 其他親戚(Other-relative)、 未婚(Unmarried),離散值
****種族膚色(Race)****白人(White),亞洲太平洋島民(Asian-Pac-Islander),阿米爾-印度-愛斯基摩人(Amer-Indian-Eskimo)、 其他(Other),黑人(Black)離散值
****性別(Sex )****男性(Female),女性( Male),離散值
****資本盈利(Capital-gain )****連續值
*資本損失(Capital-loss)* ,連續值
*每周工作時間(Hours-per-week* ),連續值
****國籍(Native-country )****美國(United-States)、 柬埔寨(Cambodia)、 英國(England),波多黎各(Puerto-Rico),加拿大(Canada),德國(Germany),美國周邊地區(關島-美屬維爾京群島等)(Outlying-US(Guam-USVI-etc)),印度(India)、 日本(Japan)、 希臘(Greece)、 美國南部(South)、 中國(China)、 古巴(Cuba)、 伊朗(Iran)、 洪都拉斯(Honduras),菲律賓(Philippines)、 意大利(Italy)、 波蘭(Poland)、 牙買加(Jamaica)、 越南(Vietnam)、 墨西哥(Mexico)、 葡萄牙(Portugal)、 愛爾蘭(Ireland)、 法國(France)、多米尼加共和國(Dominican-Republic)、 老撾(Laos)、 厄瓜多爾(Ecuador)、 臺灣(Taiwan)、 海地(Haiti)、 哥倫比亞(Columbia)、 匈牙利(Hungary)、 危地馬拉(Guatemala)、 尼加拉瓜(Nicaragua)、蘇格蘭(Scotland)、 泰國(Thailand)、 南斯拉夫(Yugoslavia),薩爾瓦多(El-Salvador)、 特立尼達和多巴哥(Trinadad&Tobago)、 秘魯(Peru),香港(Hong),荷蘭(Holland-Netherlands)離散值
*收入 (incom)* >50K, <=50K ,離散值
總括一下數據集的數據特征:
1,十四個與結果相關的唯一屬性
2,數據集的實例數為 48,842
3,預測任務是確定用戶是否一年收入超過$50,000美元。
實驗準備
進入官網,點擊Sign In
登陸注冊
點擊左下角的new 選擇DATASET,點擊從本地文件選擇即"FROM LOCAL FILE",上傳本地的數據文件
等待數據加載,完成信息的輸入并點擊簽入按鈕后,您的數據集將異步加載至您的第一個Azure機器學習實驗的工作區中:
創建新的Azure機器學習實驗,創建新的實驗的方法是點擊屏幕左下角的"+NEW"按鈕,選擇"實驗"(EXPERIMENT)>“空白實驗”(Blank Experiment):
開始實驗
選擇Saved Datasets選項下的My Datasets > adult.data.csv,拖拽到Experiment中
分割訓練集,選擇Sample and Split > Split Data,拖拽到Experiment中,將adult.data.csv與Split Data鏈接,并點擊Split Data,將Fraction of rows in firs… 設置為0.8(0.8為訓練集,0.2為測試集,我們后面將用到)
特征工程(略)
確認目標值
選擇訓練模型,選項Train選項中的Train Model,拖拽到Experiment中,同時將Train Model與Split Data鏈接,點擊Train Model>Launch column selector>輸入incom(目標值)
訓練模型
由于我們訓練的模型是有特征值有目標值的監督學習,我們展開"Machine Learning"即機器學習模塊下的"Initialize Model"即初始化模型,展開"Classfication"即分類子模塊。在此實驗中,我們使用"Two-Class Boosted Decision Tree"即雙類提升的決策樹算法。并與Train Model鏈接
模型評分
選擇Score>Score Model,拖拽到Experiment中,同時將Score Model分別與Split Data、Split Data鏈接。
點擊菜單頁下方的RUN,開始訓練
等待模塊中時鐘圖標消失,右擊Score Model>Scored dataset>Visualize查看圖形可視化
incom為實際值,Scired Labels為預測值,Scored Probabilities為預測得分
選擇Machine Learning>Evaluate>Evaluate Model與Score Model鏈接,右擊Evaluate Model選擇RUN,同樣Visualize查看圖形可視化,我們可以看到ROC曲線以及其參數
總結
以上是生活随笔為你收集整理的Azure机器学习模型搭建的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 什么是用户画像?该怎么分析?
- 下一篇: docker学习(四) 配置阿里云镜像加