日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

【机器学习PAI实践二】人口普查统计

發布時間:2025/4/5 ChatGpt 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【机器学习PAI实践二】人口普查统计 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

產品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2

一、背景

感謝大家關注玩轉數據系列文章,我們希望通過在阿里云機器學習平臺上提供demo數據并搭建相關的實驗流程的方式來幫助大家學習如何通過算法來挖掘數據中的價值。本系列文章包含詳細的實驗流程以及相關的文檔教程,歡迎大家進入阿里云數加機器學習平臺體驗。實驗案例請在新建實驗頁簽查看,如下圖。

本章作為玩轉數據系列的開篇,先提供一個簡單的案例給大家熱身。通過截取一份人口普查的數據,對學歷和收入進行統計和分析。主要目的是幫助大家學習阿里云機器學習實驗的搭建流程和組件的使用方式。任何關于阿里云機器學習方面的交流歡迎訪問我們的云棲社區公眾號。

二、數據集介紹

數據源: UCI開源數據集Adult
針對美國某區域的一次人口普查結果,共32561條數據。具體字段如下表:

字段名含義類型
age年齡double
workclass工作類型string
fnlwgt序號string
education教育程度string
education_num受教育時間double
maritial_status婚姻狀況string
occupation職業string
relationship關系string
race種族string
sex性別string
capital_gain資本收益string
capital_loss資本損失string
hours_per_week每周工作小時數double
native_country原籍string
income收入string

三、數據探索流程

選中人口統計demo,從模型生成實驗,如下圖:

使用方式:

-用戶通過從左邊列表拖拽組件到試驗區域搭建實驗流程

-在配置區域對每個組件的參數進行設置

1.數據導入

機器學習平臺的底層計算式阿里云分布式計算系統MaxCompute(原名ODPS),所以實驗數據需要先導入到ODPS表里,用戶可以通過讀ODPS表(圖中的數據源-人口統計)組件導入數據。上傳成功后,右鍵組件可以查看數據,如下圖:

2.理解數據

數據導入后就可以對數據進行分析了,整個實現從縱向看分為三個部分。

其中全表統計和數值分布統計是幫助用戶更好的理解一份數據,理解一份數據是符合泊松分布或是高斯分布,連續或是離散的對之后的算法的選擇會有一定幫助(具體的對照關系在之后的文章會詳細介紹)。阿里云機器學習的每個套件都提供了可視化顯示結果的功能,下圖是數值統計的直方圖組件結果,可以清楚地看到每個輸入數值的分布情況。

3.統計不同學歷的人員的收入情況

每個人都想增加收入,都想知道哪些因素對收入的影響最大。這些問題都可以通過提取特征,利用機器學習算法訓練來得到。本文主要目的是簡單介紹一下機器學習平臺的使用方法,這里簡單的針對不同學歷的人員的收入做一下統計。

(1)數據的預處理

我們看到在收入統計的這條線上,數據流入的第一個組件是SQL腳本(如下圖),機器學習平臺提供SQL腳本對于數據進行處理。這里是將string型的income字段轉換成二值型的0和1的形式。0表示年收入在50K以下,1表示年收入在50K以上。這種將文本數據數值化是機器學習特征處理的常用方式,以后會經常用到這種方式。

(2)過濾與映射

這一步主要是通過過濾與映射組件將數據按照學歷分為三部分,分別是博士、碩士和學士。過濾與映射底層是SQL語法,支持where過濾條件,用戶通過在右邊的配置欄填寫過濾條件即可。

(3)統計結果

通過每個百分位組件就可以方便的得到每個分類下的收入比例。下圖是調成折線圖的展示效果,結果中為0的點也就是年收入在50K以下的人群占比例百分之25左右。

結合三個百分位組件就可以得到如下圖結果。

學歷年收入>50K比例
博士75%
碩士57%
學士42%

四、其它

作者微信公眾號:

凡人機器學習

《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的【机器学习PAI实践二】人口普查统计的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。