AutoML 前瞻与实践 ---- AutoML 简介
文章大綱
- 00 -- 簡(jiǎn)介
- 研究動(dòng)機(jī)
- 意義和作用
- 現(xiàn)有AutoML 平臺(tái)產(chǎn)品
- autoML 前景展望
- AutoML OpenSource Tool 趨勢(shì)與排名
- 參考文獻(xiàn)
- autoML系列文章目錄
- 論文合集
- 書(shū)籍
00 – 簡(jiǎn)介
機(jī)器學(xué)習(xí)的應(yīng)用需要大量的人工干預(yù),這些人工干預(yù)表現(xiàn)在:特征提取、模型選擇、參數(shù)調(diào)節(jié)等機(jī)器學(xué)習(xí)的各個(gè)方面。AutoML視圖將這些與特征、模型、優(yōu)化、評(píng)價(jià)有關(guān)的重要步驟進(jìn)行自動(dòng)化地學(xué)習(xí),使得機(jī)器學(xué)習(xí)模型無(wú)需人工干預(yù)即可被應(yīng)用。
2012年,AlexNet為了充分利用多個(gè)GPU的算力,創(chuàng)新性地將深度神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)成兩部分,使網(wǎng)絡(luò)可以在兩個(gè)GPU上進(jìn)行訓(xùn)練。2013年,ZFNet又進(jìn)一步解決了Feature Map可視化的問(wèn)題,將深度神經(jīng)網(wǎng)絡(luò)的理解推進(jìn)了一大步。2014年,VGGNet通過(guò)進(jìn)一步增加網(wǎng)絡(luò)的深度而獲得了更高的準(zhǔn)確率;同年,GoogLeNet的發(fā)明引入了重復(fù)模塊Inception Model,使得準(zhǔn)確率進(jìn)一步提升。而2015年ResNet將重復(fù)模塊的思想更深層次地發(fā)展,從而獲得了超越人類(lèi)水平的分辨能力。這時(shí),由于深度神經(jīng)網(wǎng)絡(luò)層數(shù)的不斷加深,需要訓(xùn)練的參數(shù)過(guò)于龐大,為了在不犧牲精度的同時(shí)減少需要訓(xùn)練的參數(shù)個(gè)數(shù),2017年DenceNet應(yīng)運(yùn)而生。
隨著深度神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展,各種模型和新穎模塊的不斷發(fā)明利用,人們逐漸意識(shí)到開(kāi)發(fā)一種新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)越來(lái)越費(fèi)時(shí)費(fèi)力,為什么不讓機(jī)器自己在不斷的學(xué)習(xí)過(guò)程中創(chuàng)造出新的神經(jīng)網(wǎng)絡(luò)呢?出于這個(gè)構(gòu)思,2017年Google推出了AutoML—一個(gè)能自主設(shè)計(jì)深度神經(jīng)網(wǎng)絡(luò)的AI網(wǎng)絡(luò),緊接著在2018年1月發(fā)布第一個(gè)產(chǎn)品,并將它作為云服務(wù)開(kāi)放出來(lái),稱(chēng)為Cloud AutoML。自此,人工智能又有了更進(jìn)一步的發(fā)展,人們開(kāi)始探索如何利用已有的機(jī)器學(xué)習(xí)知識(shí)和神經(jīng)網(wǎng)絡(luò)框架來(lái)讓人工智能自主搭建適合業(yè)務(wù)場(chǎng)景的網(wǎng)絡(luò),人工智能的另一扇大門(mén)被打開(kāi)。
研究動(dòng)機(jī)
(1)傳統(tǒng)機(jī)器學(xué)習(xí)是一個(gè)煩瑣且耗時(shí)的過(guò)程
傳統(tǒng)的AI模型訓(xùn)練往往要經(jīng)歷特征分析、模型選擇、調(diào)參、評(píng)估等步驟,這些步驟需要經(jīng)歷數(shù)月的時(shí)間,如果完全沒(méi)經(jīng)驗(yàn),時(shí)間會(huì)更長(zhǎng)。AutoML雖然也需要經(jīng)歷這些步驟,但是通過(guò)自動(dòng)化的方式,可以減少這些步驟的時(shí)間。選擇怎樣的參數(shù),被選擇的參數(shù)是否有價(jià)值或者模型有沒(méi)有問(wèn)題,如何優(yōu)化模型,這些步驟在從前是需要依靠個(gè)人的經(jīng)驗(yàn)、知識(shí)或者數(shù)學(xué)方法來(lái)判斷的。而AutoML可以完全不用依賴(lài)經(jīng)驗(yàn),而是靠數(shù)學(xué)方法,由完整的數(shù)學(xué)推理的方式來(lái)證明。通過(guò)數(shù)據(jù)的分布和模型的性能,AutoML會(huì)不斷評(píng)估最優(yōu)解的分布區(qū)間并對(duì)這個(gè)區(qū)間再次采樣。所以可以在整個(gè)模型訓(xùn)練的過(guò)程中縮短時(shí)間,提升模型訓(xùn)練過(guò)程的效率。
(2)傳統(tǒng)機(jī)器學(xué)習(xí)有一定難度,準(zhǔn)入門(mén)檻高
模型訓(xùn)練的難度使得很多初學(xué)者望而卻步,即使是數(shù)據(jù)專(zhuān)家也經(jīng)常抱怨訓(xùn)練過(guò)程是多么令人沮喪和變化無(wú)常。沒(méi)有經(jīng)過(guò)一定時(shí)間的學(xué)習(xí),用戶(hù)很難掌握模型選擇、參數(shù)調(diào)整等步驟。
AutoML可以降低使用機(jī)器學(xué)習(xí)的門(mén)檻,它作為一個(gè)新的AI研究方法,將機(jī)器學(xué)習(xí)封裝成云端產(chǎn)品,用戶(hù)只需提供數(shù)據(jù),系統(tǒng)即可完成深度學(xué)習(xí)模型的自動(dòng)構(gòu)建,從而實(shí)現(xiàn)自動(dòng)化機(jī)器學(xué)習(xí)。
AutoML將會(huì)成為機(jī)器學(xué)習(xí)發(fā)展的最終形態(tài),即機(jī)器自己完成學(xué)習(xí)任務(wù),這樣基于計(jì)算機(jī)強(qiáng)大計(jì)算能力所獲得的模型將優(yōu)于人類(lèi)對(duì)它定義的模型。從使用的角度來(lái)講,必定會(huì)有更多非專(zhuān)業(yè)領(lǐng)域的人受益于A(yíng)utoML的發(fā)展。
意義和作用
21世紀(jì)是一個(gè)信息的時(shí)代,各行各業(yè)都面臨著一個(gè)同樣的問(wèn)題,那就是需要從大量的信息中篩選出有用的信息并將其轉(zhuǎn)化為價(jià)值。隨著機(jī)器學(xué)習(xí)2.0的提出,自動(dòng)化成為了未來(lái)機(jī)器學(xué)習(xí)發(fā)展的一個(gè)方向。各行各業(yè)都涉及機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)已經(jīng)融入我們生活的方方面面,比如金融、教育、醫(yī)療、信息產(chǎn)業(yè)等領(lǐng)域。
AutoML帶來(lái)的不僅僅是自動(dòng)化的算法選擇、超參數(shù)優(yōu)化和神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索,它還涉及機(jī)器學(xué)習(xí)過(guò)程的每一步。從數(shù)據(jù)預(yù)處理方面,如數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)校驗(yàn)、數(shù)據(jù)分割,到模型方面,如超參數(shù)優(yōu)化、模型選擇、集成學(xué)習(xí)、自動(dòng)化特征工程等,都可以通過(guò)AutoML來(lái)完成,從而減少算法工程師的工作量,使他們的工作效率得到進(jìn)一步提升。
(1)AutoML解決了人工智能行業(yè)人才缺口的瓶頸
對(duì)于急速發(fā)展的人工智能領(lǐng)域來(lái)說(shuō),人才的培養(yǎng)顯得有些不足。人工智能的發(fā)展時(shí)時(shí)刻刻都在變化,而培養(yǎng)一批該行業(yè)的專(zhuān)業(yè)人員通常需要幾年的時(shí)間。以青年人群為例,從上大學(xué)開(kāi)始,學(xué)校才會(huì)根據(jù)專(zhuān)業(yè)對(duì)他們進(jìn)行培養(yǎng)。如果選擇計(jì)算機(jī)專(zhuān)業(yè),本科教育通常只會(huì)讓他們了解到計(jì)算機(jī)的基礎(chǔ)知識(shí),使其具備基本的編程能力;通常到研究生階段,才會(huì)接觸到機(jī)器學(xué)習(xí)等復(fù)雜的人工智能。這就需要至少6年的時(shí)間才能培養(yǎng)出一批機(jī)器學(xué)習(xí)領(lǐng)域的從業(yè)人員。 這樣長(zhǎng)的人才培養(yǎng)周期是無(wú)法跟上人工智能行業(yè)快速發(fā)展的腳步的,而AutoML就很好地解決了這一問(wèn)題。AutoML可以提供自動(dòng)化的服務(wù),對(duì)于曾經(jīng)需要人工參與的數(shù)據(jù)處理、特征處理、特征選擇、模型選擇、模型參數(shù)的配置、模型訓(xùn)練和評(píng)估等方面,實(shí)現(xiàn)了全自動(dòng),僅憑機(jī)器就可以獨(dú)立完成這一系列工作,不需要人工干預(yù),從而減少了人力資源的浪費(fèi),解決了人才緊缺的問(wèn)題。
但是,這就涉及另一個(gè)問(wèn)題了,既然機(jī)器可以完成大部分的工作,是否會(huì)造成相關(guān)專(zhuān)業(yè)人員的失業(yè)問(wèn)題呢?其實(shí),這個(gè)答案必然是否定的,AutoML可以解決人才緊缺的狀況,但是并不代表它能取代專(zhuān)業(yè)人士。現(xiàn)有的AutoML平臺(tái)雖然可以完成這些步驟的自動(dòng)化處理,但是其中的規(guī)則仍然需要人工設(shè)定,也就是說(shuō),專(zhuān)業(yè)人士并不會(huì)面臨失業(yè)的困境,而是要做更高端的工作。
(2)AutoML可以降低機(jī)器學(xué)習(xí)的門(mén)檻,使AI平民化
前文已經(jīng)提到過(guò)很多次,機(jī)器學(xué)習(xí)的自動(dòng)化可以降低機(jī)器學(xué)習(xí)的入門(mén)門(mén)檻。無(wú)論是機(jī)器學(xué)習(xí)新人、機(jī)器學(xué)習(xí)行業(yè)從業(yè)者,還是機(jī)器學(xué)習(xí)行業(yè)專(zhuān)家,都可以很好地適應(yīng)AutoML,并使用它提供的服務(wù)。
(3)AutoML可以擴(kuò)大AI應(yīng)用普及率,促進(jìn)傳統(tǒng)行業(yè)變革
AutoML作為這類(lèi)問(wèn)題的解決方案,使得越來(lái)越多的科技企業(yè)開(kāi)始研發(fā)AutoML平臺(tái),目的就是為不懂技術(shù)的傳統(tǒng)企業(yè)提供使用AutoML技術(shù)的捷徑,從而達(dá)到人人皆可用AI的局面。AutoML作為一個(gè)新的AI研究方法,擴(kuò)展了AI研究能夠到達(dá)的邊界,然后又在其上構(gòu)建了AutoML的應(yīng)用平臺(tái)及產(chǎn)品,讓AI的應(yīng)用得到了較為有效的擴(kuò)展,讓更多行業(yè)都可以用AI解決現(xiàn)實(shí)世界中的問(wèn)題。
現(xiàn)有AutoML 平臺(tái)產(chǎn)品
- Cloud AutoML(https://cloud.google.com/automl)
- 百度EasyDL
寫(xiě) 這篇文章的主要?jiǎng)右蛞彩且驗(yàn)榘l(fā)現(xiàn)了,百度目前全方位對(duì)autoML 的轉(zhuǎn)型
- 探智立方DarwinML
- 第四范式AI Prophet AutoML
- 智易科技
- 阿里云PAI
當(dāng)然,作為autoML 的初級(jí)產(chǎn)品,很多產(chǎn)品的形態(tài)是拖拽式建模,或者叫可視化建模,這里本人曾經(jīng)做過(guò)一個(gè)整體的調(diào)研對(duì)比:
- 可視化與拖拽式建模
autoML 前景展望
為了解決上述問(wèn)題而誕生了AutoML,AutoML試圖將這些特征工程、模型選擇以及參數(shù)優(yōu)化等重要步驟進(jìn)行自動(dòng)化學(xué)習(xí),使得機(jī)器學(xué)習(xí)模型無(wú)需人工參與即可被應(yīng)用。
從前節(jié)可見(jiàn),機(jī)器學(xué)習(xí)的泛化受到了諸多條件的制約,此時(shí)急需一種更加通用的方案來(lái)解決上述問(wèn)題,這就產(chǎn)生了AutoML。AutoML是一個(gè)將從根本上改變基于機(jī)器學(xué)習(xí)解決方案現(xiàn)狀的方案。
AutoML是一個(gè)控制神經(jīng)網(wǎng)絡(luò)提出一個(gè)可以在特定任務(wù)上訓(xùn)練和評(píng)測(cè)性能的子模型架構(gòu),測(cè)試的結(jié)果會(huì)反饋給控制器,讓控制器知道下一輪如何改進(jìn)自己的模型。自動(dòng)機(jī)器學(xué)習(xí)集中在以下兩個(gè)方面:數(shù)據(jù)采集和模型預(yù)測(cè)。在這兩個(gè)階段之間所有發(fā)生的步驟將被自動(dòng)機(jī)器學(xué)習(xí)抽象出來(lái)。實(shí)際上,用戶(hù)只需要提供自己的數(shù)據(jù)集、標(biāo)簽并按下一個(gè)按鈕來(lái)生成一個(gè)經(jīng)過(guò)全面訓(xùn)練的和優(yōu)化預(yù)測(cè)的模型。大多數(shù)平臺(tái)都提示用戶(hù)來(lái)上傳數(shù)據(jù)集,然后對(duì)類(lèi)別進(jìn)行標(biāo)記。之后,在數(shù)據(jù)預(yù)處理、模型選擇、特征工程和超參數(shù)優(yōu)化中涉及的大部分步驟將在后臺(tái)進(jìn)行處理。這種方法極大地改變了在訓(xùn)練機(jī)器學(xué)習(xí)模型中涉及的傳統(tǒng)工作流。
AutoML完全改變了整個(gè)機(jī)器學(xué)習(xí)領(lǐng)域的游戲規(guī)則,因?yàn)閷?duì)于許多應(yīng)用程序,不需要專(zhuān)業(yè)技能和知識(shí)。許多公司只需要深度網(wǎng)絡(luò)來(lái)完成更簡(jiǎn)單的任務(wù),例如圖像分類(lèi)。那么他們并不需要雇用一些人工智能專(zhuān)家,他們只需要能夠數(shù)據(jù)組織好,然后交由AutoML來(lái)完成即可。
AutoML OpenSource Tool 趨勢(shì)與排名
小技巧:使用一下兩個(gè)方式進(jìn)行搜索:
- https://github.com/topics/automl
- https://awesomeopensource.com/
當(dāng)使用github 時(shí)候可以在鏈接 topics 后面輸入相對(duì)應(yīng)的關(guān)鍵詞,從而得到這個(gè)領(lǐng)域關(guān)鍵詞下面opensource 組件的排名
-
Ray ? 16,874
An open source framework that provides a simple, universal API for building distributed applications. Ray is packaged with RLlib, a scalable reinforcement learning library, and Tune, a scalable hyperparameter tuning library. -
Nni ? 10,085
An open source AutoML toolkit for automate machine learning lifecycle, including feature engineering, neural architecture search, model compression and hyper-parameter tuning. -
Tpot ? 8,168
A Python Automated Machine Learning tool that optimizes machine learning pipelines using genetic programming. -
Autokeras ? 8,077
AutoML library for deep learning -
Featuretools ? 5,666
An open source python library for automated feature engineering -
Auto Sklearn ? 5,579
Automated Machine Learning with scikit-learn -
H2o 3 ? 5,474
H2O is an Open Source, Distributed, Fast & Scalable Machine Learning Platform: Deep Learning, Gradient Boosting (GBM) & XGBoost, Random Forest, Generalized Linear Modeling (GLM with Elastic Net), K-Means, PCA, Generalized Additive Models (GAM), RuleFit, Support Vector Machine (SVM), Stacked Ensembles, Automatic Machine Learning (AutoML), etc. -
Automl ? 4,477
Google Brain AutoML
參考文獻(xiàn)
-
https://github.com/MachineLP/CodeFun/blob/master/05-auto_ml_dl/01-auto_ml/01-%E8%87%AA%E5%8A%A8%E5%8C%96%E7%89%B9%E5%BE%81%E5%B7%A5%E7%A8%8B.md
-
https://bbs.huaweicloud.com/blogs/134113
-
https://www.jiqizhixin.com/articles/2018-11-07-18
-
一文盤(pán)點(diǎn)AutoML庫(kù)(附PPT等鏈接)
autoML系列文章目錄
- 可視化與拖拽式建模
- 如何做基于spark 的 自動(dòng)化機(jī)器學(xué)習(xí)?
- H2O Sparkling Water簡(jiǎn)介
論文合集
- https://github.com/hibayesian/awesome-automl-papers
書(shū)籍
《深入理解AutoML和AutoDL:構(gòu)建自動(dòng)化機(jī)器學(xué)習(xí)與深度學(xué)習(xí)平臺(tái)》
-
自動(dòng)機(jī)器學(xué)習(xí)(AutoML):方法、系統(tǒng)與挑戰(zhàn)
參考網(wǎng)站: -
https://www.automl.org/
-
https://www.automl.org/wp-content/uploads/2019/05/AutoML_Book.pdf
總結(jié)
以上是生活随笔為你收集整理的AutoML 前瞻与实践 ---- AutoML 简介的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: pms输变电状态监测_输变电设备状态监测
- 下一篇: 【优化求解-单目标求解】基于黑猩猩算法求