《构建实时机器学习系统》一1.8 实时机器学习模型的生存期
1.8 實(shí)時(shí)機(jī)器學(xué)習(xí)模型的生存期
進(jìn)行實(shí)時(shí)機(jī)器學(xué)習(xí)開發(fā)必須考慮生存期。生存期是指一個(gè)系統(tǒng)從提出、設(shè)計(jì)、開發(fā)、 測(cè)試到部署運(yùn)用、維護(hù)、更新升級(jí)或退役的整個(gè)過程。若在生存期設(shè)計(jì)上出現(xiàn)了數(shù)據(jù),那么在后面的使用中就會(huì)出現(xiàn)各種各樣的瓶頸阻礙應(yīng)用產(chǎn)生價(jià)值。
從軟件工程的角度上講,開發(fā)實(shí)時(shí)機(jī)器學(xué)習(xí)也遵從構(gòu)思、分析、設(shè)計(jì)、實(shí)現(xiàn)和維護(hù)五個(gè)步驟,這五個(gè)步驟可能會(huì)循環(huán)往復(fù),隨著業(yè)務(wù)的發(fā)展進(jìn)行多次迭代。實(shí)時(shí)機(jī)器學(xué)習(xí)模型的應(yīng)用由于其技術(shù)的特殊性,也具有自己的小型生存期,其中包括數(shù)據(jù)收集、數(shù)據(jù)分析、離線手工建模評(píng)測(cè)、上線自動(dòng)化建模評(píng)測(cè)這四個(gè)方面。如圖1-1所示,離線手工建模評(píng)測(cè)、上線自動(dòng)化建模評(píng)測(cè)這兩個(gè)部分主要是靠監(jiān)督式機(jī)器學(xué)習(xí)。而數(shù)據(jù)分析主要是依靠非監(jiān)督式機(jī)器學(xué)習(xí)和統(tǒng)計(jì)數(shù)據(jù)分析。
值得一提的是,進(jìn)行上面這四個(gè)步驟的前提是機(jī)器學(xué)習(xí)模型能夠給組織和用戶帶來價(jià)值。但是,眾多開發(fā)人員甚至是領(lǐng)導(dǎo)層都不愿意面對(duì)的一個(gè)問題是:我的模型真的有用嗎?
對(duì)于一些非機(jī)器學(xué)習(xí)大數(shù)據(jù)類的初創(chuàng)公司來說,在用戶數(shù)量并不太多的情況下,用非監(jiān)督式機(jī)器學(xué)習(xí)進(jìn)行少量數(shù)據(jù)分析,然后用人力進(jìn)行反饋,反而有可能會(huì)取得更優(yōu)良的投資回報(bào)率。筆者道聽途說得知國內(nèi)一些門戶視頻網(wǎng)站,就算在公司都已經(jīng)上市之后,仍然還在使用人工選擇的方式進(jìn)行視頻推介,甚至還取得了尚可的效果。
如果機(jī)器學(xué)習(xí)不能給組織帶來直接效果,就算有高層支持,對(duì)于機(jī)器學(xué)習(xí)從業(yè)人員來說也不是很好的職業(yè)選擇。在機(jī)器學(xué)習(xí)能為組織帶來效益的情況下,讓數(shù)據(jù)說話,從業(yè)人員才能夠不斷進(jìn)行深挖,并得到更多的鍛煉和領(lǐng)域洞見;與此相反,如果所建立的系統(tǒng)聽起來很好,但是卻沒能帶來相對(duì)應(yīng)的效益,那么這樣崗位上從業(yè)人員的工作重心就會(huì)像浮萍一樣隨波逐流,被公司政治利益驅(qū)動(dòng),長期來說這樣很不利于從業(yè)人員的個(gè)人發(fā)展。
機(jī)器學(xué)習(xí)實(shí)戰(zhàn)的最高境界,就是知行合一,在創(chuàng)造科技前沿作品的同時(shí),能夠?yàn)閭€(gè)人、組織和社會(huì)帶來效益,這也是本書寫作的指導(dǎo)思想。
在下面的章節(jié)里,我們將會(huì)從更實(shí)際的角度出發(fā)來探索實(shí)時(shí)機(jī)器學(xué)習(xí)的應(yīng)用。其中,第2章到第4章,我們將會(huì)介紹監(jiān)督式機(jī)器學(xué)習(xí)模型,并且學(xué)習(xí)建模的工具Pandas和Scikit-learn;第6章到第9章,我們將會(huì)介紹實(shí)時(shí)機(jī)器學(xué)習(xí)的架構(gòu),并且學(xué)習(xí)使用Docker、 RabbitMQ、Elasticsearch及數(shù)據(jù)庫等重要組成部分。
總結(jié)
以上是生活随笔為你收集整理的《构建实时机器学习系统》一1.8 实时机器学习模型的生存期的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 初谈Git(本机克隆项目远程仓库)
- 下一篇: Eclipse 运行Openfire源码