日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

聊聊工业界做机器学习的里程碑

發(fā)布時間:2025/3/8 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 聊聊工业界做机器学习的里程碑 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文 | 吳海波

編 | YY


閱讀說明,本文的機器學(xué)習(xí)領(lǐng)域限制于互聯(lián)網(wǎng)搜索、推薦、廣告場景,僅限于個人觀點。

2017年,我和團隊的幾個核心去了趟北京,找了各大互聯(lián)網(wǎng)公司一線實戰(zhàn)的同學(xué),交流各自在機器學(xué)習(xí)上的經(jīng)驗。這次交流讓我的認知上了一個臺階,開始思考什么是真正優(yōu)秀的機器學(xué)習(xí)團隊。

感慨一句,百度,特別是鳳巢,真是中國機器學(xué)習(xí)的黃埔軍校,門生遍布天下。

系統(tǒng)——經(jīng)濟基礎(chǔ)決定上層建筑

工程系統(tǒng)中,提升收益是優(yōu)化算法的根本動機。 業(yè)界流行過這樣一句話:“能加幾臺機器解決的問題,不要讓人去優(yōu)化?!闭б谎劭从行┓粗庇X,但是結(jié)合語境細想,這句話的核心思想是做事應(yīng)當(dāng)把控好大方向。機器便宜,人力昂貴,在業(yè)務(wù)快速發(fā)展的階段,有很多更重要的事情要去做。能不能比競爭對手快一個周期,就是團隊生與死的差別。這種情況下,過度追求算法的提升可能是在舍本逐末,反而不明智。

對比學(xué)術(shù)界,互聯(lián)網(wǎng)中搜索推薦及廣告的場景,有個明顯的特點,就是數(shù)據(jù)規(guī)模大,訓(xùn)練數(shù)據(jù)豐富,正負反饋獲取成本低。這就造成了和傳統(tǒng)機器學(xué)習(xí)算法格格不入的方案,通常模型方案都是不那么經(jīng)濟。

此外,大多數(shù)工程系統(tǒng),是從業(yè)務(wù)需求側(cè)或者產(chǎn)品需求側(cè)設(shè)計的,很少會把算法當(dāng)做真正的業(yè)務(wù)方。 工程師對研究者常見的批評,有一條就是開發(fā)的算法往往缺少對應(yīng)的需求。而業(yè)務(wù)方的要求,就算有時在實現(xiàn)難度上大到不合理,通常也是市場的客觀反映。因此,大部分工程上針對算法的設(shè)計方案,更像是主流需求外的附加需求,常常是閹割再閹割。

采用機器學(xué)習(xí)時,有幾個問題是共通的:數(shù)據(jù)質(zhì)量建設(shè)——ABtest怎么做的,流量波動大不大,實驗置信度有多少,埋點方案有沒有第三方檢驗,數(shù)據(jù)口徑是否統(tǒng)一。

為什么說大規(guī)模Logistics Regression是一個里程碑

這兩年,各大公司分別實現(xiàn)了一波少帥的Parameter Server,動不動就號稱千億級的特征規(guī)模。這套廣告業(yè)務(wù)的核心技術(shù):點擊率 (Click Through Rate, CTR) 。預(yù)估任務(wù)最開始由Google提出,而國內(nèi)選擇的突破口是在Logistics Regression中引入id類特征,這就造成了極大的運算量。眾所周知,LR模型是線性模型,需要做特征交叉,互聯(lián)網(wǎng)的用戶、商品、內(nèi)容都是一個非??鋸埖牧考?#xff0c;交叉之后往往會得到一個規(guī)模極大的特征集。

大規(guī)模首先要解決計算力問題。 很多互聯(lián)網(wǎng)公司的機器學(xué)習(xí)團隊雖然有很多數(shù)據(jù),但是跑不動,就只能用部分數(shù)據(jù);又因為訓(xùn)練數(shù)據(jù)不足,特征工程就不能做多,只好人工進行特征選擇,費時費力。如果計算力足夠,樣本量級上去,這個問題就可以迎刃而解。

同樣搞機器學(xué)習(xí),大公司可能一天進行十幾種嘗試,小公司卻只能做一兩種。冷兵器對上火炮,只有被碾壓。少帥在14年提出的SOTA,100T數(shù)據(jù),10億特征,半個小時迭代100輪的計算力,到了現(xiàn)在能實現(xiàn)的公司也寥寥無幾。

另一方面是線上服務(wù)。 這么大規(guī)模的模型,怎么發(fā)布上線,更新模型的時候怎么保持線上數(shù)據(jù)的一致性,處處都是難題。模型大了,相應(yīng)的特征也很多,那么哪里存儲這些特征?離線的特征可以存緩存,實時特征怎么辦,數(shù)據(jù)還要溝通,能做到實時嗎?如果模型不能被單機加載到內(nèi)存,難度又得上一個量級。

綜合起來,大規(guī)模LR模型非??简瀳F隊工程系統(tǒng)能力。從另一個角度看,這是一種工業(yè)級的哲學(xué)觀,追求通用,追求效率,降低模型對個別算法的依賴,通過堆切大量特征的方式擊敗小作坊式特征工程,充滿暴力美學(xué)。

為何要搞深度學(xué)習(xí)?因為效率

上文的大規(guī)模LR看起來是一種“笨方法”。最近這幾年工業(yè)界投入甚多的深度學(xué)習(xí),則是另一條被看好的道路。說實話,大部分的深度學(xué)習(xí)在推薦和搜索,并沒有取得像圖像領(lǐng)域那樣讓人印象深刻的效果。但它擁有一個致命的誘惑——不需要或需要少量的人工特征工程。

就是這個方案對比以前的模型沒有提升,但它不需要特征工程,于是能帶來巨大的效率提升。如果想做出較通用的解決方案,對業(yè)務(wù)來講,原先可能要好幾個同學(xué)哼哧哼哧搞好幾個月的特征工程,現(xiàn)在深度學(xué)習(xí)方案能快速的搞出來。

寫在最后

總的來說,目前的機器學(xué)習(xí)還有很大的發(fā)展空間,讓我們把喧囂留給媒體,自己安安靜靜地繼續(xù)探索吧~


往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯《統(tǒng)計學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯獲取一折本站知識星球優(yōu)惠券,復(fù)制鏈接直接打開:https://t.zsxq.com/662nyZF本站qq群704220115。加入微信群請掃碼進群(如果是博士或者準備讀博士請說明):

總結(jié)

以上是生活随笔為你收集整理的聊聊工业界做机器学习的里程碑的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。