ML 自学者周刊:第 3 期
刊首語
這里記錄ML自學(xué)者群體,每周分享優(yōu)秀的學(xué)習(xí)心得與資料。由于微信不允許外部鏈接,需要點(diǎn)擊文末的「閱讀原文」,才能訪問文中的鏈接。
前幾天看到一則新聞,AI界的網(wǎng)紅老師Siraj,遭吃瓜群眾大規(guī)模打假。
Siraj原本是靠在視頻網(wǎng)站上傳AI教學(xué)視頻的博主,被稱為AI界的最強(qiáng)Rapper,吸粉百萬。
當(dāng)然,他是為了最終能夠通過粉絲的支持來進(jìn)行盈利,這無可厚非。但有件事他做錯了,而且是原則性錯誤。
首先,他的教學(xué)代碼一般是從Github開源項(xiàng)目復(fù)制而來,而且刪除了原作者的信息。更過分的事情是,他發(fā)表的論文,也是大段不加改動的,從其他論文處復(fù)制粘貼,甚至直接截圖過來。
于是成了千夫所指,人設(shè)一夜崩塌。
這個悲慘的故事,告訴我們,想要成名,還得靠腳踏實(shí)地的好好學(xué)習(xí)。來,看看大家本周都學(xué)了什么。
本期內(nèi)容
心得分享
骨骼動作識別模型:AGC-LSTM
對FM模型的學(xué)習(xí)
多任務(wù)學(xué)習(xí)概述
機(jī)器人在對話中推薦物品
分水嶺分割方法
學(xué)習(xí)周記
Mr.WR
賀
君君
千禧
資料分享
超輕量級人臉檢測模型
中文自然語言處理語料
自學(xué)心得
骨骼動作識別新模型:AGC-LSTM
本周寫了一個軟件著作權(quán),并將其郵寄到中國版權(quán)保護(hù)中心。閱讀動作識別綜述論文,和再次閱讀CVPR論文,
該篇論文首次提出AGC-LSTM網(wǎng)絡(luò)。不僅能夠分別的提取數(shù)據(jù)在時間和空間上的特征,而且還能查出兩者之間的共現(xiàn)聯(lián)系。在AGC-LSTM頂層,提出了一個時間分層結(jié)構(gòu),該結(jié)構(gòu)不僅可以提高學(xué)習(xí)高等級表示的能力,而且還能顯著的減少計(jì)算代價(jià)。
論文名稱: An attention enhanced graph convolutional LSTM Network for Skeleton-Based Action Recognition
論文地址
對FM模型的學(xué)習(xí)
這周學(xué)習(xí)FM模型,FM在計(jì)算廣告和推薦系統(tǒng)中十分常用,主要優(yōu)點(diǎn)在于考慮了特征交叉,并且算法的時間復(fù)雜度仍然還是線行的。
實(shí)際業(yè)務(wù)中,對于離散型的特征經(jīng)常使用one-hot編碼,傳統(tǒng)的特征交叉方法使得特征維度擴(kuò)張較為迅速,而且二階項(xiàng)的系數(shù)很容易訓(xùn)練不充分,而在 FM 中,對于每個特征都學(xué)習(xí)了一個Embedding二階項(xiàng)的系數(shù)就轉(zhuǎn)化成了特征Embedding之間的內(nèi)積。
在FM的論文中,比較了SVM和FM之間的優(yōu)劣和FM與MF的聯(lián)系,SVM 中的多項(xiàng)式核也可以完成特征交叉,但是并不適合高維稀疏的數(shù)據(jù)。
MF可以理解為,在評分任務(wù)中,把用戶對于物品的評分,分解為用戶 Embedding 和物品 Embedding 的內(nèi)積;
FM 的重點(diǎn)在于二階項(xiàng)的計(jì)算方式的改寫(改寫成線性時間),在這里附上論文和一些其他看過的博客。
論文:
FM算法詳解
FM模型理論和實(shí)踐
Factorization Machines
推薦系統(tǒng)召回四模型之:全能的FM模型
前深度學(xué)習(xí)時代CTR預(yù)估模型的演化之路
多任務(wù)學(xué)習(xí)概述
今天介紹一下這幾天看的一篇多任務(wù)概述,發(fā)表在arxiv,引用次數(shù)393。
多任務(wù)學(xué)習(xí)的直觀定義是只要優(yōu)化多個loss就被稱之為多任務(wù)學(xué)習(xí)。為什么關(guān)注多任務(wù),是因?yàn)槲覀兺痪劢褂趩稳蝿?wù)想要優(yōu)化的目標(biāo),但是往往會失去一些關(guān)聯(lián)信息。
從人類學(xué)習(xí)的角度來講,在學(xué)習(xí)復(fù)雜任務(wù)之前往往會先學(xué)習(xí)一些簡單的任務(wù)。從機(jī)器學(xué)習(xí)的視角來看,與主任務(wù)相關(guān)的輔助任務(wù)可以引入一些額外的信息,這些信息被稱為inductive bias,我個人理解是引入了一些先驗(yàn)。這些先驗(yàn)會導(dǎo)致模型會更加關(guān)注能夠解釋多個任務(wù)的共同部分,而不是只關(guān)注解釋單單一個任務(wù),這也會使得泛化能力提高。
多任務(wù)有效的原因:
同時學(xué)習(xí)多個任務(wù)會平衡在各自任務(wù)上的噪聲,使得模型能夠?qū)W到更好的表征;
輔助任務(wù)可以引入額外信息。
如何設(shè)計(jì)輔助任務(wù):作者在這里并沒有給出一些方法論,而是給出了一些示例。如目標(biāo)檢測中常常同時輸出目標(biāo)類別和位置,情感分析中有設(shè)置預(yù)測輸入句是否存在正向或負(fù)向情感詞的輔助任務(wù)。
論文名稱:An Overview of Multi-Task Learning in Deep Neural Networks論文地址
分水嶺分割方法
最近在嘗試看論文的代碼,不知不覺就研究上了分水嶺分割方法。并了解了一下同在scikitimage庫中的隨機(jī)漫步分割方法。在騰訊云上有翻譯的中文文檔,地址鏈接。
分水嶺算法:對于沒有噪聲的圖像效果很好。即使是有重疊。隨機(jī)漫步算法:隨機(jī)Walker分割基于各向異性擴(kuò)散的分割算法,通常比分水嶺慢,但對噪聲數(shù)據(jù)和孔洞邊界具有良好結(jié)果。
自己體驗(yàn)下來,感覺分水嶺確實(shí)是一個很好的傳統(tǒng)分割算法,而隨機(jī)漫步算法進(jìn)行分割感覺太消耗內(nèi)存了。在圖片沒什么噪聲的情況下兩者相比應(yīng)該優(yōu)先選擇分水嶺
機(jī)器人在對話中推薦物品
分享SIGIR2018的一篇文章,個性化的聊天機(jī)器人在電商領(lǐng)域,有著可觀的前景。目前的多輪對話中,機(jī)器人通常僅僅利用到了用戶的歷史輸入信息,忽略了用戶長期的偏好,從而給出一些不受歡迎的回復(fù)。而推薦系統(tǒng),能夠從用戶歷史購買的物品或者給出的評分中,學(xué)習(xí)到更多的用戶喜好信息。
這篇文章,將對話和推薦兩種看起來有所差異的分支結(jié)合到一起,利用深度強(qiáng)化學(xué)習(xí)框架,建立個性化的對話推薦機(jī)器人,從而能夠優(yōu)化對話體驗(yàn),完成對話目標(biāo)。這里所說的對話目標(biāo),是在電商場景下,成功的推薦商品給用戶。
系統(tǒng)主要由三個部分組成:Belief Tracker, Policy Network, Recommender。
論文名稱:Conversational Recommender System論文地址
學(xué)習(xí)周記
Mr.WR
這周把吳恩達(dá)的機(jī)器學(xué)習(xí)看完了,麻省理工的stang教授的線代也看完了。機(jī)器學(xué)習(xí)的視頻就是入了個門,以后還有很多東西要學(xué),正在最后面的編程練習(xí),感覺好多都看不懂。
接下來這周要好好研究研究,然后同時看Python深度學(xué)習(xí)這本書和林軒田的機(jī)器學(xué)習(xí)技法,爭取在這周看完
賀
這周忙于找工作,沒有太多的時間去學(xué)習(xí),主要看了一下網(wǎng)易云課堂上廈門大學(xué)林子雨老師的大數(shù)據(jù)原理和應(yīng)用課程的前十一章,覺得比較適合想要入門大數(shù)據(jù)以及對大數(shù)據(jù)有大致的了解的同學(xué),這門免費(fèi)課程還有配套的教程和相應(yīng)的資料,確實(shí)還不錯。
君君
在復(fù)現(xiàn)論文過程中,為了生成對應(yīng)數(shù)據(jù)集試過的方法之一,雖然最終沒有采用該方法生成數(shù)據(jù)集,不過我覺得這種勇于創(chuàng)新的思路值得記錄下來(狗頭保命)。
具體背景情況、實(shí)驗(yàn)圖像、實(shí)現(xiàn)代碼都詳細(xì)在下面鏈接里面有說明,這邊就不重復(fù)陳述了。鏈接地址
千禧
最近重溫了sklearn的調(diào)用,從中學(xué)習(xí)到最新版本的sklearn的細(xì)節(jié)操作,從案例中積累超參數(shù)調(diào)整的經(jīng)驗(yàn)。這里推薦B站視頻:鏈接地址
優(yōu)質(zhì)資料
超輕量級人臉檢測模型
一款超輕量級通用人臉檢測模型,模型文件大小僅1MB,320x240輸入下計(jì)算量僅90MFlops,適用于邊緣計(jì)算設(shè)備、移動端設(shè)備以及PC。項(xiàng)目地址
中文自然語言處理語料
大規(guī)模中文自然語言處理語料,包括維基百科,新聞?wù)Z料,百科問答,社區(qū)問答,翻譯語料。項(xiàng)目地址
加入我們
掃描加微信:
驗(yàn)證信息:「自學(xué)」,即可加入ML自學(xué)者俱樂部社群。可以投稿每周學(xué)習(xí)心得或者看到的優(yōu)質(zhì)學(xué)習(xí)資料,助力團(tuán)體共同學(xué)習(xí)進(jìn)步。
參考來源
ML自學(xué)者俱樂部投稿
黃博的機(jī)器學(xué)習(xí)圈子
知乎機(jī)器學(xué)習(xí)話題
點(diǎn)擊閱讀上一期內(nèi)容
總結(jié)
以上是生活随笔為你收集整理的ML 自学者周刊:第 3 期的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 谈谈实习这件小事
- 下一篇: ML 自学者周刊:第 2 期