直播 | 复旦大学许燚:少量标注样本场景下基于数据编程的半监督分类
「AI Drive」是由 PaperWeekly 和 biendata 共同發起的學術直播間,旨在幫助更多的青年學者宣傳其最新科研成果。我們一直認為,單向地輸出知識并不是一個最好的方式,而有效地反饋和交流可能會讓知識的傳播更加有意義,從而產生更大的價值。
本期 AI Drive,我們邀請到復旦大學博士生許燚,為大家在線解讀其發表在 NeurIPS 2021 的最新研究成果:DP-SSL: Towards Robust Semi-supervised Learning with A Few Labeled Samples。對本期主題感興趣的小伙伴,11 月 30?日(本周二)晚 7 點,我們準時相約 PaperWeekly 直播間。
直播信息
標注數據的稀缺性是深度學習的一個關鍵障礙。半監督學習則是以給未標注數據生成偽標簽的方式為這一問題提供了一種有效的解法。然而,當標注數據的量較小時,比如每個類只有幾個樣本時,由于生成的偽標簽的質量不可靠,半監督學習的表現不佳并且效果不穩定。
在本文中,我們提出了一種基于數據編程 (Data Programming) 框架來為未標注數據生成概率標簽的半監督分類方法。與現有的數據編程方法需要人為設計標記函數 (Labeling Function)不同的是,我們采用了一套基于多選擇學習 (Multiple-choice Learning) 的半監督策略來自動生成標記函數??紤]到標記函數中產生的噪聲標簽,我們設計了一個標記模型 (Label Model) 來解決其中的沖突與重疊,從而為未標注的樣本提供概率標簽用于后續的訓練。
在四個基準數據集上的大量實驗結果表明,我們的方法可以為未標注的數據提供可靠的概率標簽,而以此為基礎訓練的模型在測試集上也具備了比現有半監督分類方法更好的性能。尤其是在少量標注樣本可用時,例如在 CIFAR-10 上只有 40 個標注樣本時(每個類別 4 個),我們的方法在未標注的數據上達到了 93.82% 的標注準確率,在測試集上達到了 93.46% 的分類準確率,高于現有 SOTA 結果。
論文標題:
DP-SSL: Towards Robust Semi-supervised Learning with A Few Labeled Samples
論文鏈接:
https://arxiv.org/abs/2110.13740
本次分享的具體內容有:?
半監督分類在樣本較少時面臨的問題
半監督分類以及數據編程的相關工作
基于數據編程的半監督分類的基本框架和方法
多個數據集的實驗結果及偽標簽質量分析方法
總結與展望
嘉賓介紹
?許燚?/ 復旦大學博士生?
許燚,復旦大學博士生在讀,導師為周水庚教授。主要研究方向為視頻理解,半監督以及弱監督學習,在 NeurIPS, CVPR, ICCV, AAAI, MM, EMNLP 上發表過相關論文。
直播地址?& 交流群
本次直播將在 PaperWeekly 視頻號和 B 站直播間進行,掃描下方海報二維碼或點擊閱讀原文即可免費觀看。線上分享結束后,嘉賓還將在直播交流群內實時 QA,在 PaperWeekly 微信公眾號后臺回復「AI Drive」,即可獲取入群通道。
視頻號直播間:
掃描下方二維碼關注 PaperWeekly 視頻號,第一時間獲取開播提醒。
B 站直播間:
https://live.bilibili.com/14884511
合作伙伴
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的直播 | 复旦大学许燚:少量标注样本场景下基于数据编程的半监督分类的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 微软、UIUC韩家炜组联合出品:少样本N
- 下一篇: ChildTuning:试试把Dropo