为什么机器学习算法要与人类水平比较
原因
1 近年來機器學習的效果越來越好,能夠和人類的相應能力做比較。
2 設計和構建機器學習系統,這個工作流程很高效。
因為種種原因,ML或者人都不可能超過Bayes Optimal Error 貝葉斯最優誤差,ML隨著時間推移會越來越接近貝葉斯最優誤差。
3 在人類做得很好的領域,將ML與人的能力比較,如果ML能力差,那么可以得到更多的人類標記的數據;從人類的視角發現哪些地方還能再改進;得到更好的偏差和方差(bias/varaiance)
高偏差是指訓練得到的數據與真實數據不符合,一般發生在欠擬合。
高方差是指使用不同數據集得到的結果差別很大,一般發生在過擬合。
可避免的偏差值
Bayes Optimal Error 是指人或者ML能達到的最高水平,一般來講會取人類水平的最好值,不管是一個人還是一支隊伍。
人類水平減去ML在測試集上的表現之間的差,是可避免偏差值(avoidable bias)。
測試集上的表現減去交叉驗證集上的表現,是方差值。
這兩個值,哪個比較大,就在哪里進一步優化,當然優化措施不同。
這里對于人類水平的選擇有一定選項。如果要求嚴格,那一定是人類最好水平。如果是其它目的,則找一個可接受的水平。我們會用人類水平估計貝葉斯最優差值。不同的貝葉斯最優差值可能會引起 偏差值與方差值哪個大,哪個小,進一步影響優化手段。
當ML效果超過人類的時候
目前在一些領域ML效果驚人。例如在以結構化數據為基礎的:在線廣告、產品推薦、信用貸款等。例如在語音識別方面、圖片識別、一些醫學領域。
這時候你的調優策略會發生變化,調優方面會不如以前清晰。
調優策略
當發生高偏差的時候,可以加大訓練模型;優化目標函數;使用更復雜的網絡模型等。
當差生高方差的時候,可以增加訓練集的數量;做正則化,例如L2、dropout、增加數據集(data agumentation)、嘗試其他的網絡類型。
參考文獻:
1 文章內容來源于Structuring Machine Learning Projects.
總結
以上是生活随笔為你收集整理的为什么机器学习算法要与人类水平比较的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: C#原型模式之深复制实现
- 下一篇: 模糊综合评价模型(上)