统计学习导论_统计机器学习之扫盲导论篇
機器學習之掃盲導論篇
來都來了,不關注一下嗎??
? ?人工智能是當下最火的詞,而機器學習就是它的靈魂。
????現在超級多搞金融的人已經用到很深的機器學習模型了,更別提互聯網企業的大佬們了,比如:
? ? ? ? ? ? ? ? ? ? ?? (這是一篇研報)
????
(這真的是某券商金工團隊出的一篇研報)
????更夸張的是,發現我校的“信息xxxx學院”在幾年前偷偷改名為“人工智能學院”(還是我走夜路偶然發現的,抓住你了)
exmmmm 足以說明它的火爆程度
? ? 那么就別躲著著了,趕緊上車跟上這波潮流。讓我們大聲喊出口號: “機器學習,沒有你想象的那么難。”
????機器學習(Machine learning)是一門科學,準確的來說是一門關于算法的科學。
? ? 那么統計機器學習大致分為四類:監督學習、無監督學習、半監督學習和強化學習。下面一一來為大家掃個盲。
1監督學習
????監督學習(supervised?learning)是指從標注數據中學習預測模型的機器學習問題。標注數據表示輸入輸出對應關系,預測模型對給定的輸入產生相應的輸出。監督學習的本質是學習輸入到輸出的映射的統計規律。
????通俗來說,就是給定數據,預測標簽。每一個訓練數據(training data)都是有特征和標簽的。那么什么是特征和標簽呢?
????非常簡單,我舉一個例子。比如銀行的貸款部門,每一個客戶的基本情況都屬于特征,包括他們的性別、年齡、工作單位類型、工資、目前在名下的房子價值、有無不良貸款記錄等等。那么什么是標簽?就是評估完這些特征之后,銀行最終的決定:是否放貸給客戶。
| ID | 姓名 | 性別 | 年齡 | 工資 | 工作單位 | 有無不良記錄 | 是否貸款 |
| 1 | 高高 | 男 | 30 | 15 | 國企 | 無 | 是 |
| 2 | 周周 | 女 | 23 | 13 | 個體 | 無 | 是 |
| 3 | 樂樂 | 男 | 27 | 15 | 個體 | 無 | 否 |
| 4 | 新新 | 男 | 35 | 30 | 個體 | 有 | 否 |
????????????...........
????好的,這是我們的訓練數據,也就是training data,那么問題來了:如果再來一個人,他同樣可以提供特征數據,那么能預測是否貸款嗎?這就是監督學習。
| ID | 姓名 | 性別 | 年齡 | 工資 | 工作單位 | 有無不良記錄 | 是否貸款 |
| 9 | 方方 | 男 | 25 | 30 | 國企 | 有 | ? |
????一句話概括監督學習:給定數據(特征),預測標簽。
????常見的監督學習算法:K近鄰(KNN),決策樹(DT),樸素貝葉斯(NB),邏輯回歸(LR),支持向量機(SVM)等等
2無監督學習
????無監督學習(unsupervised learning)是指從無標注數據中學習預測模型的機器學習問題。無標注是自然得到的數據,預測模型表示數據的類別、轉換或概率。無監督學習的本質是學習數據中的統計規律或潛在結構。
????無監督學習常常被用于數據挖掘,用于在大量無標簽數據中發現些什么。它的訓練數據是無標簽的,訓練目標是能對觀察值進行分類或者區分等。例如無監督學習應該能在不給任何額外提示的情況下,僅依據所有“貓”的圖片的特征,將“貓”的圖片從大量的各種各樣的圖片中將區分出來。
????可以想象,恰當地提取特征是無監督最為關鍵的環節。在老虎的識別中,我們來嘗試提取老虎的特征:皮毛、四肢、耳朵、眼睛、胡須、牙齒、舌頭等等。通過對特征相同的動物的聚類,可以將貓或者貓科動物聚成一類。但是此時,我們不知道這群毛茸茸的東西是什么,我們只知道,這團東西屬于一類,兔子不在這個類(耳朵不符合),飛機也不在這個類(有翅膀)。特征有效性直接決定著算法有效性。如果我們拿體重來聚類,而忽略體態特征,恐怕就很難區分出老虎和豹子了。
? ?再比如,孩子在一開始認識事物的時候,父母會給他一些蘋果和橘子,但是并不告訴他哪兒個是蘋果,哪兒個是橘子,而是讓他自己根據兩個事物的特征自己進行判斷,會把蘋果和橘子分到兩個不同組中,下次再給孩子一個蘋果,他會把蘋果分到蘋果組中,而不是分到橘子組中。
????一句話概括:給定數據,尋找隱藏的結構。
????常見的無監督學習算法:K-means聚類,主成分分析PCA等等
3半監督學習
????半監督學習(semi-supervised learning)是指利用標注數據和未標注數據學習預測模型的機器學習問題。通常有少量標注數據、大量未標注數據,因為標注數據的構建往往需要人工,成本較高,未標注數據的手機不需要太多成本。半監督學習旨在利用未標注數據中的信息,輔助標注數據,進行監督學習,以較低的成本達到較好的學習效果。
? ? 使用的數據,一部分是標記過的,而大部分是沒有標記的。和監督學習相比較,半監督學習的成本較低,但是又能達到較高的準確度。綜合利用有類標的和沒有類標的數據,來生成合適的分類函數。
4強化學習?
????強化學習(reinforcement learning)是指智能系統在于環境的連續互動中學習最有行為策略的機器學習問題。假設智能系統與環境的互動基于馬爾可夫決策過程,智能系統能觀測到的是與環境互動得到的數據序列。強化學習的本質是學習最優的序貫決策。
????比如說訓練一只小狗做動作,在它最對動作的情況下獎勵骨頭,再比如AI解游戲問題等等都屬于強化學習,是可以通過一些方法知道你是離正確答案越來越近還是越來越遠(獎懲函數)。可以把獎懲函數看作正確答案的一個延遲、稀疏的形式。可以得到一個延遲的反饋,并且只有提示你是離答案越來越近還是越來越遠。
(注明:本文提到的定義均直接采用李航老師的《統計學習方法》)
????是不是覺得機器學習也沒有想象中那么神秘?我后期爭取一周更一篇機器學習的推文,一起進步呦!
記得關注喵??
留言板
總結
以上是生活随笔為你收集整理的统计学习导论_统计机器学习之扫盲导论篇的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: cocoscreator editbox
- 下一篇: .md是什么文件_Element-UI源