【机器学习】什么是机器学习?(下)
轉自慧安金科:https://blog.csdn.net/hajk2017/article/details/81189409
感謝博主
在搜索引擎里輸入“什么是機器學習”,就像打開了一個潘多拉盒子,論壇、學術研究,應有盡有,正是由于技術人員對概念和定義的簡化,才使我們得以更好地理解什么是機器學習。
簡單地說,機器學習是一種數據分析技術,它可以教計算機做那些人類和動物生來就會做的事情:從經驗中學習。機器學習算法使用計算方法直接從數據中“學習”信息,而不依賴于預定的方程來建模。隨著學習樣本數量的增加,算法還能自動適應、提高性能。
隨著大數據的發展,機器學習已經成為許多領域處理問題的關鍵技術,例如:
計算金融,信用評分和算法交易
圖像處理和計算機視覺,用于人臉識別、運動檢測和目標檢測
計算生物學,用于腫瘤檢測、藥物發現和DNA測序
能源生產,價格和負荷預測
汽車、航空航天和制造業的預見性維護
自然語言處理,用于語音識別應用
?
更多數據、更多問題、更多答案
機器學習算法在數據中發現了一些自然規律,并在此基礎上幫你做出更好的決策和預測。在醫療診斷、股票交易、能量負載等預測場景中,人們每天都需要借助機器學習算法進行決策。例如,媒體網站依靠機器學習從數百萬種選擇中篩選出幾首歌或幾個視頻推送給你。零售商可以利用機器學習算法了解顧客的購買習慣。
?
為什么要使用機器學習?
假設你遇到了一個復雜的問題,它涉及海量數據和變量,而又沒有現成的公式或函數可循,這時候最好的解決方案就是機器學習模型。
機器學習對于以下場景非常有效:
在面部識別和語音識別中,手寫規則過于復雜時
在交易記錄的反欺詐中,反欺詐規則在不斷變化時
在能源需求預測、銷售預測中,數據特征持續變化且需要程序主動適應時
?
機器學習如何工作?
機器學習包括兩種技術,一種叫作“有監督機器學習”(Supervised Learning),它在已知輸入和輸出結果的數據基礎上訓練模型,并利用模型預測新數據的輸出結果;一種叫作“無監督機器學習”(Unsupervised Learning),它通過尋找輸入數據的隱藏規律和內部結構進行聚類和關聯分析。
有監督機器學習建立了一個模型,該模型在不確定性存在的前提下,基于數據的結果進行預測。有監督機器學習算法采用已知的輸入數據集合對應的輸出數據集來訓練模型,讓模型具備預測新數據結果的能力。
有監督機器學習使用分類和回歸方法來開發預測模型。
分類(Classification)通過對離散型隨機變量建模,用于郵件過濾、金融欺詐以及預測雇員異動等輸出為類別的任務。典型的應用包括醫學成像、語音識別、信用評分以及字符識別等。
常用的分類算法包括支持向量機(SVM)、決策樹、最近鄰、樸素貝葉斯、判別分析、邏輯回歸和神經網絡等。
回歸(Regression)通過對數值型連續隨機變量進行預測和建模,用于房價預測、股票走勢、測試成績等輸出為數值的任務。典型的應用包括電力負荷預測和算法交易。
常見的回歸算法包括線性模型、非線性模型、正則化、逐步回歸、決策樹、神經網絡和自適應神經模糊學習等。
我們如何使用有監督機器學習方法?
假設臨床醫生想要預測一個人在一年內是否會突發心臟病。他們有多位病人的既往健康檢測數據,包括年齡、身高、體重和血壓等。同時,他們也知道這些病人在過去的一年內是否突發心臟病。那么,他們可以把現有數據輸入機器學習模型,讓機器在這些病人數據的基礎上預測任意一個人在一年內突發心臟病的概率。
?
無監督機器學習通過尋找數據之間的隱藏規律和內部結構進行關聯分析。無監督機器學習使用的輸入數據集常常是沒有任何標簽的。
聚類(Clustering)是無監督機器學習中使用最為普遍的算法。它通過分析數據的內部結構尋找和觀察樣本中的自然族群——集群(clusters)。聚類分析的典型應用包括基因序列分析、市場調研、文章推薦、新聞聚類等。
例如,當一個手機運營商想要通過模型分析優化它的信號塔選址時,由于一個手機一次只能接收一個信號塔發出的信號,因此我們可以通過分析所有從這個信號塔接收信號的客戶位置,利用聚類方法估計這個信號塔服務客戶的族群數量,從而找到可以保證所有客戶能夠接收信號的最佳信號塔位置。
常用的聚類算法包括k-均值、層次聚類、高斯混合模型、隱馬爾可夫模型、自組織映射、模糊C均值聚類和減法聚類等。
如何選擇合適的機器學習算法?
機器學習共有幾十種算法,每一種算法都需要通過不同的方法進行學習,因此選擇一種適合的算法就變得至關重要。
首先需要明確的是,在機器學習領域,并沒有最好的辦法或者一刀切的方法。我們只能通過不斷地嘗試和總結找到最佳方法,甚至經驗豐富的數據科學家在未經嘗試之前也無法判斷算法是否有效。
總的來說,算法的選擇取決于你要處理的數據的體量大小和類型,以及你想通過數據獲得的結論。
以下是對建模之前選擇機器學習算法的一些建議:
如果你要訓練一個模型來預測,那么選擇有監督機器學習——例如,一個連續變量的未來值,例如溫度或股票價格,或者一個分類,例如從攝像頭視頻片段中識別出汽車。
如果你需要探索你的數據,并且想要訓練一個模型來找到一個好的內部結構展示,比如把數據分成集群,那么選擇無監督機器學習。
相關文章:
什么是機器學習?(上)
人工智能(AI)經歷了怎樣的發展歷程?
總結
以上是生活随笔為你收集整理的【机器学习】什么是机器学习?(下)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【机器学习】什么是机器学习?(上)
- 下一篇: 【数据挖掘】数据挖掘简介