【机器学习】什么是机器学习?(上)
轉自慧安金科:https://blog.csdn.net/hajk2017/article/details/81142345
感謝博主
什么是機器學習?在搜索框內輸入“機器學習”,檢索出了這樣的解釋:“機器學習是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法復雜度等多門學科。機器學習專門研究計算機怎么模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能”。
機器真的可以像人一樣學習嗎?1959年,美國的Samuel設計了一款下棋程序,這個程序具有學習能力,可以在對弈中不斷改善自己的棋藝。四年后,這個程序戰勝了設計者本人。又過了三年,這個程序戰勝了美國的保持了8年不敗紀錄的棋手。這個程序第一次向世人展示了機器強大的學習能力,也開啟了機器學習的新紀元。
機器究竟是怎么學習的呢?
其實,機器學習是一種概念,你不需要寫任何與問題有關的特定代碼,一種叫作“泛型算法”(Genetic Algorithm)的工具就可以告訴你一些關于數據的結論。你只需要輸入數據,就能建立數據的邏輯。(注:遺傳算法是模擬達爾文生物進化論的自然選擇和遺傳學機理的生物進化過程的計算模型,是一種通過模擬自然進化過程搜索最優解的方法。)
其中一種算法叫作“分類”算法,顧名思義,它的功能就是給數據分組。分類算法可以用來區分垃圾郵件和非垃圾郵件,也能區分手寫數字。只要給同樣的算法輸入不同的訓練數據,就賦予了它不同的分類邏輯。
機器學習就是大量泛型算法的集合。
機器學習算法可以分為兩類,一種是有監督機器學習(Supervised Machine Learning),一種是無監督機器學習(Unsupervised Machine Learning)。
你可以通過它們的名字了解到,它們最大的區別在于是否具有監督,那么“監督”究竟是什么呢。
讓我們通過一個例子介紹一下它們各自代表什么。
如果你是一名房地產經紀人,你雇傭了一批新員工。但是,雖然你可以憑經驗一眼估算出房子的價格,這批新員工面對房子卻毫無頭緒。于是,你不得不給新員工進行一次培訓。
比如,寫一個小程序,讓它可以根據房子的大小、地段以及同類房子的成交價格等因素來評估價格。具體怎么做呢?首先,你需要收集過去三個月內售出的房子信息,包括地段、面積、臥室數量,最重要的是成交價。
當你獲得了這些數據之后,你就有了訓練數據,這些訓練數據是編寫估價小程序的基礎,你希望根據這些歷史數據預測其他房子的成交價格。
這種利用已知數據推測未知樣本的方法,就是有監督機器學習。它的核心思想是你已經知道了結果(房子成交價格),通過總結結果與特征(房子各項指標)之間的規律,找出其中的關聯,從而實現可以預測未知樣本(新入市房子)的成交價格。
你已經了解了這種機器學習技術的邏輯,那么具體如何操作呢?
最常用的方法是,你把已經成交的房子的各項數據輸入機器學習的算法,算法會嘗試找出能夠計算出該結果的運算方法。就像小學時做過的數學題,已知計算結果,但是運算符號都被抹掉了,你需要不斷嘗試填出適當的符號。
有監督機器學習所做的,就是幫你找到這些數值之間的關系,一旦確定了運算符號,只要輸入新的數據,就輸出了結果。
然而,如果你沒有歷史成交價格這列數據怎么辦?
你只知道房子的位置、面積、臥室數量等特征數據,卻唯獨缺失了成交價格這一列,歷史數據都沒有,估算新入市房子的價格成了天方夜譚,你只能另謀他路。那么,這些數據可以用來做什么?
首先,你可以先利用算法從數據中劃分出不同的細分市場。你會發現,當地大學附近的購房者喜歡小戶型、臥室多的房子,而郊區的購房者往往偏好大戶型。了解這些購房偏好能夠幫助你更好地營銷。
這種將無標簽(成交價)數據進行聚類的方法,就是無監督機器學習。由此,你可以得出結論,有監督機器學習和無監督機器學習所說的“監督”就是指導或者干預,比如房子估價這個例子中的成交價,就是一種具有明確指向性的參數。沒有這項指標時,機器學習能做的就是根據房子的特征對其進行分類,但是機器并不知道這些類別的成交價有何差別,因為沒有結果可以參考。我們把這些帶有明確指向性的參考叫作“標簽”。
不過,房子估價真的能看成是“學習”嗎?
讓我們來回想一下人們是怎么學習的吧。學習,是指通過閱讀、聽講、思考、研究、實踐等途徑獲得知識或技能的過程。狹義的學習是一種可以得到持續變化(知識和技能、方法與過程、情感與價值的改善和升華)的行為方式。廣義的學習是通過獲得經驗產生的行為或行為潛能的相對持久的行為方式。
從這個意義上講,機器通過大量數據的訓練獲得預測、推薦能力的過程,很顯然可以被歸入“學習”的范疇。
回到上文房子估價的例子,如果你做房地產經紀人的時間足夠長,你對于房子的合適定價、房屋的最佳營銷方式以及客戶感興趣的戶型都會形成一種直覺,機器學習的目的,就是讓機器也能習得這樣的能力。
不過,目前的機器學習還只能在有限的特定問題上有效。在這種情況下,“學習”的定義也許更貼近“基于少量樣本找到一個公式解決特定問題”。于是,我們給這種技術起了一個形象的名字:機器學習。
總結
以上是生活随笔為你收集整理的【机器学习】什么是机器学习?(上)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【风控场景】互利网上数字金融典型场景:
- 下一篇: 【机器学习】什么是机器学习?(下)