日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

8个应用案例告诉你,机器学习都能做什么?

發(fā)布時間:2025/3/15 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 8个应用案例告诉你,机器学习都能做什么? 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.


導(dǎo)讀:預(yù)測學(xué)習(xí)是當(dāng)今機器學(xué)習(xí)的主要任務(wù)。本文中,我們將介紹兩個主要的預(yù)測學(xué)習(xí)問題:回歸和分類。它們適用于很多場景和數(shù)據(jù)類型。此外,精心設(shè)計的特征對回歸和分類方案的性能都是至關(guān)重要的。


本文通過8個案例介紹機器學(xué)習(xí)的應(yīng)用場景。


作者:杰瑞米·瓦特,雷薩·博哈尼,阿格洛斯·K.卡薩格羅斯

如需轉(zhuǎn)載請聯(lián)系大數(shù)據(jù)(ID:hzdashuju)




01 回歸


假設(shè)我們想預(yù)測一家即將上市的公司的股價(即當(dāng)一家公司首次向公眾發(fā)行股票時)。根據(jù)《怎樣教一臺計算機區(qū)分貓和狗?一文零基礎(chǔ)入坑機器學(xué)習(xí)一文中所討論的流程,首先,要收集數(shù)據(jù)的訓(xùn)練集,訓(xùn)練集應(yīng)包含一些已知股票價格的公司(最好是活躍在相同領(lǐng)域的公司)。然后,需要設(shè)計與當(dāng)前任務(wù)相關(guān)的特征。


公司的收入就是這樣一個潛在特征,因為我們預(yù)計公司的收入越高,股票的價格也應(yīng)該越高。(其他的潛在特征可能包括總資產(chǎn)、總股本、員工數(shù)和年活躍度等。)現(xiàn)在,為了將股票價格和收入聯(lián)系起來,我們用訓(xùn)練數(shù)據(jù)來訓(xùn)練一個線性模型或回歸線


圖1-7上圖表示由10家公司的股價和收入信息組成的微型訓(xùn)練集以及一個擬合該數(shù)據(jù)集的線性模型。一旦模型訓(xùn)練完成,新公司的股價可以根據(jù)其收入來預(yù)測,如圖1-7下圖所示。


▲圖1-7 (左上圖)由10家公司的股價和收入組成的微型訓(xùn)練數(shù)據(jù)集;(右上圖)一個擬合該數(shù)據(jù)的線性模型;如左下圖和右下圖所示,這條趨勢線可以建模這些點的整體軌跡,并且可以在將來用于預(yù)測


最后,將預(yù)測的價格與測試集中真實的價格進行比較,測試回歸模型的性能,并根據(jù)需要進行調(diào)整(如選擇不同的特征)。用模型擬合一組訓(xùn)練數(shù)據(jù)以便對一個連續(xù)變量(如股票價格)進行預(yù)測,這類任務(wù)被稱為回歸。我們現(xiàn)在來討論有關(guān)回歸的更多例子。


例1 美國學(xué)生貸款債務(wù)的增長


圖1-8顯示了從2006年到2014年美國公民持有的學(xué)生貸款債務(wù)總額,每個季度評估一次。學(xué)生借錢是為了支付大學(xué)學(xué)費和食宿費等。


圖1-8 從2006年到2014年美國學(xué)生貸款債務(wù)總額,每個季度評估一次。擬合數(shù)據(jù)趨勢線的斜率表示了學(xué)生債務(wù)的迅速增長,證實了學(xué)生債務(wù)正在(危險地)急劇增長的說法


從圖中可以看出,在這8年間,學(xué)生債務(wù)總額增長了兩倍,到2014年年底總額已經(jīng)超過了1萬億美元。擬合該數(shù)據(jù)集的回歸線很好地表示了數(shù)據(jù)集,其陡峭的正斜率強調(diào)了學(xué)生債務(wù)正在急劇上升的危險。此外,如果這種趨勢繼續(xù)下去,那么我們可以利用回歸線預(yù)測,到2026年年底,學(xué)生債務(wù)總額將達到2萬億美元。


例2 收入預(yù)測


1983年,奧斯卡最佳編劇William Goldman在他的書《Adventures in the Screen Trade》中指出“無人知曉任何事情”,意思是說,他認(rèn)為在當(dāng)時無法預(yù)測好萊塢電影能否成功。然而,在后互聯(lián)網(wǎng)時代的今天,準(zhǔn)確估計即將上映電影的票房收入正在成為可能。


特別是,預(yù)告片的網(wǎng)絡(luò)搜索量以及Twitter、Facebook等社交網(wǎng)絡(luò)上關(guān)于電影的討論數(shù)量,已被證明提前一個月就能可靠地預(yù)測出電影的首映周末票房收入。一些產(chǎn)品或者服務(wù)的銷量預(yù)測,包括票房預(yù)測,一般用回歸來實現(xiàn)。其中,輸入特征可以是某天內(nèi)的預(yù)告片搜索量,輸出是相應(yīng)時段內(nèi)的收入。基于這些數(shù)據(jù)學(xué)習(xí)的回歸模型可用于估計新電影的預(yù)期收入。



例3 基因與數(shù)量性狀的關(guān)聯(lián)


全基因組關(guān)聯(lián)(GWA)研究(如圖1-9所示)旨在理解數(shù)以萬計的基因標(biāo)記之間的關(guān)系,這些基因標(biāo)記來自于眾多領(lǐng)域的人類基因組,包含高血壓/膽固醇、心臟病、糖尿病、各種癌癥以及其他疾病。


這些研究是希望有朝一日能產(chǎn)生基因靶向療法,像治療由單一基因引起的疾病(如囊性纖維化)那樣,幫助人們治愈由多種因素導(dǎo)致的疾病。在GWA研究中,回歸作為一種常用的工具,用來理解基因標(biāo)記(特征)與膽固醇或葡萄糖水平(連續(xù)的輸出變量)等數(shù)量性狀之間的復(fù)雜關(guān)系。


圖1-9 一個使用回歸的GWA研究的概念圖,其中一個數(shù)量性狀與特定的基因組位置有關(guān)



02 分類


分類的機器學(xué)習(xí)任務(wù)在原理上與回歸類似。二者的主要區(qū)別是,分類的主要任務(wù)是預(yù)測離散的值或者類別,而不是預(yù)測連續(xù)值輸出(如股票價格和血壓等)。分類問題可以以不同的形式出現(xiàn)。例如,目標(biāo)識別就是一個非常流行的分類問題,它將一組圖像中的目標(biāo)區(qū)分開來(如自動分類郵件上的手寫數(shù)字,或者半自動駕駛和自動駕駛過程中的路牌區(qū)分)。


怎樣教一臺計算機區(qū)分貓和狗?一文零基礎(chǔ)入坑機器學(xué)習(xí)》一文中討論的區(qū)分貓和狗的微型問題也是這樣的分類問題。其他常見的分類問題還包括語音識別(語音識別系統(tǒng)識別不同的口語單詞),確定Twitter等社交網(wǎng)絡(luò)上對某個產(chǎn)品或服務(wù)的普遍感受,以及在一個有限的可能集合中確定一個人正在做的手勢(如控制一臺沒有鼠標(biāo)的計算機)。


從幾何學(xué)上講,看待分類任務(wù)的一種常見方法是找到一個分離線(或更高維度的超平面),將這兩類數(shù)據(jù)盡可能地從訓(xùn)練集中分離出來。


注:有些分類問題,如手寫數(shù)字識別,會涉及兩個以上的類別,需要比一條直線更好的模型來分隔這些類。


這正是我們在描述怎樣教一臺計算機區(qū)分貓和狗?一文零基礎(chǔ)入坑機器學(xué)習(xí)的微型示例時所采用的分類觀點,采用一條直線來分隔(從圖像中提取的特征)貓和狗的圖片。對于測試集中的新數(shù)據(jù),只需要簡單地確定它們位于直線或者超平面的哪一側(cè)就可以對其進行自動分類。圖1-10展示了用于在二維微型數(shù)據(jù)上進行分類的線性模型或分類器的概念。


圖1-10 (左上圖)包含兩個不同的類的微型二維訓(xùn)練集;(右上圖)一個已經(jīng)訓(xùn)練好的用來區(qū)分這兩個類的線性模型;(左下圖)一個未知類的測試點;(右下圖)測試點被分到相應(yīng)的類中,因為這個點位于已訓(xùn)練好的線性分類器的右側(cè)


例4 目標(biāo)檢測


目標(biāo)檢測是一種常見的分類問題,它是在一組圖像或視頻中自動識別特定對象的任務(wù)。常見的目標(biāo)檢測應(yīng)用包括用于組織目的和照相機聚焦的人臉圖像檢測,用于自動駕駛車輛的行人檢測,以及用于電子產(chǎn)品質(zhì)量控制自動化的殘次品檢測。除了我們要重點討論的人臉檢測外,相同的機器學(xué)習(xí)框架可用來解決許多類似的檢測問題。


注:盡管行人檢測是一個經(jīng)過深入研究的分類問題,但一個標(biāo)準(zhǔn)的半自動或自動汽車會使用多個探測器來發(fā)現(xiàn)汽車周圍的其他重要物體,如道路標(biāo)識、交通信號和其他汽車。


在包含人臉和其他圖像的訓(xùn)練集上訓(xùn)練好線性分類器后,對于新的測試圖像,可通過在整個圖像上滑動一個(通常是)正方形的窗口來尋找人臉。在滑動窗口的每個位置,對內(nèi)部的圖像內(nèi)容進行測試,查看它位于分類器的哪一側(cè)(如圖1-11所示)。如果圖像內(nèi)容(的特征表示)位于學(xué)習(xí)分類器“人臉這一側(cè)”,那么它就被分類為人臉。


注:在實際應(yīng)用中,為了確保在測試圖像中檢測到與照相機具有不同距離的所有人臉,通常會采用不同大小的窗口來掃描圖像。如果多個檢測都是圍繞單個人臉進行的,那么它們就會被組合成一個高亮顯示的窗口,將檢測到的人臉包圍起來。


圖1-11 為了確定測試圖片中是否存在人臉(該示例圖片中,飛機的發(fā)明者萊特兄弟并排坐在他們于1908年發(fā)明的第一個機動飛行器上),一個小窗口掃描了圖片的全部區(qū)域。在每個位置上,通過檢查特征表示位于分類器的哪一側(cè)來確定小框中的內(nèi)容是否為人臉。作為示例,右圖中的直線上方和下方區(qū)域分別表示學(xué)習(xí)分類器的人臉一側(cè)和非人臉一側(cè)


例5 情感分析


社交媒體的興起極大地放大了消費者的聲音,為他們提供了一系列良好的渠道來評論、討論、評估產(chǎn)品和服務(wù)。這促使很多公司尋找數(shù)據(jù)密集型方法來評估消費者對新發(fā)布的產(chǎn)品、廣告活動等的感受。


通過使用基于文本的內(nèi)容(如產(chǎn)品評價、推文和評論)來確定大量客戶群的總體感受,通常稱為情感分析。分類模型通常用于情感分析,學(xué)習(xí)辨別消費者的正面或負面情緒數(shù)據(jù)。




例6 作為醫(yī)學(xué)診斷工具的分類


各種各樣的癌癥仍然是診斷和治療中最具挑戰(zhàn)性的疾病。


今天,人們相信許多癌癥的罪魁禍?zhǔn)自谟谕蛔兓虻姆e累,或者換句話說,是個人DNA序列的錯誤復(fù)制。利用DNA微陣列技術(shù),遺傳學(xué)家現(xiàn)在可以同時從健康和腫瘤組織中查詢成千上萬個基因的表達水平。這些數(shù)據(jù)可以用于自動識別癌癥遺傳易感性患者的分類框架。該問題和例3所討論的基因與數(shù)量生物性狀的關(guān)聯(lián)性有關(guān)。


在醫(yī)學(xué)界,利用人腦功能性核磁共振成像(fMRI),分類也越來越多地用于診斷神經(jīng)系統(tǒng)疾病,如自閉癥和注意缺陷多動障礙(ADHD)等。這些fMRI腦部掃描可以在病人執(zhí)行簡單的認(rèn)知活動(如追蹤一個小的視覺對象)時,隨著時間的推移,捕獲大腦不同區(qū)域的神經(jīng)活動模式。


這里的最終目標(biāo)是訓(xùn)練一種診斷分類工具,僅基于fMRI掃描就能區(qū)分具有特定神經(jīng)系統(tǒng)疾病的患者和沒有此疾病的患者。




03 特征設(shè)計


正如我們在前面章節(jié)中所描述的,特征是定義給定數(shù)據(jù)集的特性,從而允許最優(yōu)的學(xué)習(xí)。事實上,精心設(shè)計的特征對回歸和分類方案的性能都是至關(guān)重要的。


然而,從廣義上說,我們所能設(shè)計特征的好壞,從根本上取決于我們對所研究現(xiàn)象的知識水平。我們越了解(在智力和直覺上)手頭數(shù)據(jù)的生成過程,設(shè)計的特征就越好,或者在理想情況下,教會計算機自己完成這項設(shè)計工作。在極端情況下,我們幾乎完全理解數(shù)據(jù)的生成過程,這些知識來自于大量直觀的、實驗性的以及數(shù)學(xué)上的思考,我們設(shè)計的特征也會有近乎完美的性能。


然而,通常情況下,我們對正在分析的數(shù)據(jù)只了解一點,甚至一點也不了解。宇宙巨大而復(fù)雜,關(guān)于它如何運行的確切理解,我們知道的還只是鳳毛麟角。


下面我們舉一些例子,說明我們對現(xiàn)象的理解程度(從對現(xiàn)象的十分了解到只了解一些基本事實)是如何指導(dǎo)特征設(shè)計的。本節(jié)的一個主旨是詳細闡述機器學(xué)習(xí)技術(shù)處理這個問題的現(xiàn)狀。


機器學(xué)習(xí)的一個最終目標(biāo)是開發(fā)有效的工具來處理任意類型的數(shù)據(jù)(發(fā)現(xiàn)其中的模式)。該目標(biāo)現(xiàn)在還遠未得到充分實現(xiàn),從根本上來說,它要解決的問題與尋找好的特征有關(guān)。



例7 伽利略和勻加速


1638年,伽利略因被天主教會驅(qū)逐而臭名昭著。他被驅(qū)逐的原因是,在他最后出版的書《Dialogues Concerning Two New Sciences》中,他大膽宣稱地球是繞太陽轉(zhuǎn)的,而不是太陽繞地球轉(zhuǎn)(當(dāng)時的主流觀點)。在這本書中,他以亞里士多德傳統(tǒng)的三人對話形式,為勻加速物理運動的概念描述了他的實驗和哲學(xué)證據(jù)。


具體而言,伽利略(和其他人)直覺上認(rèn)為,由于(我們現(xiàn)在所知道的)重力,物體的加速度在時間上是一致的。換言之,物體下落的距離與它運動時間的平方成正比(即線性相關(guān))。該關(guān)系是伽利略用以下巧妙而簡單的實驗經(jīng)驗性地得到的。


如圖1-12所示,反復(fù)讓一個金屬球從一個5.5米長的帶槽傾斜木頭上滾下,伽利略記錄小球到達木頭斜面的1/4、1/2、2/3、3/4以及斜面底端的時間。


注:這里使用斜面而不是將球垂直地扔下來的原因是,在伽利略所處的年代,計時器不夠精確,不能精確測量球的下落時間。


圖1-12伽利略斜面實驗裝置,用于探索物體因重力下落的距離與時間的關(guān)系。為了完成這個實驗,他反復(fù)將球滾下斜坡,并記錄小球到達斜坡1/4、1/2、2/3、3/4以及斜坡底端的時間


通過現(xiàn)代實驗重現(xiàn)(30次試驗的平均值)得到了一些數(shù)據(jù),結(jié)果如圖1-13的6個數(shù)據(jù)點所示。但是,這里我們沒有顯示原始的輸入(時間)和輸出(相應(yīng)的經(jīng)過斜面的比例)數(shù)據(jù),而是顯示輸出和對應(yīng)的特征,即時間的平方。在伽利略的原始實驗中,時間是用水的毫升數(shù)估計的。


注:按時間順序排列的表(像我們今天這樣記錄小時、分鐘和秒的個人計時器)在伽利略年代并不存在。相反,時間是通過計算每一個球滾下斜坡時從壺嘴滴落到小杯里的水量來計算的。這種聰明的計時裝置被稱為“水鐘”。


通過把時間的平方當(dāng)成特征,數(shù)據(jù)集變得非常線性相關(guān),可以近乎完美地用線性回歸來擬合。


圖1-13 伽利略的實驗數(shù)據(jù)由6個點組成,它們的輸入是時間,輸出是經(jīng)過斜面的比例。圖中顯示的是帶有時間平方特征的輸出及其線性擬合。在機器學(xué)習(xí)中,我們將變量“時間的平方”稱作原始輸入變量“時間”的一個特征


例8 視覺目標(biāo)檢測的特征設(shè)計


一個更為現(xiàn)代的特征設(shè)計示例是視覺目標(biāo)檢測任務(wù)(在例4中引入)。在該任務(wù)中,我們對數(shù)據(jù)生成的底層過程只有部分了解。與之前討論的伽利略和勻加速例子不同,我們在實驗和哲學(xué)意義上對視覺認(rèn)知的基本過程知之甚少。然而,即使在一知半解的情況下,也可以為目標(biāo)檢測設(shè)計出有用的特征。


在視覺分類任務(wù)的特征設(shè)計過程中,最重要且最常見的一個事實是,一幅自然圖像中的辨別信息很大程度上被包含在圖像內(nèi)相對較少的邊緣中。自然圖像中的人可能會置身于森林或者戶外場景、城市風(fēng)光、其他人群、動物以及建筑物等中。


圖1-14的例子中包含一幅自然圖像以及一幅由其最突出邊緣組成的圖像。自然圖像中的大部分像素不屬于任何邊緣,但是在只有邊緣的情況下,我們?nèi)匀荒鼙鎰e出圖像中包含什么。


圖1-14(左圖)一張自然圖像,圖片中包含電視節(jié)目《South Park》的兩個創(chuàng)始人/作家(這張圖片是在Jason Marck的許可下復(fù)制的)。(右圖)左圖的邊緣檢測版本,突出的像素表示大的邊緣內(nèi)容,只用原始圖像中的一部分信息,仍然可以很好地描述圖像的場景(從這個意義上說,我們?nèi)匀荒茏R別出圖中有兩個人)


通過在青蛙、貓和靈長類動物身上進行的大量視覺研究(對研究對象進行視覺刺激,同時記錄處理視覺信息的大腦區(qū)域的電脈沖),神經(jīng)系統(tǒng)科學(xué)家已經(jīng)確定所涉及的單個神經(jīng)元大致通過識別邊緣來發(fā)揮作用。


因此,每個神經(jīng)元充當(dāng)一個小的“邊緣檢測器”,定位圖片中特定方向和寬度的邊緣,如圖1-15所示。一般認(rèn)為,通過組合和處理這些邊緣檢測圖像,人類和其他哺乳動物就能“看到”。


圖1-15視覺信息是在大腦的一個區(qū)域中進行處理的,每個神經(jīng)元在觀察到的場景中檢測特定方向和寬度的邊緣。我們(和哺乳動物)所看到的被認(rèn)為是這些邊緣檢測圖像經(jīng)過處理的插值


關(guān)于作者:杰瑞米·瓦特(Jeremy Watt),獲得美國西北大學(xué)計算機科學(xué)與電氣工程專業(yè)博士學(xué)位,研究興趣是機器學(xué)習(xí)、計算機視覺和數(shù)值優(yōu)化。

雷薩·博哈尼(Reza Borhani),獲得美國西北大學(xué)計算機科學(xué)與電氣工程專業(yè)博士學(xué)位,研究興趣是面向機器學(xué)習(xí)和計算機視覺問題的算法設(shè)計與分析。

阿格洛斯·K.卡薩格羅斯(Aggelos K. Katsaggelos),美國西北大學(xué)計算機科學(xué)與電氣工程系教授,Joseph Cummings名譽教授,圖像與視頻處理實驗室的負責(zé)人。

本文摘編自《機器學(xué)習(xí)精講:基礎(chǔ)、算法及應(yīng)用》,經(jīng)出版方授權(quán)發(fā)布。


延伸閱讀《機器學(xué)習(xí)精講:基礎(chǔ)、算法及應(yīng)用

點擊上圖了解及購買

轉(zhuǎn)載請聯(lián)系微信:togo-maruko


推薦語:本書為了解機器學(xué)習(xí)提供了一種獨特的途徑。書中包含了新穎、直觀而又嚴(yán)謹(jǐn)?shù)幕靖拍蠲枋?#xff0c;它們是研究課題、制造產(chǎn)品、修補漏洞以及實踐不可或缺的部分。



據(jù)統(tǒng)計,99%的大咖都完成了這個神操作



更多精彩


在公眾號后臺對話框輸入以下關(guān)鍵詞

查看更多優(yōu)質(zhì)內(nèi)容!


PPT?|?報告?|?讀書?|?書單?|?干貨?

大數(shù)據(jù)?|?揭秘?|?Python?|?可視化

人工智能?|?機器學(xué)習(xí)?|?深度學(xué)習(xí)?|?神經(jīng)網(wǎng)絡(luò)

AI?|?1024?|?段子?|?區(qū)塊鏈?|?數(shù)學(xué)


猜你想看


  • 從計算機視覺到人臉識別:一文看懂顏色模型、信號與噪聲

  • 什么是Apache Spark?這篇文章帶你從零基礎(chǔ)學(xué)起

  • 如果數(shù)據(jù)有質(zhì)量,地球?qū)⒊珊诙?#xff1f;

  • 干貨:一文看懂網(wǎng)絡(luò)爬蟲實現(xiàn)原理與技術(shù)(值得收藏)



Q:?你對哪個案例最感興趣?

歡迎留言與大家分享

覺得不錯,請把這篇文章分享給你的朋友

轉(zhuǎn)載 / 投稿請聯(lián)系:baiyu@hzbook.com

更多精彩,請在后臺點擊“歷史文章”查看

點擊閱讀原文,了解更多

總結(jié)

以上是生活随笔為你收集整理的8个应用案例告诉你,机器学习都能做什么?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。