日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

机器学习---数据简介及数据清洗概述

發(fā)布時(shí)間:2023/12/31 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习---数据简介及数据清洗概述 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

| 1.1 數(shù)據(jù)

數(shù)據(jù):它可以是任何未經(jīng)解釋和分析的未經(jīng)處理的事實(shí)、價(jià)值、文本、聲音或圖片。數(shù)據(jù)是所有數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、人工智能中最重要的部分。沒(méi)有數(shù)據(jù),我們無(wú)法訓(xùn)練任何模型,所有現(xiàn)代研究和自動(dòng)化都將徒勞無(wú)功。大企業(yè)花費(fèi)大量資金只是為了收集盡可能多的特定數(shù)據(jù)。

信息:已被解釋和操作的數(shù)據(jù),現(xiàn)在對(duì)用戶有一些有意義的推斷。?

知識(shí):推斷信息、經(jīng)驗(yàn)、學(xué)習(xí)和見(jiàn)解的結(jié)合。結(jié)果為個(gè)人或組織建立意識(shí)或概念。?

我們?nèi)绾卧跈C(jī)器學(xué)習(xí)中拆分?jǐn)?shù)據(jù)???

  • 訓(xùn)練數(shù)據(jù):我們用來(lái)訓(xùn)練模型的數(shù)據(jù)部分。這是您的模型實(shí)際看到(輸入和輸出)并從中學(xué)習(xí)的數(shù)據(jù)。

  • 驗(yàn)證數(shù)據(jù):用于對(duì)模型進(jìn)行頻繁評(píng)估的數(shù)據(jù)部分,適合訓(xùn)練數(shù)據(jù)集以及改進(jìn)所涉及的超參數(shù)(在模型開(kāi)始學(xué)習(xí)之前初始設(shè)置參數(shù))。當(dāng)模型實(shí)際訓(xùn)練時(shí),這些數(shù)據(jù)會(huì)發(fā)揮作用。

  • 測(cè)試數(shù)據(jù):一旦我們的模型完全訓(xùn)練完畢,測(cè)試數(shù)據(jù)就會(huì)提供無(wú)偏見(jiàn)的評(píng)估。當(dāng)我們輸入測(cè)試數(shù)據(jù)時(shí),我們的模型將預(yù)測(cè)一些值(沒(méi)有看到實(shí)際輸出)。在預(yù)測(cè)之后,我們通過(guò)將模型與測(cè)試數(shù)據(jù)中的實(shí)際輸出進(jìn)行比較來(lái)評(píng)估我們的模型。這就是我們?nèi)绾卧u(píng)估和查看我們的模型從作為訓(xùn)練數(shù)據(jù)輸入的經(jīng)驗(yàn)中學(xué)到了多少,這些經(jīng)驗(yàn)是在訓(xùn)練時(shí)設(shè)置的。

? ?

| 2.1?數(shù)據(jù)處理

數(shù)據(jù)處理是將數(shù)據(jù)從給定形式轉(zhuǎn)換為更可用和更理想的形式的任務(wù),即使其更有意義和信息豐富。使用機(jī)器學(xué)習(xí)算法、數(shù)學(xué)建模和統(tǒng)計(jì)知識(shí),整個(gè)過(guò)程可以自動(dòng)化。這個(gè)完整過(guò)程的輸出可以是任何所需的形式,如圖形、視頻、圖表、表格、圖像等等,具體取決于我們正在執(zhí)行的任務(wù)和機(jī)器的要求。這似乎很簡(jiǎn)單,但對(duì)于 Twitter、Facebook 等大型組織、議會(huì)、教科文組織等行政機(jī)構(gòu)和衛(wèi)生部門組織,整個(gè)過(guò)程需要以非常結(jié)構(gòu)化的方式進(jìn)行。因此,要執(zhí)行的步驟如下:?

  • 收集:?
    從 ML 開(kāi)始,最關(guān)鍵的一步是擁有高質(zhì)量和準(zhǔn)確的數(shù)據(jù)。可以從任何經(jīng)過(guò)身份驗(yàn)證的來(lái)源收集數(shù)據(jù),例如Kaggle或UCI 數(shù)據(jù)集存儲(chǔ)庫(kù)。例如,在準(zhǔn)備競(jìng)爭(zhēng)性考試時(shí),學(xué)生從他們可以訪問(wèn)的最好的學(xué)習(xí)材料中學(xué)習(xí),以便他們學(xué)得最好,從而獲得最好的結(jié)果。同樣,高質(zhì)量和準(zhǔn)確的數(shù)據(jù)將使模型的學(xué)習(xí)過(guò)程更容易和更好,并且在測(cè)試時(shí),模型將產(chǎn)生最先進(jìn)的結(jié)果。?
    收集數(shù)據(jù)消耗了大量的資金、時(shí)間和資源。組織或研究人員必須決定執(zhí)行任務(wù)或研究所需的數(shù)據(jù)類型。?
    示例:在面部表情識(shí)別器上工作,需要大量具有各種人類表情的圖像。良好的數(shù)據(jù)可確保模型的結(jié)果有效且值得信賴。?
    ?

  • 準(zhǔn)備:?
    收集的數(shù)據(jù)可以是原始形式,不能直接輸入機(jī)器。因此,這是一個(gè)從不同來(lái)源收集數(shù)據(jù)集、分析這些數(shù)據(jù)集然后構(gòu)建新數(shù)據(jù)集以進(jìn)行進(jìn)一步處理和探索的過(guò)程。這種準(zhǔn)備可以手動(dòng)進(jìn)行,也可以通過(guò)自動(dòng)方法進(jìn)行。數(shù)據(jù)也可以以數(shù)字形式準(zhǔn)備,這也將加快模型的學(xué)習(xí)。?
    示例:可以將圖像轉(zhuǎn)換為 NXN 維度的矩陣,每個(gè)單元格的值將指示圖像像素。

  • 輸入:?
    現(xiàn)在準(zhǔn)備好的數(shù)據(jù)可以是機(jī)器不可讀的形式,所以要將這些數(shù)據(jù)轉(zhuǎn)換成可讀的形式,需要一些轉(zhuǎn)換算法。要執(zhí)行此任務(wù),需要高計(jì)算量和準(zhǔn)確性。示例:可以通過(guò) MNIST 數(shù)字?jǐn)?shù)據(jù)(圖像)、Twitter 評(píng)論、音頻文件、視頻剪輯等來(lái)源收集數(shù)據(jù)。

  • 處理:?
    這是需要算法和 ML 技術(shù)以準(zhǔn)確和優(yōu)化計(jì)算來(lái)執(zhí)行在大量數(shù)據(jù)上提供的指令的階段。

  • 輸出:?
    在此階段,機(jī)器以有意義的方式獲取結(jié)果,用戶可以輕松推斷出結(jié)果。輸出可以是報(bào)告、圖表、視頻等形式

  • 存儲(chǔ):?
    這是保存獲得的輸出和數(shù)據(jù)模型數(shù)據(jù)以及所有有用信息以供將來(lái)使用的最后一步。

| 3.1?數(shù)據(jù)清洗

數(shù)據(jù)清洗是機(jī)器學(xué)習(xí)的重要組成部分之一。它在構(gòu)建模型中起著重要作用。它肯定不是機(jī)器學(xué)習(xí)中最精彩的部分,同時(shí)也沒(méi)有任何隱藏的技巧或秘密可供發(fā)現(xiàn)。但是,項(xiàng)目的成敗取決于適當(dāng)?shù)臄?shù)據(jù)清理。專業(yè)的數(shù)據(jù)科學(xué)家通常會(huì)在這一步投入很大一部分時(shí)間,因?yàn)樗麄兿嘈?strong>“更好的數(shù)據(jù)勝過(guò)更高級(jí)的算法”。?
如果我們有一個(gè)經(jīng)過(guò)良好清理的數(shù)據(jù)集,我們也有可能通過(guò)簡(jiǎn)單的算法獲得良好的結(jié)果,這有時(shí)會(huì)證明是非常有益的,尤其是在數(shù)據(jù)集較大時(shí)的計(jì)算方面。?

顯然,不同類型的數(shù)據(jù)將需要不同類型的清理。然而,這種系統(tǒng)的方法總是可以作為一個(gè)很好的起點(diǎn)。?

數(shù)據(jù)清洗涉及的步驟:?

  • 刪除不需要的觀察?
    這包括從數(shù)據(jù)集中刪除重復(fù)/冗余或不相關(guān)的值。在數(shù)據(jù)收集過(guò)程中最常出現(xiàn)重復(fù)觀察,而不相關(guān)的觀察是那些實(shí)際上不適合您要解決的特定問(wèn)題的觀察。?

    • 隨著數(shù)據(jù)的重復(fù),冗余觀察在很大程度上改變了效率,并且可能會(huì)向正確的一側(cè)或錯(cuò)誤的一側(cè)添加,從而產(chǎn)生不忠實(shí)的結(jié)果。

    • 不相關(guān)的觀察是對(duì)我們沒(méi)有用的任何類型的數(shù)據(jù),可以直接刪除。

  • 修復(fù)結(jié)構(gòu)錯(cuò)誤?
    在測(cè)量、數(shù)據(jù)傳輸或其他類似情況下出現(xiàn)的錯(cuò)誤稱為結(jié)構(gòu)錯(cuò)誤。結(jié)構(gòu)錯(cuò)誤包括特征名稱中的拼寫錯(cuò)誤、具有不同名稱的相同屬性、錯(cuò)誤標(biāo)記的類(即實(shí)際上應(yīng)該相同的單獨(dú)類)或大小寫不一致。?

    • 例如,模型會(huì)將 America 和 America 視為不同的類或值,盡管它們表示相同的值或紅色、黃色和紅黃色作為不同的類或?qū)傩?#xff0c;盡管一個(gè)類可以包含在其他兩個(gè)類中。因此,這些是一些結(jié)構(gòu)性錯(cuò)誤,使我們的模型效率低下并給出質(zhì)量差的結(jié)果。?

  • 管理不需要的異常值異常?
    值可能會(huì)導(dǎo)致某些類型的模型出現(xiàn)問(wèn)題。例如,線性回歸模型對(duì)異常值的魯棒性不如決策樹模型。一般來(lái)說(shuō),我們不應(yīng)該刪除異常值,直到我們有正當(dāng)理由刪除它們。有時(shí),刪除它們會(huì)提高性能,有時(shí)則不會(huì)。因此,必須有充分的理由去除異常值,例如不太可能成為真實(shí)數(shù)據(jù)一部分的可疑測(cè)量值。

  • 處理缺失數(shù)據(jù)?
    缺失數(shù)據(jù)是機(jī)器學(xué)習(xí)中一個(gè)看似棘手的問(wèn)題。我們不能只是忽略或刪除缺失的觀察。必須小心處理它們,因?yàn)樗鼈兛赡鼙砻饕恍┲匾氖虑椤L幚砣笔?shù)據(jù)的兩種最常見(jiàn)的方法是:?

  • ????????????????1.?刪除具有缺失值的觀察

      • 該值丟失的事實(shí)本身可能提供信息。

      • 另外,在現(xiàn)實(shí)世界中,即使缺少某些特征,您也經(jīng)常需要對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)!

    ????????????????2.?從過(guò)去的觀察中估算缺失值

      • 同樣,“缺失”本身幾乎總是提供信息,如果缺少值,您應(yīng)該告訴您的算法。

      • 即使你建立了一個(gè)模型來(lái)估算你的價(jià)值觀,你也沒(méi)有添加任何真實(shí)的信息。您只是在加強(qiáng)其他功能已經(jīng)提供的模式。

    丟失數(shù)據(jù)就像丟失了一塊拼圖。如果你放棄它,那就像假裝拼圖插槽不存在一樣。如果你估算它,那就像試圖從拼圖中的其他地方擠入一塊。?

    因此,丟失的數(shù)據(jù)始終是一種信息性和重要事物的指示。我們必須通過(guò)標(biāo)記它來(lái)了解我們的缺失數(shù)據(jù)算法。通過(guò)使用這種標(biāo)記和填充技術(shù),您實(shí)際上允許算法估計(jì)缺失的最佳常數(shù),而不是僅僅用平均值填充它。?

    一些數(shù)據(jù)清理工具?

    • Openrefine

    • Trifacta Wrangler?

    • TIBCO Clarity

    • Cloudingo

    • IBM Infosphere Quality Stage

    結(jié)論:?
    因此,我們討論了數(shù)據(jù)清洗中的四個(gè)不同步驟,以使數(shù)據(jù)更可靠并產(chǎn)生良好的結(jié)果。正確完成數(shù)據(jù)清理步驟后,我們將擁有一個(gè)強(qiáng)大的數(shù)據(jù)集,可以避免許多最常見(jiàn)的陷阱。這一步不應(yīng)該匆忙,因?yàn)樗谶M(jìn)一步的過(guò)程中被證明是非常有益的。

    References:

    • https://en.wikipedia.org/wiki/Machine_learning

    • Andrew Ng. Machine Learning[EB/OL]. StanfordUniversity,2017.https://www.coursera.org/course/ml

    • https://en.wikipedia.org/wiki/Supervised_learning

    |?4.1?寫在最后

    學(xué)習(xí)不是一蹴而就的,機(jī)器學(xué)習(xí)所涉及的內(nèi)容非常寬泛,后面可能還會(huì)涉及一些數(shù)學(xué)公式。不過(guò)作為一種面向應(yīng)用的方式方法,在不同的場(chǎng)景下同樣有著不同的解決方式,希望今天的內(nèi)容可以幫你明白數(shù)據(jù)的重要性,幫你打下堅(jiān)實(shí)的基礎(chǔ)。

    勘誤:

    由于我自己也不是資深編程高手,在創(chuàng)作此內(nèi)容時(shí)盡管已經(jīng)力求精準(zhǔn),查閱了諸多資料,還是難保有所疏漏,如果各位發(fā)現(xiàn)有誤可以公眾號(hào)內(nèi)留言,歡迎指正。

    你要偷偷學(xué)Python,然后驚艷所有人。

    -END-

    感謝大家的關(guān)注

    ? ?你關(guān)心的,都在這里

    總結(jié)

    以上是生活随笔為你收集整理的机器学习---数据简介及数据清洗概述的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。