日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

开源神器,无需一行代码就能搞定机器学习,不会数学也能上手

發布時間:2024/9/27 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 开源神器,无需一行代码就能搞定机器学习,不会数学也能上手 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

對于機器學習和數據科學的初學者來說,最大的挑戰之一是需要同時學習太多知識,特別是如果你不知道如何編碼。你需要快速地適應線性代數、統計以及其他數學概念,并學習如何編碼它們,對于新用戶來說,這可能會有點難以承受。

如果你沒有編碼的背景并且發現很難學習下去,這時你可以用一個GUI驅動的工具來學習數據科學。當你剛開始學習的時候,可以集中精力學習實際的項目。一旦適應了基本的概念,你就可以在以后慢慢學習如何編寫代碼。

在今天的文章中,我將介紹一個基于GUI的工具:KNIME。讀完本文,你將在無需編寫任何代碼的情況下,預測零售商店的銷售情況。

好吧,讓我們開始吧!

為什么是KNIME ?

KNIME是一個基于GUI工作流的強大分析平臺。這意味著你不必知道如何編寫代碼(對于像我這樣的初學者來說是一種解脫),就能夠使用KNIME并獲得洞察力。

你可以執行從基本I/O到數據操作、轉換和數據挖掘等功能。它將整個過程的所有功能合并到一個工作流中。

設置系統

在開始KNIME之前,首先你需要安裝它并在PC上設置它。

到KNIME下載頁面。

為你的電腦確定正確的版本:

安裝該平臺,并為KNIME設置工作目錄以存儲其文件:

這就是你屏幕上顯示的樣子。

創建你的第一個工作流程

在我們深入研究KNIME的工作原理之前,讓我們先定義幾個關鍵術語來幫助我們理解,然后看看如何在KNIME中打開一個新項目。

  • 節點:節點是任何數據操作的基本處理點。它可以根據你在工作流程中選擇的內容來執行一些操作。

  • 工作流:工作流是指你在平臺上完成特定任務的步驟或操作的順序。

在左上角的工作流指導會向你展示KNIME社區特定節點的使用百分比。節點存儲庫將顯示特定工作流可以擁有的所有節點,這取決于你的需要。當創建第一個工作流時,你還可以瀏覽示例工作流來檢查更多的工作流。這是邁向解決任何問題的第一步。

要建立一個工作流,可以遵循這些步驟。

進入文件菜單,點擊新建:

在你的平臺上創建一個新的KNIME工作流并命名它為Introduction。

現在,當點擊Finish時,你應該已經成功創建了你的第一個KNIME工作流。

這是你在KNIME上的空白工作流程。現在,你就可以從存儲庫將任何節點拖放到工作流中來探索和解決任何問題。

KNIME介紹

KNIME是一個可以幫助解決我們在數據科學的邊界上可能遇到任何問題的平臺。從最基本的可視化或線性回歸到高級深度學習,KNIME可以做到這一切。

作為一個示例用例,我們在本教程中要解決的問題是Datahack可以訪問的BigMart銷售問題。

這個問題具體描述如下:

BigMart的數據科學家已經收集了2013年不同城市10家商店1559種產品的銷售數據。此外,還定義了每個產品和存儲的某些屬性。其目的是建立一個預測模型,并在特定的商店中找出每種產品的銷售情況。使用這個模型,BigMart將嘗試了解產品和商店的屬性,這些屬性在增加銷售中扮演著關鍵的角色。

你可以在這里找到BigMart銷售問題的方法和解決方案。

導入數據文件

讓我們從理解這個問題的第一(但非常重要)步驟開始:導入我們的數據。

拖放文件閱讀器節點到工作流并雙擊它。接下來,瀏覽需要導入到工作流中的文件。

在本文中,我們將學習如何解決BigMart銷售的問題,我將從BigMart Sales導入訓練數據集:

這就是導入數據集時預覽的樣子。

讓我們可視化一些相關的列,并找出它們之間的相關性。相關性幫助我們發現哪些列可能是相互關聯的,并具有更高的預測能力來幫助我們最終的結果。要了解更多相關信息,請閱讀本文。

為了創建一個correlation matrix矩陣,我們在節點存儲庫中鍵入“linear correlation”,然后將其拖放到我們的工作流中。

在我們拖放之后,我們將把文件閱讀器File reader的輸出連接到節點linear correlation的輸入。

單擊topmost面板上的綠色按鈕Execute。然后右擊相關節點并選擇View:Correlation Matrix 生成下圖。

這將幫助你選擇重要的特性,并通過在特定的單元上懸停來更好地預測。

接下來,我們將可視化數據集的范圍和模式來更好地理解它。

可視化和分析

其實,我們想要從數據中了解到的主要事情之一就是:什么東西被賣得最多。

有兩種解釋信息的方法:散點圖(Scatter Plot )和餅圖(pie chart)。

散點圖

在我們的節點存儲庫中搜索Views 項下的Scatter Plot 。將其以類似的方式拖放到工作流中,并將文件閱讀器的輸出連接到此節點。

接下來,配置節點,選擇你需要多少行數據,并希望可視化(我選擇了3000)。

單擊Execute,然后查看:散點圖。

X軸為Item_Type,Y軸為Item_Outlet_Sales。

上面的圖代表了每種商品的銷售情況,并向我們展示了水果和蔬菜的銷售量是最高的。

餅狀圖

要了解我們數據庫中所有產品類型的平均銷售估算,我們將使用一個餅圖。

單擊視圖下的餅圖節點并將其連接到你的文件閱讀器。選擇需要隔離的列并選擇首選的聚合方法,然后應用。

這張圖表向我們展示了銷售在各種產品上的平均分配。“淀粉類食品”的平均銷量為7.7%。

以上,我只使用了兩種類型的視圖,盡管你還可以在瀏覽Views選項卡下查看多種表單中的數據。比如可以使用直方圖、行圖等來更好地可視化你的數據。

我喜歡像Tableau這樣的工具,它是實現數據可視化的最有力工具。

如何清洗數據?

在訓練模型之前,你可以進行的一項內容就是數據清理和特性提取。這里,我將提供一個關于KNIME數據清理步驟的概述。

尋找Missing Values

在估算值之前,我們需要知道哪些是缺失的。

再次訪問節點存儲庫,找到Missing Values節點。拖放它,并將我們的文件閱讀器File reader 的輸出連接到節點。

Imputations

要imputed values ,請選擇Missing value并單擊Configure。根據所要數據的類型,選擇你想要的數據,并點擊Apply。

現在,當我們執行它時,在Missing value節點的輸出端口上已經準備好了具有imputed values的完整數據集。在我的分析中,我選擇了imputation 方法為:

String:

Next value
Previous value
Custom value
Remove row

Number (double and integer):

Mean
Median
Previous value
Next value
Custom value
Linear interpolation
Moving average

訓練你的第一個模型

讓我們來看看如何在KNIME中構建機器學習模型。

實現一個線性模型Linear Model

首先,我們將訓練一個線性模型Linear Model
,它包含了數據集的所有特性,以了解如何選擇特性并構建模型。這是一個初學者的線性回歸指南。

進入你的節點存儲庫,并將Linear Regression Learner拖到工作流中。然后將收集的干凈數據連接到 Missing value 節點的輸出端口。

這是你現在的屏幕呈現。在Configuration選項卡中,排除Item_Identifier并在頂部選擇目標變量。完成這個任務之后,需要導入testdata來運行模型。

將另一個文件閱讀器拖放到工作流中,并從你的系統中選擇測試數據。

正如我們所看到的,測試數據也包含缺失值。我們將以與訓練數據相同的方式在Missing value節點上運行它。

在我們清洗了測試數據之后,將引入一個新的節點:Regression predictor。

通過將learner的輸出與預測器的輸入連接起來,將你的模型加載到預測器中。在預測器的第二個輸入中,加載你的測試數據。預測器會根據你的learner自動調整預測欄,但也可以手動改變它。

KNIME有能力在分析標簽下訓練一些非常專業的模型。這里是一個列表:

Clustering
Neural networks
Ensemble learners
Na?ve Bayes

提交你的解決方案

在執行預測器之后,輸出幾乎已經準備好提交了。

在節點存儲庫中找到節點列過濾器Column filter,并將其拖到工作流中。將預測器的輸出連接到列篩選器,并配置它篩選所需的列。在這種情況下,你需要Item_Identifier、Outlet_Identifier和Outlet_Sales的預測。

執行列過濾器Column filter,最后,搜索節點CSV writer并將你的預測記錄在硬盤上。

調整路徑,將其設置為需要存儲的CSV文件,并執行該節點。最后,打開CSV文件以按照我們的解決方案來糾正列名。將CSV文件壓縮成ZIP文件并提交你的解決方案!

這是最終的工作流圖。

在可移植性方面,KNIME工作流非常方便。它們可以發送給你的朋友或同事一起構建,增加你產品的功能!

為了導出一個KNIME工作流,可以簡單地單擊File > Export KNIME Workflow.

在此之后,選擇您需要導出的合適的工作流,然后單擊Finish。

這會創建一個.knwf文件,你可以發送給任何人,他們將能夠使用一鍵訪問它!

限制

KNIME是一個非常強大的開源工具,但是它也有自己的局限性。主要是:

- 可視化并不像其他一些開源軟件(比如RStudio)那樣簡潔優雅。
- 版本更新不受支持;你將不得不重新安裝軟件(也就是說,從版本2更新到版本3,你將需要重新安裝)。
- 貢獻社區不像Python或CRAN社區那么大,因此新的功能需要很長時間才能添加到KNIME中。

原文鏈接:Building Your First Machine Learning Model Using KNIME(責編/魏偉)

總結

以上是生活随笔為你收集整理的开源神器,无需一行代码就能搞定机器学习,不会数学也能上手的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。