當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习_机器不学习：从Spark MLlib到美图机器学习框架实践

發布時間：2024/4/11 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习_机器不学习：从Spark MLlib到美图机器学习框架实践小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

/ 機器學習簡介 /

在深入介紹 Spark MLlib 之前先了解機器學習，根據維基百科的介紹，機器學習有下面幾種定義：

機器學習是一門人工智能的科學，該領域的主要研究對象是人工智能，特別是如何在經驗學習中改善具體算法的性能；
機器學習是對能通過經驗自動改進的計算機算法的研究；
機器學習是用數據或以往的經驗，以此優化計算機程序的性能標準；
一種經常引用的英文定義是「A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.」。

*加粗的是重點/加粗的是重點/加粗的是重點

其實在「美圖數據技術團隊」之前的科普文章貝葉斯概率模型一覽曾介紹過，機器學習狹義上是指代統計機器學習，統計學習根據任務類型可以分為監督學習、半監督學習、無監督學習、增強學習等。

機器學習常用的算法可以分為以下種類：

1.構造間隔理論分布：人工神經網絡、決策樹、感知器、支持向量機、集成學習 AdaBoost、降維與度量學習、聚類、貝葉斯分類器；

2.構造條件概率：高斯過程回歸、線性判別分析、最近鄰居法、徑向基函數核；

3.通過再生模型構造概率密度函數：最大期望算法、概率圖模型(貝葉斯網和 Markov 隨機場)、Generative Topographic Mapping；

4.近似推斷技術：馬爾可夫鏈、蒙特卡羅方法、變分法；

5.最優化算法。

/ Spark MLlib /

在上文我們曾提到機器學習的重點之一是「經驗」，而對于計算機而言經驗往往需要經過多輪迭代計算才能得到，而 Spark 擅長迭代計算，正好符合機器學習這一特性。在 Spark 官網上展示了邏輯回歸算法在 Spark 和 Hadoop 上運行性能比較，從下圖可以看出 MLlib 比 MapReduce 快了 100 倍。

Spark MLlib 主要包括以下幾方面的內容：

學習算法：分類、回歸、聚類和協同過濾；
特征處理：特征提取、變換、降維和選擇；
管道(Pipeline)：用于構建、評估和調整機器學習管道的工具；
持久性：保存和加載算法，模型和管道；
實用工具：線性代數，統計，最優化，調參等工具。

上表總結了 Spark MLlib 支持的功能結構，可以看出它所提供的算法豐富，但算法種類較少并且老舊，因此 Spark MLlib 在算法上支持與 kylin 項目有些脫節，它的主要功能更多是與特征相關的。

ML Pipelines

從 Spark 2.0 開始基于 RDD 的 API 進入維護模式，Spark 的主要機器學習 API 現在是基于 DataFrame 的 API spark.ml，借鑒 Scikit-Learn 的設計提供了 Pipeline 套件，以構建機器學習工作流。 ML Pipelines 提供了一套基于 DataFrame 構建的統一的高級 API ，可幫助用戶創建和調整實用的機器學習流程。

*「Spark ML」不是官方名稱，偶爾用于指代基于 MLlib DataFrame 的 API

首先了解 ML Pipelines 內幾個重要組件。

DataFrame

DataFrame 讓 Spark 具備了處理大規模結構化數據的能力。

RDD 是分布式 Java 對象的集合，對象的內部數據結構對于 RDD 而言不可知。DataFrame 是一種以 RDD 為基礎的分布式數據集，RDD 中存儲了 Row 對象，Row 對象提供了詳細的結構信息，即模式(schema)，使得 DataFrame 具備了結構化數據的能力。

Transforme

Transformer 通常是一個數據/特征變換的類，或一個訓練好的模型。

每個 Transformer 都有 transform 函數，用于將一個 DataFrame 轉換為另一個 DataFrame 。一般 transform 的過程是在輸入的 DataFrame 上添加一列或者多列，Transformer.transform也是惰性執行，只會生成新的 DataFrame 變量，而不會去提交 job 計算 DataFrame 中的內容。

Estimator

Estimator 抽象了從輸入數據學習模型的過程，每個 Estimator 都實現了 fit 方法，用于給定 DataFrame 和 Params 后，生成一個 Transformer(即訓練好的模型)，每當調用 Estimator.fit() 后，都會產生 job 去訓練模型，得到模型參數。

Param

可以通過設置 Transformer 或 Estimator 實例的參數來設置模型參數，也可以通過傳入 ParamMap 對象來設置模型參數。

Pipeline

Pipeline 定義了一組數據處理流程，可以在 Pipeline 中加入 Transformer、Estimator 或另一個 Pipeline。Pipeline 繼承自 Estimator，調用 Pipeline.fit 方法后返回一個 Transformer——PipelineModel；PipelineModel 繼承自 Transformer，用于將輸入經過 Pipeline 的各個 Transformer 的變換后，得到最終輸出。

Spark MLlib 典型流程如下：

構造訓練數據集
構建各個 Stage
Stage 組成 Pipeline
啟動模型訓練
評估模型效果
計算預測結果

通過一個 Pipeline 的文本分類示例來加深理解：

import org.apache.spark.ml.{Pipeline, PipelineModel}import org.apache.spark.ml.classification.LogisticRegressionimport org.apache.spark.ml.feature.{HashingTF, Tokenizer}import org.apache.spark.ml.linalg.Vectorimport org.apache.spark.sql.Row// Prepare training documents from a list of (id, text, label) tuples.val training = spark.createDataFrame(Seq( (0L, "a b c d e spark

總結

以上是生活随笔為你收集整理的机器学习_机器不学习：从Spark MLlib到美图机器学习框架实践的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： opencv4 python 版本_Op
下一篇： rockbox主题包安装_DUX主题