日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Sparkmllib scala KMEANS demo

發布時間:2025/3/15 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Sparkmllib scala KMEANS demo 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

定義:?

聚類是一個將數據集中在某些方面相似的數據成員進行分類組織的過程,聚類就是一種發現這種內在結構的技術,聚類技術經常被稱為無監督學習。

k均值聚類是最著名的劃分聚類算法,由于簡潔和效率使得他成為所有聚類算法中最廣泛使用的。給定一個數據點集合和需要的聚類數目k,k由用戶指定,k均值算法根據某個距離函數反復把數據分入k個聚類中。

?數據源準備:

0.0 0.0 0.0 0.1 0.1 0.1 0.2 0.2 0.2 9.0 9.0 9.0 9.1 9.1 9.1 9.2 9.2 9.2 0.2 0.2 0.2 0.3 0.4 0.2 0.5 0.2 0.5 0.6 0.6 0.6 0.7 0.7 0.7 0.2 0.2 0.2 0.2 0.2 0.2

Demo:

object KMeansdemo {def main(args: Array[String]): Unit = {//創建SparkContextval conf = new SparkConf().setMaster("local[4]").setAppName("KMeans")val sc = new SparkContext(conf)//加載數據val path = "kmeans_data.txt"val data = sc.textFile(path)val parsedData = data.map(s => Vectors.dense(s.split(' ').map(_.toDouble))).cache()//通過KMeans將數據分成兩個陣營val numClusters = 2val numIterations = 20val clusters = KMeans.train(parsedData, numClusters, numIterations)//輸出當前的聚類中心clusters.clusterCenters.foreach(println _)val index = clusters.predict(Vectors.dense(Array(8.9,7.2,9.0)))println(s"Vector[8.9, 7.2, 9.0] 屬于聚類索引為:${index} 中心坐標為:${clusters.clusterCenters(index)} 的簇")//計算誤差平方和val WSSSE = clusters.computeCost(parsedData)println("誤差平方和 = " + WSSSE)sc.stop()} }

?

總結

以上是生活随笔為你收集整理的Sparkmllib scala KMEANS demo的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。