當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

umap算法_UMAP的初步了解及与t-SNE的比较

發(fā)布時間：2023/12/20 编程问答 46 豆豆

生活随笔收集整理的這篇文章主要介紹了 umap算法_UMAP的初步了解及与t-SNE的比较小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

降維是機器學習中的可視化和理解高維數(shù)據(jù)的強大工具。t-SNE是最廣泛使用的可視化技術(shù)之一，但其性能在大型數(shù)據(jù)集中會受到影響。

UMAP是McInnes等人的一項新技術(shù)。與t-SNE相比，它具有許多優(yōu)勢，最顯著的是提高了速度并更好地保存了數(shù)據(jù)的全局結(jié)構(gòu)。例如，UMAP可以在3min之內(nèi)處理完784維，70000點的MNIST數(shù)據(jù)集，但是t-SNE則需要45min。此外，UMAP傾向于更好地保留數(shù)據(jù)的全局結(jié)構(gòu)，這可以歸因于UMAP強大的理論基礎(chǔ)。

1. 簡單比較UMAP與t-SNE

雖然這兩種算法都表現(xiàn)出強大的局部聚類并將相似的類別分組在一起，但UMAP害將這些相似類別的分組彼此分開。另外，UMAP降維用了4分鐘，而多核t-SNE用了27分鐘。

2. UMAP參數(shù)

UMAP中兩個最常用的參數(shù)：n_neighbors 和min_dist，它們可有效地用于控制最終結(jié)果中局部結(jié)構(gòu)和全局結(jié)構(gòu)之間的平衡。

最重要的參數(shù)是n_neighbors ，近似最近鄰居數(shù)。它有效地控制了UMAP局部結(jié)構(gòu)與全局結(jié)構(gòu)的平衡，數(shù)據(jù)較小時，UMAP會更加關(guān)注局部結(jié)構(gòu)，數(shù)據(jù)較大時，UMAP會趨向于代表大圖結(jié)構(gòu)，丟掉一些細節(jié)。

第二個參數(shù)是min_dist，點之間的最小距離。此參數(shù)控制UMAP聚集在一起的緊密程度，數(shù)據(jù)較小時，會更緊密。較大的值會更松散，而將重點放在保留廣泛的拓撲結(jié)構(gòu)上。

3. 進一步比較UMAP與t-SNE

t-SNE和UMAP大部分的表現(xiàn)非常相似，但以下示例明顯例外：寬而稀疏的cluster中有密集的cluster(如下圖所示)。UMAP無法分離兩個嵌套的群集，尤其是在維數(shù)較高時。

UMAP在初始圖形構(gòu)造中局部距離的使用可以解釋該算法無法處理情況的原因。由于高維點之間的距離趨于非常相似(維數(shù)的詛咒)，所以可能會因此將其混合在一起。

總結(jié)

以上是生活随笔為你收集整理的umap算法_UMAP的初步了解及与t-SNE的比较的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： MySQL全文索引：中文语义分词检索（相
下一篇： SOC与SIP小芯片两种IP互联技术