umap算法_UMAP的初步了解及与t-SNE的比较
降維是機器學習中的可視化和理解高維數(shù)據(jù)的強大工具。t-SNE是最廣泛使用的可視化技術(shù)之一,但其性能在大型數(shù)據(jù)集中會受到影響。
UMAP是McInnes等人的一項新技術(shù)。與t-SNE相比,它具有許多優(yōu)勢,最顯著的是提高了速度并更好地保存了數(shù)據(jù)的全局結(jié)構(gòu)。例如,UMAP可以在3min之內(nèi)處理完784維,70000點的MNIST數(shù)據(jù)集,但是t-SNE則需要45min。此外,UMAP傾向于更好地保留數(shù)據(jù)的全局結(jié)構(gòu),這可以歸因于UMAP強大的理論基礎(chǔ)。
1. 簡單比較UMAP與t-SNE
雖然這兩種算法都表現(xiàn)出強大的局部聚類并將相似的類別分組在一起,但UMAP害將這些相似類別的分組彼此分開。另外,UMAP降維用了4分鐘,而多核t-SNE用了27分鐘。
2. UMAP參數(shù)
UMAP中兩個最常用的參數(shù):n_neighbors 和min_dist,它們可有效地用于控制最終結(jié)果中局部結(jié)構(gòu)和全局結(jié)構(gòu)之間的平衡。
最重要的參數(shù)是n_neighbors ,近似最近鄰居數(shù)。它有效地控制了UMAP局部結(jié)構(gòu)與全局結(jié)構(gòu)的平衡,數(shù)據(jù)較小時,UMAP會更加關(guān)注局部結(jié)構(gòu),數(shù)據(jù)較大時,UMAP會趨向于代表大圖結(jié)構(gòu),丟掉一些細節(jié)。
第二個參數(shù)是min_dist,點之間的最小距離。此參數(shù)控制UMAP聚集在一起的緊密程度,數(shù)據(jù)較小時,會更緊密。較大的值會更松散,而將重點放在保留廣泛的拓撲結(jié)構(gòu)上。
3. 進一步比較UMAP與t-SNE
t-SNE和UMAP大部分的表現(xiàn)非常相似,但以下示例明顯例外:寬而稀疏的cluster中有密集的cluster(如下圖所示)。UMAP無法分離兩個嵌套的群集,尤其是在維數(shù)較高時。
UMAP在初始圖形構(gòu)造中局部距離的使用可以解釋該算法無法處理情況的原因。由于高維點之間的距離趨于非常相似(維數(shù)的詛咒),所以可能會因此將其混合在一起。
總結(jié)
以上是生活随笔為你收集整理的umap算法_UMAP的初步了解及与t-SNE的比较的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MySQL全文索引:中文语义分词检索(相
- 下一篇: SOC与SIP小芯片两种IP互联技术