日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

【AI白身境】深度学习中的数据可视化​​​​​​​

發(fā)布時間:2025/3/20 ChatGpt 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【AI白身境】深度学习中的数据可视化​​​​​​​ 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章首發(fā)于微信公眾號《有三AI》

【AI白身境】深度學(xué)習(xí)中的數(shù)據(jù)可視化

今天是新專欄《AI白身境》的第八篇,所謂白身,就是什么都不會,還沒有進入角色。

上一節(jié)我們已經(jīng)講述了如何用爬蟲爬取數(shù)據(jù),那爬取完數(shù)據(jù)之后就應(yīng)該是進行處理了,一個很常用的手段是數(shù)據(jù)可視化。

通過數(shù)據(jù)可視化,可以更加直觀地表征數(shù)據(jù),在深度學(xué)習(xí)項目中,常需要的數(shù)據(jù)可視化操作包括原始圖片數(shù)據(jù)的可視化,損失和精度的可視化等。

作者?|?言有三?臧小滿?

編輯?|?言有三?臧小滿?

?

01?什么是數(shù)據(jù)可視化?

每每提到數(shù)據(jù)可視化,大家腦中可能會浮現(xiàn)很各種圖表、西裝革履的分析師、科幻大片中酷炫的儀表。

其實不用那么復(fù)雜,數(shù)據(jù)可視化早就融合進你我的生活,地鐵線路圖、公交時刻表,天氣預(yù)報中的氣象地圖等都是很常見的。

為什么要進行可視化?

因為人是視覺動物,對于圖像的敏感度要比對純數(shù)字的敏感度高的多。

人類對圖像的處理速度比文本快6萬倍,同時人類右腦記憶圖像的速度比左腦記憶抽象文字快100萬倍。數(shù)據(jù)可視化正是利用人類天生技能來增強數(shù)據(jù)處理和組織效率。

舉個簡單的例子,計劃買一套房產(chǎn)作為投資,?想要了解“去年上海房價哪里漲幅最大”,現(xiàn)以圖作答,?把去年的增長率體現(xiàn)在圖上,以20%作為分界,?增長超過20%的標紅色,?超過越多則越大,?不足的標記成藍色,?如下圖,可以很快get到哪個區(qū)域的大幅度漲幅。

可視化將數(shù)字抽象成了更方便我們觀察和感受的圖表,因此需要熟悉使用。

?

02?低維數(shù)據(jù)可視化

數(shù)據(jù)有不同的維度,我們最常接觸的就是一維,二維的數(shù)據(jù),在機器學(xué)習(xí)任務(wù)中,包括損失函數(shù)等統(tǒng)計指標。

2.1?散點圖

散點圖,常用于分析離散數(shù)據(jù)的分布。比如我們有一個數(shù)據(jù)集,里面的圖片有不同的大小,我們可以利用x,y軸分別對應(yīng)圖片的寬高,從而畫出圖片尺度的空間分布情況。越密集的地方,說明該尺度類型的圖越多,如下圖所示。

2.2?折線圖

折線圖是用于分析變量隨另一個變量的變化關(guān)系,我們平常接觸最多的loss曲線圖,accuracy曲線圖就是這一種,可以看指標隨著訓(xùn)練過程的變化判斷收斂情況,從而推測模型訓(xùn)練的好壞,折線圖被廣泛應(yīng)用于各類分析,如下圖所示。

2.3?直方圖,餅狀圖

這兩種圖,都常用于統(tǒng)計數(shù)據(jù)的分布比例以及響應(yīng)幅度,比如一幅圖片的亮度分布情況,不同網(wǎng)絡(luò)層的參數(shù)量,計算時間代價。

這幾種圖,適合對有時序變化的一維向量,有統(tǒng)計分布的一維向量,或者二維圖像的尺度等信息進行可視化。

?

03?高維數(shù)據(jù)可視化

在機器學(xué)習(xí)任務(wù)中,數(shù)據(jù)通常是用成百上千維的向量表示,而超過3維的向量,就已經(jīng)超過了人類的可視化認知,因此通常需要對數(shù)據(jù)進行降維。

數(shù)據(jù)降維方法可以分為線性方法和非線性方法。其中線性方法包括PCA和LDA,而非線性方法有保留局部特征、基于全局特征等方法,以t-SNE為代表。下面我們主要介紹PCA和t-SNE方法。

3.1??PCA降維

PCA,全稱是Principal?components?analysis,這是一種分析、簡化數(shù)據(jù)集的技術(shù)。PCA常用于減少數(shù)據(jù)集的維數(shù),同時保持數(shù)據(jù)集中對方差貢獻最大的特征,原理是保留低階主成分,忽略高階主成分,因為低階成分保留了數(shù)據(jù)最多的信息

假定X是原始數(shù)據(jù),Y是降維后的數(shù)據(jù),W是變換矩陣,Y=XW。假如我們需要降到3?維以便于我們可視化,那就取Y的前三個主成分作為原始屬性X的代表。

我們采用Google開源的網(wǎng)頁版數(shù)據(jù)可視化工具Embedding?Projector來進行可視化,鏈接如下:

http://projector.tensorflow.org/

選擇MNIST作為可視化例子,它的原始維度為10000×784,即10000張28×28的圖像。

利用這個工具我們進行PCA的可視化,降低到3個維度后,我們可以選擇某個數(shù)字進行可視化。下圖就是數(shù)字9的分布,可以看到,總共有1009個樣本,數(shù)據(jù)的分布在物理空間上具有一定的聚類特性。

還可以用不同的顏色查看全體數(shù)據(jù)的分布,從這里可以更好的看出不同類的分布規(guī)律。

?

3.2??t-SNE降維

SNE全稱是Stochastic?Neighbor?Embedding,它將數(shù)據(jù)點之間高維的歐氏距離轉(zhuǎn)換為表示相似度的條件概率,目標是將高維數(shù)據(jù)映射到低維后,盡量保持數(shù)據(jù)點之間的空間結(jié)構(gòu),從而那些在高維空間里距離較遠的點,在低維空間中依然保持較遠的距離。

t-SNE即t-distributed?stochastic?neighbor?embedding,t-SNE用聯(lián)合概率分布替代了SNE中的條件概率分布,解決了SNE的不對稱問題。通過引入t分布,解決了同類別之間簇的擁擠問題。

t-SNE方法實質(zhì)上是一種聚類的方法,對于一個空間中的點,周圍的其他點都是它的“鄰居”,方法就是要試圖使所有點具有相同數(shù)量的“鄰居”。

t-SNE經(jīng)過學(xué)習(xí)收斂后,通過投影到2維或者3維的空間中可以判斷一個數(shù)據(jù)集有沒有很好的可分性,即是否同類之間間隔小,異類之間間隔大。如果在低維空間中具有可分性,則數(shù)據(jù)是可分的,如果不具有可分性,可能是數(shù)據(jù)不可分,也可能僅僅是因為不能投影到低維空間。

下圖是t-SNE可視化結(jié)果圖,可以看出,數(shù)字都有很明顯的聚類效果。

在進行一個機器學(xué)習(xí)任務(wù)之前,通過可視化來對數(shù)據(jù)集進行更深刻的認識,有助于預(yù)估任務(wù)的難度,在遇到困難后也會更加容易找到解決方案。

?

04?python數(shù)據(jù)可視化項目

考慮到python是第一大機器學(xué)習(xí)編程語言,同時開源項目居多,所以我們只關(guān)心python相關(guān)的工具,而且python也基本可以滿足需求。

可視化的項目太多了,下面基于python和GitHub的數(shù)據(jù),隨便推薦幾款。

1.?tensorboard和tensorboardX,想必不需要多做介紹,后者大家可能不熟悉,被開發(fā)用來支持chainer,?mxnet,numpy,4000+star。

https://github.com/lanpa/tensorboardX

2.?visdom,支持numpy和torch的工具,常用于pytorch數(shù)據(jù)可視化,很強大,5000+star。

https://github.com/facebookresearch/visdom

3.?seaborn:一款基于matplotlib的工具,簡單來說,就是有更高的API,畫出的圖也好看,5000+star,主要處理低維數(shù)據(jù)。

https://github.com/mwaskom/seaborn

4.?holoviews:很酷炫的工具,與season差不多,1000+star。

https://github.com/ioam/holoviews

5.?missingno:一款缺失數(shù)據(jù)可視化工具,非常適合分析數(shù)據(jù)集的完整性,1000+star。

https://github.com/ResidentMario/missingno

就這么多,以后再集中講可視化工具。

?

總結(jié)

數(shù)據(jù)可視化抽象了數(shù)據(jù)本身真正的價值,熟練掌握可視化對于分析數(shù)據(jù)的特征和深度學(xué)習(xí)模型的性能是必要的技能。

下期預(yù)告:下一期我們講入行AI必備的數(shù)學(xué)基礎(chǔ),如果你有建議,歡迎留言,我們會及時采納的。

?

轉(zhuǎn)載文章請后臺聯(lián)系

侵權(quán)必究

AI白身境系列完整閱讀:

第一期:【AI白身境】深度學(xué)習(xí)從棄用windows開始

第二期:【AI白身境】Linux干活三板斧,shell、vim和git

第三期:【AI白身境】學(xué)AI必備的python基礎(chǔ)

第四期:【AI白身境】深度學(xué)習(xí)必備圖像基礎(chǔ)

第五期:【AI白身境】搞計算機視覺必備的OpenCV入門基礎(chǔ)

第六期:【AI白身境】只會用Python?g++,CMake和Makefile了解一下

第七期:【AI白身境】學(xué)深度學(xué)習(xí)你不得不知的爬蟲基礎(chǔ)

第八期:?【AI白身境】深度學(xué)習(xí)中的數(shù)據(jù)可視化

第九期:【AI白身境】入行AI需要什么數(shù)學(xué)基礎(chǔ):左手矩陣論,右手微積分

第十期:【AI白身境】一文覽盡計算機視覺研究方向

第十一期:【AI白身境】AI+,都加在哪些應(yīng)用領(lǐng)域了

第十二期:【AI白身境】究竟誰是paper之王,全球前10的計算機科學(xué)家

AI初識境系列完整閱讀

第一期:【AI初識境】從3次人工智能潮起潮落說起

第二期:【AI初識境】從頭理解神經(jīng)網(wǎng)絡(luò)-內(nèi)行與外行的分水嶺

第三期:【AI初識境】近20年深度學(xué)習(xí)在圖像領(lǐng)域的重要進展節(jié)點

第四期:【AI初識境】激活函數(shù):從人工設(shè)計到自動搜索

第五期:【AI初識境】什么是深度學(xué)習(xí)成功的開始?參數(shù)初始化

第六期:【AI初識境】深度學(xué)習(xí)模型中的Normalization,你懂了多少?

第七期:【AI初識境】為了圍剿SGD大家這些年想過的那十幾招

第八期:【AI初識境】被Hinton,DeepMind和斯坦福嫌棄的池化,到底是什么?

第九期:【AI初識境】如何增加深度學(xué)習(xí)模型的泛化能力

第十期:【AI初識境】深度學(xué)習(xí)模型評估,從圖像分類到生成模型

第十一期:【AI初識境】深度學(xué)習(xí)中常用的損失函數(shù)有哪些?

第十二期:【AI初識境】給深度學(xué)習(xí)新手開始項目時的10條建議

感謝各位看官的耐心閱讀,不足之處希望多多指教。后續(xù)內(nèi)容將會不定期奉上,歡迎大家關(guān)注有三公眾號 有三AI

?

總結(jié)

以上是生活随笔為你收集整理的【AI白身境】深度学习中的数据可视化​​​​​​​的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。