Facets:一款Google开源机器学习数据集可视化工具
Homepage/演示網站:https://pair-code.github.io/facets/
Pypi:https://pypi.org/project/facets-overview/
Github:https://github.com/PAIR-code/facets
1. 什么是Facets?
Better data leads to better models.
機器學習的強大之處在于從大量數據中學習到其中的模式。構建一個機器學習系統時,理解你的數據是關鍵的一步。
Facets包含兩種強大的可視化功能,用來幫助理解和分析機器學習數據集。
Facets Overview可以讓用戶快速了解其數據集特征值的分布情況,可以在相同的可視化上比較多個數據集,例如按照特征對比訓練集和測試集。這個功能可以揭露多種問題,例如預期之外的特征值,高比例的缺失值,訓練集和實際數據集的偏差,訓練集/測試集/驗證集的偏差等。
Facets Dive提供了一個易于定制的交互式界面,用于探索單個大規模數據集中不同特征數據點之間的關系。通過Facets Dive,你可以調整位置、顏色和視覺效果,每條數據在工具中被表示為一個數據點,還可以通過其特征值在多個維度上通過 faceting/bucketing 來定位數據。通過Facets Dive可以輕松地在復雜數據集中檢測分類異常,識別系統性錯誤,或者發現潛在的有效特征。
簡單來說,Facets Overview是根據特征對比多個數據集的,Facets Dive是根據特征分析單個數據集的。
2. 使用 & 安裝
2.1 Web 應用
https://pair-code.github.io/facets/
該網站允許任何人直接在瀏覽器中可視化他們自己的數據集,而無需安裝或設置任何軟件,并且你的數據不會被上傳。
2.2 在Jupyter Notebooks/Colaboratory 中
FACETS 也可以在 Jupyter Notebook 或 Colaboratoty 中使用,這可以更靈活的在同一個 notebook 中完成整個EDA和建模。有關安裝的完整細節,請參閱官方 Github 倉庫 。
在Colab中使用Facets示例
https://colab.research.google.com/github/PAIR-code/facets/blob/master/colab_facets.ipynb
在Jupter Notebooks中使用Facets示例
https://github.com/PAIR-code/facets/blob/master/facets_dive/Dive_demo.ipynb
數據格式就是csv,第一行是標題,在使用過程中先用pandas讀取,再轉換成protobuf,詳情參考上邊鏈接中的示例。
有人會說我們可以輕松地用 Pandas 來完成這些任務,為什幺要投入到另一個工具呢?沒錯,當我們只有少量的特征很少的數據點時,可能不需要這樣做。然而,情況在我們面對大型數據集時會有所不同,很難用 Pandas 分析多列中的每一個數據點。
Refference
Homepage&Demo
https://pypi.org/project/facets-overview/
https://github.com/PAIR-code/facets
Visualize your data with Facets
使用谷歌 FACETS 可視化機器學習數據集
Google 開源機器學習數據集可視化工具 Facets
Peter Norvig : The Unreasonable Effectiveness of Data
Facets: An Open Source Visualization Tool for Machine Learning Training Data
總結
以上是生活随笔為你收集整理的Facets:一款Google开源机器学习数据集可视化工具的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 手把手教你写LKM rookit! 之
- 下一篇: 关于信息论中熵的定义与含义: