scikit-learn学习笔记(二)load_files加载自己的文件
這里不討論加載常用的公用數據集,而是討論加載自己的原始數據(即,實際中遇到的數據)
sklearn.datasets.load_files(container_path,?description=None,?categories=None,load_content=True,?shuffle=True,?encoding=None,?decode_error='strict',?random_state=0)[source]
加載文本文件存儲的數據集,其中不同類別的文件存放路徑為:
container_folder/其中,子文件夾(category_1_folder)的名字區別,作為監督學習的標簽區別。至于每個文件的具體命名,隨便。
上面的參數只解釋container_path,load_content=True,encoding=None:
container_path:“container_folder”的路徑。
load_content=True:是否真的把文件中的內容加載到內存中,選擇true就是了。
encoding=None:string or None (default is None),是否解碼文件中的內容(主要針對圖片、視頻或其他二進制文件,而非文本內容);如果不是None,那么在load_content=True的情況下,就會解碼文件中的內容。注意,當前文本文件的編碼方式一般為“utf-8”。如果不指明編碼方式(encoding=None),那么文件內容將會按照bytes處理,而不是unicode處理,這樣模塊“sklearn.feature_extraction.tex”中的很多函數就不能用了。
返回值:data?: Bunch
Dictionary-like object。我們感興趣的有:
data:原始數據,格式參考下圖。
filenames:每個文件的名字
target:類別標簽(從0開始的整數索引)
target_names:類別標簽(數字)的具體含義(由子文件夾的名字category_1_folder決定)
實例:
3.txt 4.txt?
總結
以上是生活随笔為你收集整理的scikit-learn学习笔记(二)load_files加载自己的文件的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: scikit-learn学习笔记(一)快
- 下一篇: scikit-learn学习笔记(三)G