當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

scikit-learn学习笔记（二）load_files加载自己的文件

發布時間：2024/1/23 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了 scikit-learn学习笔记（二）load_files加载自己的文件小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

這里不討論加載常用的公用數據集，而是討論加載自己的原始數據（即，實際中遇到的數據）

sklearn.datasets.load_files(container_path,?description=None,?categories=None,load_content=True,?shuffle=True,?encoding=None,?decode_error='strict',?random_state=0)[source]

加載文本文件存儲的數據集，其中不同類別的文件存放路徑為：

container_folder/

category_1_folder/

file_1.txt file_2.txt ... file_42.txt

category_2_folder/

file_43.txt file_44.txt ...

其中，子文件夾（category_1_folder）的名字區別，作為監督學習的標簽區別。至于每個文件的具體命名，隨便。

上面的參數只解釋container_path，load_content=True，encoding=None：

container_path：“container_folder”的路徑。

load_content=True：是否真的把文件中的內容加載到內存中，選擇true就是了。

encoding=None：string or None (default is None)，是否解碼文件中的內容（主要針對圖片、視頻或其他二進制文件，而非文本內容）；如果不是None，那么在load_content=True的情況下，就會解碼文件中的內容。注意，當前文本文件的編碼方式一般為“utf-8”。如果不指明編碼方式（encoding=None），那么文件內容將會按照bytes處理，而不是unicode處理，這樣模塊“sklearn.feature_extraction.tex”中的很多函數就不能用了。

返回值：data?: Bunch

Dictionary-like object。我們感興趣的有：

data：原始數據，格式參考下圖。

filenames：每個文件的名字

target：類別標簽（從0開始的整數索引）

target_names：類別標簽（數字）的具體含義（由子文件夾的名字category_1_folder決定）

實例：

data_folder/

category_1_folder/

1.txt file_2.txt?

category_2_folder/

3.txt 4.txt?

from?sklearn?import?datasets??

rawData?=?datasets.load_files("data_folder")??

rawData??

Out[10]:???

{'DESCR':?None,??

?'data':?['5?start,?\r\ni?like?this?book.',??

??'4?start,?\r\nthis?book?is?good,\r\ni?like?it.',??

??"1?start,?\r\npretty?bad,?don't?like?it?at?all.",??

??"2?start,?\r\nwe?don't?like?so?much."],??

?'filenames':?array(['data_folder\\positive_folder\\1.txt',??

????????'data_folder\\positive_folder\\2.txt',??

????????'data_folder\\negative_folder\\4.txt',??

????????'data_folder\\negative_folder\\3.txt'],???

???????dtype='|S33'),??

?'target':?array([1,?1,?0,?0]),??

?'target_names':?['negative_folder',?'positive_folder']}??

rawData.data??

Out[11]:???

['5?start,?\r\ni?like?this?book.',??

?'4?start,?\r\nthis?book?is?good,\r\ni?like?it.',??

?"1?start,?\r\npretty?bad,?don't?like?it?at?all.",??

?"2?start,?\r\nwe?don't?like?so?much."]??

rawData.target??

Out[12]:?array([1,?1,?0,?0])??

rawData.filenames[rawData.target[0]]??

Out[13]:?'data_folder\\positive_folder\\2.txt'

總結

以上是生活随笔為你收集整理的scikit-learn学习笔记（二）load_files加载自己的文件的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： scikit-learn学习笔记（一）快
下一篇： scikit-learn学习笔记（三）G