日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

scikit-learn学习笔记(二)load_files加载自己的文件

發布時間:2024/1/23 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 scikit-learn学习笔记(二)load_files加载自己的文件 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

這里不討論加載常用的公用數據集,而是討論加載自己的原始數據(即,實際中遇到的數據)

sklearn.datasets.load_files(container_path,?description=None,?categories=None,load_content=True,?shuffle=True,?encoding=None,?decode_error='strict',?random_state=0)[source]

加載文本文件存儲的數據集,其中不同類別的文件存放路徑為

container_folder/
category_1_folder/
file_1.txt file_2.txt ... file_42.txt
category_2_folder/
file_43.txt file_44.txt ...

其中,子文件夾(category_1_folder)的名字區別,作為監督學習的標簽區別。至于每個文件的具體命名,隨便。



上面的參數只解釋container_path,load_content=True,encoding=None

container_path:“container_folder”的路徑。

load_content=True:是否真的把文件中的內容加載到內存中,選擇true就是了。

encoding=Nonestring or None (default is None),是否解碼文件中的內容(主要針對圖片、視頻或其他二進制文件,而非文本內容);如果不是None,那么在load_content=True的情況下,就會解碼文件中的內容。注意,當前文本文件的編碼方式一般為“utf-8”。如果不指明編碼方式(encoding=None),那么文件內容將會按照bytes處理,而不是unicode處理,這樣模塊“sklearn.feature_extraction.tex”中的很多函數就不能用了。


返回值:data?: Bunch

Dictionary-like object。我們感興趣的有:

data:原始數據,格式參考下圖。

filenames:每個文件的名字

target:類別標簽(從0開始的整數索引)

target_names:類別標簽(數字)的具體含義(由子文件夾的名字category_1_folder決定)


實例:

data_folder/
category_1_folder/
1.txt file_2.txt?
category_2_folder/

3.txt 4.txt?

  • from?sklearn?import?datasets??
  • rawData?=?datasets.load_files("data_folder")??
  • ??
  • rawData??
  • Out[10]:???
  • {'DESCR':?None,??
  • ?'data':?['5?start,?\r\ni?like?this?book.',??
  • ??'4?start,?\r\nthis?book?is?good,\r\ni?like?it.',??
  • ??"1?start,?\r\npretty?bad,?don't?like?it?at?all.",??
  • ??"2?start,?\r\nwe?don't?like?so?much."],??
  • ?'filenames':?array(['data_folder\\positive_folder\\1.txt',??
  • ????????'data_folder\\positive_folder\\2.txt',??
  • ????????'data_folder\\negative_folder\\4.txt',??
  • ????????'data_folder\\negative_folder\\3.txt'],???
  • ???????dtype='|S33'),??
  • ?'target':?array([1,?1,?0,?0]),??
  • ?'target_names':?['negative_folder',?'positive_folder']}??
  • ??
  • rawData.data??
  • Out[11]:???
  • ['5?start,?\r\ni?like?this?book.',??
  • ?'4?start,?\r\nthis?book?is?good,\r\ni?like?it.',??
  • ?"1?start,?\r\npretty?bad,?don't?like?it?at?all.",??
  • ?"2?start,?\r\nwe?don't?like?so?much."]??
  • ??
  • rawData.target??
  • Out[12]:?array([1,?1,?0,?0])??
  • ??
  • rawData.filenames[rawData.target[0]]??
  • Out[13]:?'data_folder\\positive_folder\\2.txt'

  • 總結

    以上是生活随笔為你收集整理的scikit-learn学习笔记(二)load_files加载自己的文件的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。