机器学习-特征抽取02
生活随笔
收集整理的這篇文章主要介紹了
机器学习-特征抽取02
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
特征抽取是對文本等數據進行值化,特征值化是為了讓計算機能夠更好的去理解數據。
sklearn特征抽取api
- sklearn.feature_extraction
字典特征抽取(對字典數據進行特征值化)
- from sklearn.feature_extraction import DictVectorizer
文本特征抽取(對文本數據進行特征值化)
- from sklearn.feature_extraction.text import CountVectorizer
英文特征抽取
from sklearn.feature_extraction.text import CountVectorizer # 導入包# 特征抽取 # 實例化 CountVectorizer 對象 vector = CountVectorizer() # 調用fit_transform 輸入并轉換數據 data = vector.fit_transform(["life is is is short,i like python","life is too long,i dislike python"]) # 打印結果 print(vector.get_feature_names()) print() print(data.toarray())中文特征抽取
from sklearn.feature_extraction.text import CountVectorizer # 導入包# 特征抽取 # 實例化 CountVectorizer 對象 vector = CountVectorizer() # 調用fit_transform 輸入并轉換數據 data = vector.fit_transform(["人生苦短,我用python","人生 漫長,我不用python"]) # 打印結果 print(vector.get_feature_names()) print() print(data.toarray())
TF-IDF
- TF-IDF 的主要思想是:如果某個詞或短語在一篇文章中出現的頻率高,并且在其它文章中很少出現,則認為改詞或者短語具有很好的類別區分能力,適合用來分類。
- TF-IDF作用:用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要性。
tf : term frequency : 詞的頻率
idf : 逆文檔頻率 : inverse document frequency log(總文檔數量/(除以)該詞出現的文檔數量)
log(數值):輸入的數值越小,結果越小
tf*idf = 重要性程度
- from sklearn.feature_extraction.text import TfidfVectorizer
總結
以上是生活随笔為你收集整理的机器学习-特征抽取02的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习-概述01
- 下一篇: 机器学习-特征处理/归一化/标准化/降维