日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

文本多标签分类python_Scikitlearn多标签分类

發布時間:2023/12/13 python 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 文本多标签分类python_Scikitlearn多标签分类 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

我正在嘗試使用Scikit學習來學習文本的多標簽分類,我正在嘗試調整Scikit附帶的一個初始示例教程,用于使用wikipedia文章作為培訓數據對語言進行分類。我試圖在下面實現這一點,但代碼仍然為每個返回一個標簽,我希望最后一個預測返回fr,en

有誰能建議正確的方法來啟用多標簽分類。在import sys

from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.feature_extraction.text import TfidfTransformer

from sklearn.datasets import make_multilabel_classification

from sklearn.preprocessing import LabelBinarizer

from sklearn.svm import LinearSVC

from sklearn.pipeline import Pipeline

from sklearn.datasets import load_files

from sklearn.cross_validation import train_test_split

from sklearn import metrics

from sklearn.multiclass import OneVsRestClassifier

#change model_selection to cross_validation

# The training data folder must be passed as first argument - This uses the example wiki language data files

languages_data_folder = sys.argv[1]

dataset = load_files(languages_data_folder)

# Split the dataset in training and test set:

docs_train, docs_test, y_train, y_test = train_test_split(

dataset.data, dataset.target, test_size=0.5)

#pipeline

clf = Pipeline([

('vectorizer', CountVectorizer(ngram_range=(1,2))),

('tfidf', TfidfTransformer()),

('clf', OneVsRestClassifier(LinearSVC())),

])

target_names=dataset.target_names

# TASK: Fit the pipeline on the training set

clf.fit(docs_train, y_train)

# TASK: Predict the outcome on the testing set in a variable named y_predicted

y_predicted = clf.predict(docs_test)

print target_names

# Predict the result on some short new sentences:

sentences = [

u'This is a language detection test.',

u'Ceci est un test de d\xe9tection de la langue.',

u'Dies ist ein Test, um die Sprache zu erkennen.',

u'Bonjour Mon ami. This is a language detection test.',

]

predicted = clf.predict(sentences)

for s, p in zip(sentences, predicted):

print(u'The language of "%s" is "%s"' % (s, target_names[p]))

返回-

“這是語言檢測測試”的語言是“en”

“Ceci est un test de detection de la langue.”的語言是“fr”

“死在考驗中,嗯,我是在考驗。”是“德”

“你好,朋友”的語言。這是一個語言檢測測試

總結

以上是生活随笔為你收集整理的文本多标签分类python_Scikitlearn多标签分类的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。