日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

商品评价判别,文本分类——学习笔记

發(fā)布時(shí)間:2023/12/10 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 商品评价判别,文本分类——学习笔记 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

FASTTEXT(Facebook開(kāi)源技術(shù))

二分類任務(wù),監(jiān)督學(xué)習(xí)。

自然語(yǔ)言

NLP自然語(yǔ)言處理

步驟:

  • 語(yǔ)料Corpus:好評(píng)和差評(píng)
  • 分詞Words Segmentation:基于HMM構(gòu)建dict tree
  • 構(gòu)建詞向量Construct Vector:

one-hot獨(dú)熱編碼

?

但是漢語(yǔ)中詞太多了,獨(dú)熱編碼的詞向量隨著詞庫(kù)中詞匯的增長(zhǎng),會(huì)變得非常大。

而且one hot沒(méi)法判斷順序

?

Google開(kāi)山之作:TF-IDF(term frequency–inverse document frequency)

解決了頻率和特殊性的關(guān)系。TF即詞頻(Term Frequency),IDF即逆向文檔頻率(Inverse Document Frequency)。

TF(詞頻)就是某個(gè)詞在文章中出現(xiàn)的次數(shù),此文章為需要分析的文本。為了統(tǒng)一標(biāo)準(zhǔn),有如下兩種計(jì)算方法:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(1)TF(詞頻) =?某個(gè)詞在文章中出現(xiàn)的次數(shù) /?該篇文章的總次數(shù);

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(2)TF 詞頻 =?某個(gè)詞在文章中出現(xiàn)的次數(shù) /?該篇文章出現(xiàn)最多的單詞的次數(shù);

IDF(逆向文檔頻率)為該詞的常見(jiàn)程度,需要構(gòu)建一個(gè)語(yǔ)料庫(kù)來(lái)模擬語(yǔ)言的使用環(huán)境。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?IDF 逆向文檔頻率 =log (語(yǔ)料庫(kù)的文檔總數(shù) / (包含該詞的文檔總數(shù)+1));

如果一個(gè)詞越常見(jiàn),那么其分母就越大,IDF值就越小。?

但還是有詞向量長(zhǎng)度的問(wèn)題。

考慮到獨(dú)熱編碼的維度過(guò)大的缺點(diǎn)。對(duì)此進(jìn)行如下改進(jìn):
  • 將vector每一個(gè)元素由整形改為浮點(diǎn)型,變?yōu)檎麄€(gè)實(shí)數(shù)范圍的表示
  • 將原來(lái)稀疏的巨大維度壓縮嵌入到一個(gè)更小維度的空間

?word2vec

獨(dú)熱編碼當(dāng)作輸入,經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò),判斷one hot輸出的是什么詞

?

但是并沒(méi)有關(guān)心輸出的詞是什么。隱藏層,100個(gè)隱藏神經(jīng)元,100個(gè)權(quán)重。

而是將神經(jīng)網(wǎng)絡(luò)過(guò)程中的該層的權(quán)重作為了詞向量。vector。

最終100維,

?

?

Fast-Text

天生用來(lái)分類,直接將構(gòu)建詞向量和模型(SVM、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)方法)集合,直接輸出label類別標(biāo)簽。

?

加載停用詞:細(xì)節(jié)在于:問(wèn)號(hào)、嘆號(hào)包含人類情緒,要保留下來(lái)。

?

分詞后結(jié)果:

?

?

?


?兩種訓(xùn)練模式:

CBOW (Continuous Bag-of-Words Model) Skip-gram (Continuous Skip-gram Model) CBOW:上下文來(lái)預(yù)測(cè)當(dāng)前詞

?

Skip-gram:當(dāng)前詞預(yù)測(cè)上下文

?

【參考】

不懂word2vec,還敢說(shuō)自己是做NLP? - 自然語(yǔ)言處理-煉數(shù)成金-Dataguru專業(yè)數(shù)據(jù)分析社區(qū) http://www.dataguru.cn/article-13488-1.html

FastText:快速的文本分類器 - 不忘初心~ - CSDN博客 https://blog.csdn.net/john_bh/article/details/79268850

?


谷歌最強(qiáng) NLP 模型

BERT(Bidirectional?Encoder?Representations from?Transformers)

BERT介紹 - triplemeng的博客 - CSDN博客 https://blog.csdn.net/triplemeng/article/details/83053419

轉(zhuǎn)載于:https://www.cnblogs.com/wxl845235800/p/10158893.html

總結(jié)

以上是生活随笔為你收集整理的商品评价判别,文本分类——学习笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。