當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

商品评价判别，文本分类——学习笔记

發(fā)布時(shí)間：2023/12/10 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了商品评价判别，文本分类——学习笔记小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

FASTTEXT（Facebook開(kāi)源技術(shù)）

二分類任務(wù)，監(jiān)督學(xué)習(xí)。

自然語(yǔ)言

NLP自然語(yǔ)言處理

步驟：

語(yǔ)料Corpus：好評(píng)和差評(píng)
分詞Words Segmentation：基于HMM構(gòu)建dict tree
構(gòu)建詞向量Construct Vector：

one-hot獨(dú)熱編碼

但是漢語(yǔ)中詞太多了，獨(dú)熱編碼的詞向量隨著詞庫(kù)中詞匯的增長(zhǎng)，會(huì)變得非常大。

而且one hot沒(méi)法判斷順序

Google開(kāi)山之作：TF-IDF（term frequency–inverse document frequency）

解決了頻率和特殊性的關(guān)系。TF即詞頻（Term Frequency），IDF即逆向文檔頻率（Inverse Document Frequency）。

TF（詞頻）就是某個(gè)詞在文章中出現(xiàn)的次數(shù)，此文章為需要分析的文本。為了統(tǒng)一標(biāo)準(zhǔn)，有如下兩種計(jì)算方法：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(1)TF（詞頻） =?某個(gè)詞在文章中出現(xiàn)的次數(shù) /?該篇文章的總次數(shù)；

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(2)TF 詞頻 =?某個(gè)詞在文章中出現(xiàn)的次數(shù) /?該篇文章出現(xiàn)最多的單詞的次數(shù)；

IDF（逆向文檔頻率）為該詞的常見(jiàn)程度，需要構(gòu)建一個(gè)語(yǔ)料庫(kù)來(lái)模擬語(yǔ)言的使用環(huán)境。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?IDF 逆向文檔頻率 =log (語(yǔ)料庫(kù)的文檔總數(shù) / (包含該詞的文檔總數(shù)+1))；

如果一個(gè)詞越常見(jiàn)，那么其分母就越大，IDF值就越小。?

但還是有詞向量長(zhǎng)度的問(wèn)題。

考慮到獨(dú)熱編碼的維度過(guò)大的缺點(diǎn)。對(duì)此進(jìn)行如下改進(jìn)：

將vector每一個(gè)元素由整形改為浮點(diǎn)型，變?yōu)檎麄€(gè)實(shí)數(shù)范圍的表示
將原來(lái)稀疏的巨大維度壓縮嵌入到一個(gè)更小維度的空間

?word2vec

將獨(dú)熱編碼當(dāng)作輸入，經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)，判斷one hot輸出的是什么詞

但是并沒(méi)有關(guān)心輸出的詞是什么。隱藏層，100個(gè)隱藏神經(jīng)元，100個(gè)權(quán)重。

而是將神經(jīng)網(wǎng)絡(luò)過(guò)程中的該層的權(quán)重作為了詞向量。vector。

最終100維，

Fast-Text

天生用來(lái)分類，直接將構(gòu)建詞向量和模型（SVM、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)方法）集合，直接輸出label類別標(biāo)簽。

加載停用詞：細(xì)節(jié)在于：問(wèn)號(hào)、嘆號(hào)包含人類情緒，要保留下來(lái)。

分詞后結(jié)果：

?兩種訓(xùn)練模式：

CBOW (Continuous Bag-of-Words Model) Skip-gram (Continuous Skip-gram Model) CBOW：上下文來(lái)預(yù)測(cè)當(dāng)前詞

Skip-gram：當(dāng)前詞預(yù)測(cè)上下文

【參考】

不懂word2vec，還敢說(shuō)自己是做NLP？ - 自然語(yǔ)言處理-煉數(shù)成金-Dataguru專業(yè)數(shù)據(jù)分析社區(qū) http://www.dataguru.cn/article-13488-1.html

FastText：快速的文本分類器 - 不忘初心~ - CSDN博客 https://blog.csdn.net/john_bh/article/details/79268850

谷歌最強(qiáng) NLP 模型

BERT(Bidirectional?Encoder?Representations from?Transformers)

BERT介紹 - triplemeng的博客 - CSDN博客 https://blog.csdn.net/triplemeng/article/details/83053419

轉(zhuǎn)載于:https://www.cnblogs.com/wxl845235800/p/10158893.html

總結(jié)

以上是生活随笔為你收集整理的商品评价判别，文本分类——学习笔记的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： impala sql清单
下一篇：计算机显示u盘隐藏分区,电脑删除U盘隐藏