商品评价判别,文本分类——学习笔记
FASTTEXT(Facebook開(kāi)源技術(shù))
二分類任務(wù),監(jiān)督學(xué)習(xí)。
自然語(yǔ)言
NLP自然語(yǔ)言處理
步驟:
- 語(yǔ)料Corpus:好評(píng)和差評(píng)
- 分詞Words Segmentation:基于HMM構(gòu)建dict tree
-
構(gòu)建詞向量Construct Vector:
one-hot獨(dú)熱編碼
?
但是漢語(yǔ)中詞太多了,獨(dú)熱編碼的詞向量隨著詞庫(kù)中詞匯的增長(zhǎng),會(huì)變得非常大。
而且one hot沒(méi)法判斷順序
?
Google開(kāi)山之作:TF-IDF(term frequency–inverse document frequency)
解決了頻率和特殊性的關(guān)系。TF即詞頻(Term Frequency),IDF即逆向文檔頻率(Inverse Document Frequency)。
TF(詞頻)就是某個(gè)詞在文章中出現(xiàn)的次數(shù),此文章為需要分析的文本。為了統(tǒng)一標(biāo)準(zhǔn),有如下兩種計(jì)算方法:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(1)TF(詞頻) =?某個(gè)詞在文章中出現(xiàn)的次數(shù) /?該篇文章的總次數(shù);
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(2)TF 詞頻 =?某個(gè)詞在文章中出現(xiàn)的次數(shù) /?該篇文章出現(xiàn)最多的單詞的次數(shù);
IDF(逆向文檔頻率)為該詞的常見(jiàn)程度,需要構(gòu)建一個(gè)語(yǔ)料庫(kù)來(lái)模擬語(yǔ)言的使用環(huán)境。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?IDF 逆向文檔頻率 =log (語(yǔ)料庫(kù)的文檔總數(shù) / (包含該詞的文檔總數(shù)+1));
如果一個(gè)詞越常見(jiàn),那么其分母就越大,IDF值就越小。?
但還是有詞向量長(zhǎng)度的問(wèn)題。
考慮到獨(dú)熱編碼的維度過(guò)大的缺點(diǎn)。對(duì)此進(jìn)行如下改進(jìn):- 將vector每一個(gè)元素由整形改為浮點(diǎn)型,變?yōu)檎麄€(gè)實(shí)數(shù)范圍的表示
- 將原來(lái)稀疏的巨大維度壓縮嵌入到一個(gè)更小維度的空間
?word2vec
將獨(dú)熱編碼當(dāng)作輸入,經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò),判斷one hot輸出的是什么詞
?
但是并沒(méi)有關(guān)心輸出的詞是什么。隱藏層,100個(gè)隱藏神經(jīng)元,100個(gè)權(quán)重。
而是將神經(jīng)網(wǎng)絡(luò)過(guò)程中的該層的權(quán)重作為了詞向量。vector。
最終100維,
?
?
Fast-Text
天生用來(lái)分類,直接將構(gòu)建詞向量和模型(SVM、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)方法)集合,直接輸出label類別標(biāo)簽。
?
加載停用詞:細(xì)節(jié)在于:問(wèn)號(hào)、嘆號(hào)包含人類情緒,要保留下來(lái)。
?
分詞后結(jié)果:
?
?
?
?兩種訓(xùn)練模式:
CBOW (Continuous Bag-of-Words Model) Skip-gram (Continuous Skip-gram Model) CBOW:上下文來(lái)預(yù)測(cè)當(dāng)前詞?
Skip-gram:當(dāng)前詞預(yù)測(cè)上下文
?
【參考】
不懂word2vec,還敢說(shuō)自己是做NLP? - 自然語(yǔ)言處理-煉數(shù)成金-Dataguru專業(yè)數(shù)據(jù)分析社區(qū) http://www.dataguru.cn/article-13488-1.html
FastText:快速的文本分類器 - 不忘初心~ - CSDN博客 https://blog.csdn.net/john_bh/article/details/79268850
?
谷歌最強(qiáng) NLP 模型
BERT(Bidirectional?Encoder?Representations from?Transformers)
BERT介紹 - triplemeng的博客 - CSDN博客 https://blog.csdn.net/triplemeng/article/details/83053419
轉(zhuǎn)載于:https://www.cnblogs.com/wxl845235800/p/10158893.html
總結(jié)
以上是生活随笔為你收集整理的商品评价判别,文本分类——学习笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: impala sql清单
- 下一篇: 计算机显示u盘隐藏分区,电脑删除U盘隐藏