日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【层级多标签文本分类】融合标签层级结构的文本分类

發布時間:2023/12/10 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【层级多标签文本分类】融合标签层级结构的文本分类 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

融合標簽層級結構的文本分類

1、背景

1、作者(第一作者和通訊作者)
???劉翰錯,黃賢英
2、單位
???重慶理工大學
3、年份
???2021
4、來源
???山西大學學報(自然科學版)

2、四個問題

1、要解決什么問題?
???解決標簽之間的語義、標簽之間的相關性,文本特征對標簽特征的影響。

2、用了什么方法解決?
???提出了融合標簽結構的層級標簽文本分類模型(Label Hierarchical and Semantic Structure Learning, LHSSL)

3、效果如何?

4、還存在什么問題?

論文筆記

0、引言

???在本小節中,作者總結了目前現有的層級文本分類主要有兩種:

???關注局部:關注局部 ,傾向于構造多個層次分類模型,然后以自頂向下的方式遍歷層次結構。每個分類器預測對應的類別或類別層次。

???關注全局:關注全局,將所有類別集合在一起,用單個分類器進行預測。

???作者指出這些方法忽略了標簽的語義結構特征、層級結構特征以及它們與輸入文本特征之間的關系。還指出當標簽數量較大、標簽相似度較高時,人工分類很困難。接著作者針對以上問題提出了層級標簽文本分類模型(LHSSL)
???(1)通過傳統編碼器提取輸入文本特征,連接激活函數得到預測概率分布
???(2)引入使用外部語料預訓練好的語言模型得到標簽嵌入向量,計算標簽 嵌入向量間的相似度得到標簽的語義相關結構圖
???(3)根據數據集給出的多層級類別標簽,構建標簽的層級結構矩陣(同時由于標簽數量較少,使用單層圖卷積就可以提取整個圖結構的特征。因此使用共享參數的單層圖卷積學習語義結構圖與層級結構圖的共享特征得到了兩種標簽嵌人)
???(4)利用自注意力機制學習標簽之間的關系得到新的標簽嵌入向量
???(5)計算文本嵌人與標簽嵌人的相似度,并且動態融合輸人文本的特征
???(6)經過激活后構造標簽模擬分布,將兩個分布加和平均并激活后得到最終的分類結果。

1、相關工作

1.1、圖卷積神經網絡

???相較于卷積神經網絡和循環神經網絡,圖卷積神經網絡更適用于處理非歐幾里得結構性的圖數據。圖卷積的目的是通過聚合節點自身以及鄰居節點的信息提取拓撲圖的空間特征。

1.2、標簽嵌入

???標簽嵌入學習是通過學習標簽的向量表示來增強模型的分類效果。本文也構建了模型學習標簽之間的關系從而生成含有豐富信息的嵌入向量。

1.3、標簽平滑

???標簽平滑用于解決由使用one-hot向量表示標簽帶來的模型過擬合的問題,以及全概率和零概率導致樣本所屬類別和其他類別預測概率相差盡可能大致使模型過于自信的問題。

1.4、標簽增強

???標簽分布反映了數據集中每個標簽與樣本匹配的程度。大多數數據集的標簽都是單一標簽的集合,要獲取數據真實的標簽分布,需要對每條樣本進行大量的標注,當標簽數目較多時,會花費大量的時間與精力,標注的準確性也得不到保障。

2、模型設計

???LHSSL 模型主要分為三個部分:預測概率分布計算、標簽模擬分布構造以及損失計算。

2.1、預測概率分布計算

???使用CNN、RNN、LSTM、BERT等用于提取文本特征。連接softmax激活函數進行非線性轉換得到預測的標簽的概率分布。

2.2、標簽模擬分布構造

2.2.1、標簽信息提取模塊

???標簽信息提取模塊分為兩個子模塊:

???標簽語義結構特征提取:標簽語義結構特征提取模塊首先初始化標簽嵌入向量,將包含層級結構的標簽集L中的每個標簽按照層級結構拆分為多個單詞。通過引入使用外部語料庫預訓練好的語言模型,如word2vec、glove等,得到每個單詞的嵌入向量。將單詞嵌人向量累加后除以單詞的個數得到每個層級標簽的嵌入表示。

???標簽層級結構特征提取:標簽層級結構特征提取模塊通過數據集中標簽本身的層級結構構造結構關系圖。

2.2.2、標簽混淆模塊

2.3、損失計算

3、實驗設置

3.1、數據集

???本文采用四個數據集:20NG、8NG_H、8NG_E和WOS11967。

3.2、實驗參數設置

3.3、實驗參數設置

???
從表6-8中數據可以得到結論:無論數據集的標簽中是否含有噪聲,利用標簽的語義關系以及層級結構關系特征,從一定程度上都能提高模型的分類性能。

總結

以上是生活随笔為你收集整理的【层级多标签文本分类】融合标签层级结构的文本分类的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。