【层级多标签文本分类】MSML-BERT 模型的层级多标签文本分类方法研究
MSML-BERT 模型的層級(jí)多標(biāo)簽文本分類方法研究
1、背景
1、作者(第一作者和通訊作者)
???黃偉,劉貴全
2、單位
???中國(guó)科學(xué)技術(shù)大學(xué)
3、年份
???2022-03-16
4、來(lái)源
???計(jì)算機(jī)工程與應(yīng)用
2、四個(gè)問(wèn)題
1、要解決什么問(wèn)題?
???當(dāng)前方法使用相同的模型結(jié)構(gòu)來(lái)預(yù)測(cè)不同層級(jí)的標(biāo)簽,忽略了它們之間的差異性和多樣性。并且沒(méi)有充分地建模層級(jí)依賴關(guān)系,造成各層級(jí)標(biāo)簽尤其是下層長(zhǎng)尾標(biāo)簽的預(yù)測(cè)性能差,且會(huì)導(dǎo)致標(biāo)簽不一致性問(wèn)題。本文應(yīng)對(duì)以上問(wèn)題提出了新的模型。
2、用了什么方法解決?
???將多任務(wù)學(xué)習(xí)架構(gòu)引入,提出了MSML-BERT模型。該模型將標(biāo)簽結(jié)構(gòu)中每一層的標(biāo)簽分類網(wǎng)絡(luò)視為一個(gè)學(xué)習(xí)任務(wù),通過(guò)任務(wù)間知識(shí)的共享和傳遞,提高各層級(jí)任務(wù)的性能。
3、效果如何?
???本文在RCV1-V2、NYT和WOS數(shù)據(jù)集上進(jìn)行了充分的實(shí)驗(yàn),結(jié)果顯示該模型的總體表現(xiàn)尤其是在下層長(zhǎng)尾標(biāo)簽上的表現(xiàn)超過(guò)了其他主流模型,并且能維持較低的標(biāo)簽不一致比率。
4、還存在什么問(wèn)題?
論文筆記
0 摘要
作者在摘要中提出了層級(jí)多標(biāo)簽文本分類所存在的一些問(wèn)題,并提出來(lái)了新的模型,給出了本篇論文的創(chuàng)新點(diǎn):
???1、多任務(wù)學(xué)習(xí)架構(gòu)
???2、多尺度特征抽取模塊(等于“CNN”)
???3、多層級(jí)信息傳播模塊(等于“向量拼接”)
???4、層次化門(mén)控機(jī)制
摘要的最后,作者經(jīng)過(guò)三個(gè)數(shù)據(jù)集的實(shí)驗(yàn),表明了提出的模型在數(shù)據(jù)集上效果良好。
作者總結(jié)了當(dāng)前HMTC(Hierarchical Multi-label Text Classification,層級(jí)多標(biāo)簽文本分類)方法面臨的兩大問(wèn)題:
(1)使用相同的模型結(jié)構(gòu)來(lái)預(yù)測(cè)不同層級(jí)的標(biāo)簽,忽略了不同層級(jí)和粒度的標(biāo)簽之間的差異性和多樣性,導(dǎo)致對(duì)各層級(jí)標(biāo)簽的預(yù)測(cè)性能較差;
(2)沒(méi)有顯式和充分地建模層級(jí)依賴關(guān)系以及引入了不必要的噪音,造成對(duì)下層長(zhǎng)尾標(biāo)簽的預(yù)測(cè)性能尤其差,并且會(huì)導(dǎo)致標(biāo)簽不一致問(wèn)題。
總結(jié)的說(shuō):用一個(gè)模型預(yù)測(cè)多個(gè)層級(jí)的標(biāo)簽并不準(zhǔn)確;沒(méi)有使用到層級(jí)的標(biāo)簽信息。
針對(duì)問(wèn)題(1):本文設(shè)計(jì)了多尺度特征抽取模(Multi-scale Feature Extraction Module, MSFEM)用于捕捉不同尺度和粒度的特征,形成不同層級(jí)分類任務(wù)所需要的各種知識(shí),以提高各層任務(wù)的預(yù)測(cè)性能;
針對(duì)問(wèn)題(2):本文設(shè)計(jì)了多層級(jí)信息傳播模塊(Multi-layer Information Propagation Module, MLIPM),用于充分建模層級(jí)依賴,并將上層的特征表示中關(guān)鍵的信息傳播到下層特征表示中去,從而利用上層任務(wù)的知識(shí)來(lái)幫助下層的預(yù)測(cè)任務(wù),以提高對(duì)底層長(zhǎng)尾標(biāo)簽的預(yù)測(cè)性能,并降低預(yù)測(cè)的標(biāo)簽不一致性。
在該模塊中,本文設(shè)計(jì)了層次化門(mén)控機(jī)(Hierarchical Gating Mechanism),為了過(guò)濾不同層級(jí)任務(wù)之間的知識(shí)流動(dòng),保留有效知
識(shí)而丟棄無(wú)效知識(shí)。
1、相關(guān)工作
1.1、層級(jí)多標(biāo)簽文本分類
HMTC 方法主要可以分為:
???展平方法:就是不考慮標(biāo)簽的層級(jí)結(jié)構(gòu),直接把層級(jí)標(biāo)簽當(dāng)成普通多標(biāo)簽文本分類來(lái)建模。有時(shí)候,展平方法是把所有的層級(jí)標(biāo)簽都展平,有時(shí)候是把最后一層的標(biāo)簽展平。(展平方法對(duì)HMTC的效果是有瓶頸的。)
???局部方法:局部方法指的是,為層級(jí)標(biāo)簽的每個(gè)節(jié)點(diǎn)都設(shè)置一個(gè)分類器,這中分類器一般是機(jī)器學(xué)習(xí)的分類器,如SVM等。(這樣的效果也做不到最好。)
???全局方法:用單個(gè)分類器并且更顯式地對(duì)標(biāo)簽層次結(jié)構(gòu)進(jìn)行建模,模型通常采用端到端的方式訓(xùn)練并且對(duì)所有標(biāo)簽進(jìn)行一次性地預(yù)測(cè)。(全局方法旨在更好的利用標(biāo)簽信息、標(biāo)簽的層次結(jié)構(gòu)信息。)
1.2、多任務(wù)學(xué)習(xí)
隨著深度學(xué)習(xí)的蓬勃發(fā)展,近期的多任務(wù)學(xué)習(xí)方法主要分為兩類:硬參數(shù)共享方法和軟參數(shù)共享方法。
硬參數(shù)共享:每個(gè)任務(wù)的模型由共享層和任務(wù)特定層兩個(gè)部分組成,共享層用于學(xué)習(xí)和共享通用的知識(shí)和表征,而任務(wù)特定層用于彌補(bǔ)不同任務(wù)之間的差異以及提高不同任務(wù)的泛化性。
軟參數(shù)共享:不同的任務(wù)擁有獨(dú)立的模型,并且使用正則化的方法作用于不同模型參數(shù)之間的距離上,以使得相似任務(wù)的模型參數(shù)也相似
本文采取的多任務(wù)學(xué)習(xí)方法是硬參數(shù)共享方法,模型包括共享層和任務(wù)特定層。
2、基于 MSML-BERT 模型的層級(jí)多標(biāo)簽文本分類方法
HMTC 任務(wù)的目的:設(shè)計(jì)一個(gè)模型,在給定任意一條文本輸入X的情況下,預(yù)測(cè)出該條文本對(duì)應(yīng)的標(biāo)簽集合Y,并且該標(biāo)簽集合Y中的多個(gè)標(biāo)簽要盡量滿足標(biāo)簽結(jié)構(gòu)τ的約束。
????模型如下圖所示:
每層的功能如下:
BERT模型充當(dāng)了整體模型的共享層,用于學(xué)習(xí)和共享通用的特征和知識(shí)。
MSFEM 用于根據(jù)不同層分類任務(wù)的需求,捕捉不同尺度的特征。
MLIPM 用于將上層特征表示中有價(jià)值的信息傳遞到下層表示,幫助下層的標(biāo)簽分類任務(wù),進(jìn)而提升 HMTC 任務(wù)的整體性能。
2.1、模型共享層
Transformer Encoder 結(jié)構(gòu)是 BERT 模型的基本組成單元,其基本結(jié)構(gòu)如下圖所示。
每個(gè) Transformer Encoder 結(jié)構(gòu)包含兩個(gè)子層:多頭自注意力機(jī)制和前饋網(wǎng)絡(luò)。同時(shí),為了模型能夠有效地訓(xùn)練和加速收斂,每個(gè)子層后面還采用了殘差連接和層歸一化的操作。
2.1.1、多頭自注意力機(jī)制
自注意力機(jī)制計(jì)算如下:
多頭自注意力機(jī)制計(jì)算如下:
2.1.2、前饋網(wǎng)絡(luò)
2.1.3、殘差連接和層歸一化
2.2、任務(wù)特定層
2.2.1、多尺度特征抽取模塊(MSFEM)
特征抽取的意思就是卷積層的卷積,多尺度的意思是采用不同窗口大小的卷積核。圖中使用了3個(gè)TextCNN模型,對(duì)應(yīng)到數(shù)據(jù)集中的3層標(biāo)簽結(jié)構(gòu)。
(對(duì)于模型提取特征時(shí),不同的層級(jí),卷積層提取的寬度不一樣,文中的解釋為:對(duì)于較上的層級(jí)采用較寬的一維卷積核提取粗粒度特征,對(duì)于較下的層級(jí)采用較窄的一維卷積核提取細(xì)粒度特征。)
2.2.2、多層級(jí)信息傳播模塊(MLIPM)
把上一層的輸出,拼接在下一層的輸入中。不過(guò)拼接的方式比較不一樣,采用的是HGM(層次化門(mén)控機(jī)制)。
HGM(層次化門(mén)控機(jī)制),一種合并向量的門(mén)控方式,如下圖:
3、實(shí)驗(yàn)
3.1、實(shí)驗(yàn)準(zhǔn)備
3.1.1、數(shù)據(jù)集
本文實(shí)驗(yàn)所采用的的數(shù)據(jù)集為三個(gè)經(jīng)典的文本分類公開(kāi)數(shù)據(jù)集包括:RCV1-V2(Reuters Corpus Volume I)數(shù)據(jù)集,NYT(The New York Times Annotated Corpus)數(shù)據(jù)集和 WOS(Web of Science)數(shù)據(jù)集。(RCV1-V2是非常經(jīng)典的一個(gè)多標(biāo)簽文本分類數(shù)據(jù)集。)
RCV1-V2 數(shù)據(jù)集和 NYT 數(shù)據(jù)集都是新聞文本語(yǔ)料庫(kù),而 WOS 數(shù)據(jù)集包括來(lái)自 Web of Science 的已經(jīng)發(fā)表論文的摘要。這些數(shù)據(jù)集的標(biāo)簽都組織成樹(shù)狀的層級(jí)結(jié)構(gòu)。
3.1.2、評(píng)價(jià)指標(biāo)
本文所采用的評(píng)價(jià)指標(biāo)為Micro-F1 值和 Macro-F1 值。
(1)Micro-F1 值
???Micro-F1 值是考慮到所有標(biāo)簽的整體精確率和召回率的 F1 值。用TPt 、FPt 、FNt分別表示總體標(biāo)簽集合S中第t個(gè)標(biāo)簽的真陽(yáng)性、假陽(yáng)性、假陰性。Micro-F1 值對(duì)所有的樣本進(jìn)行均等加權(quán)。計(jì)算如下所示:
???????????????
(2)Macro-F1 值
???Macro-F1 值是另一種 F1 值,它計(jì)算標(biāo)簽結(jié)構(gòu)中所有不同的類別標(biāo)簽的平均 F1 值。Macro-F1 賦予每個(gè)標(biāo)簽相同的權(quán)重。
由于 Micro-F1 值對(duì)出現(xiàn)更頻繁的標(biāo)簽賦予更大的權(quán)重,Macro-F1 對(duì)所有標(biāo)簽賦予相同的權(quán)重,因此 Macro-F1值對(duì)更難預(yù)測(cè)的底層標(biāo)簽更加敏感。
3.2、實(shí)驗(yàn)結(jié)果
本文提出的MSML-BERT 模型相比其他所有的展平方法、局部方法 和全局方法均取得了更好的表現(xiàn) ,這體現(xiàn)了MSML-BERT模型在解決 HMTC 問(wèn)題上的優(yōu)越性。對(duì)于MSML-BERT模型在數(shù)據(jù)集中取得的最好的Micro-F1值,說(shuō)明了 MSML-BERT 模型在充分挖掘了層級(jí)標(biāo)簽結(jié)構(gòu),通過(guò)建模層次依賴有效地提升了HMTC 任務(wù)的整體性能。
該模型在 Macro-F1 指標(biāo)上取得了巨大的提升,結(jié)合Macro-F1 指標(biāo)對(duì)稀疏標(biāo)簽更加敏感的特性,可知MSML-BERT 模型在預(yù)測(cè)下層的稀疏標(biāo)簽上具有更大的優(yōu)勢(shì),這是因?yàn)?strong>本文的模型通過(guò)對(duì)層級(jí)依賴的建模,利用了從上層學(xué)到的知識(shí)來(lái)幫助下層標(biāo)簽的預(yù)測(cè)。
3.3、性能分析
3.3.1、消融實(shí)驗(yàn)
???其實(shí)就是控制變量,這里就證明了,論文提出的模型改進(jìn)方法確實(shí)是有效果的。
3.3.2、分層表現(xiàn)分析
???查看不同模型在不同標(biāo)簽層級(jí)的評(píng)分,這里就證明了,論文提出的模型,在層級(jí)較深時(shí),表現(xiàn)就更好。說(shuō)明論文的創(chuàng)新點(diǎn)是正確的。
3.3.3、標(biāo)簽一致性分析
???標(biāo)簽不一致經(jīng)常發(fā)生在那些采用統(tǒng)一的方式處理不同層的標(biāo)簽分類任務(wù)的方法中,這些方法往往采用統(tǒng)一的方式處理不同層級(jí)的標(biāo)簽分類任務(wù),獨(dú)立地預(yù)測(cè)所有標(biāo)簽,一定程度上忽略了標(biāo)簽層級(jí)結(jié)構(gòu)信息,因此會(huì)導(dǎo)致標(biāo)簽不一致性的出現(xiàn)。
???標(biāo)簽一致性問(wèn)題是模型預(yù)測(cè)的每一層標(biāo)簽,并不符合原始標(biāo)簽的層級(jí)關(guān)系。,這里也證明了論文提出的模型的優(yōu)點(diǎn)。
本文參考:https://comdy.blog.csdn.net/article/details/124063271
總結(jié)
以上是生活随笔為你收集整理的【层级多标签文本分类】MSML-BERT 模型的层级多标签文本分类方法研究的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: [pytorch、学习] - 3.12
- 下一篇: [pytorch、学习] - 3.13