【层级多标签文本分类】基于预训练语言模型的BERT-CNN多层级专利分类研究
基于預(yù)訓(xùn)練語言模型的BERT-CNN多層級(jí)專利分類研究
1、背景
1、作者(第一作者和通訊作者)
???陸曉蕾,倪斌
2、單位
???廈門大學(xué),中國(guó)科學(xué)院計(jì)算技術(shù)研究所廈門數(shù)據(jù)智能研究院
3、年份
???2020
4、來源
???中文信息學(xué)報(bào)
2、四個(gè)問題
1、要解決什么問題?
???實(shí)現(xiàn)專利多層文本分類
2、用了什么方法解決?
???提出了基于預(yù)訓(xùn)練語言模型的BERT-CNN多層級(jí)專利分類模型
3、效果如何?
???該模型在準(zhǔn)確率上達(dá)到了84.3%,大幅優(yōu)于CNN、RNN等其他深度學(xué)習(xí)算法。
4、還存在什么問題?
??? 文章沒有解決多標(biāo)簽問題、未將模型擴(kuò)展到更深層級(jí)的分類中。
論文筆記
0、引言
???作者在引言部分介紹了近年來,工業(yè)界和學(xué)術(shù)界產(chǎn)生了大量專利申請(qǐng)。現(xiàn)行《國(guó)際專利分類法》包含 “部—類—亞 類—組”四個(gè)層級(jí),其中“組”級(jí)共含有7萬多種類別,人工太難分辨,所以提出用神經(jīng)網(wǎng)絡(luò)來分類。
???注:專利分類作為文本分類中的一個(gè)垂直領(lǐng)域,標(biāo)簽有多層級(jí)、多標(biāo)簽的特點(diǎn),不像做新聞分類、情感分類很多時(shí)候標(biāo)簽單一、且簡(jiǎn)單、都是自定義的。所以專利分類寫論文更有“點(diǎn)”可寫。
1、相關(guān)研究
???此小節(jié)論述了文本分類的綜述,從機(jī)器學(xué)習(xí)到神經(jīng)網(wǎng)絡(luò)到詞向量、Elmo、GPT、Transformer、BERT。
???最后提出BERT也是有缺點(diǎn)的。“雖然BERT提供了下游任務(wù)的簡(jiǎn)單接口,可以直接進(jìn)行文本分類。然而,BERT作為預(yù)訓(xùn)練語言模型,關(guān)于其作為文檔向量的研究和應(yīng)用尚不多見。”
???然后說fastText可以做文檔向量,效果也不錯(cuò),但是它使用的是word embedding,不能解決語義(多義詞)問題。
???最后的idea就是把BERT與fastText結(jié)合。
2、研究方法
2.1、BERT-CNN 模型結(jié)構(gòu)
2.1.1、BERT層
???BERT采用雙向Transformer編碼器,利用多頭注意力機(jī)制融合了上下文信息。與早期通過訓(xùn)練語言模型的目標(biāo)任務(wù)———“預(yù)測(cè)下一個(gè)詞”不同的是,BERT設(shè)置了兩種目標(biāo)任務(wù),分別獲取單詞與句子級(jí)別的表義方式:
①遮蓋語言模型:隨機(jī)遮蓋15%的句子,讓編碼器預(yù)測(cè)這些詞;
②上下句關(guān)系預(yù)測(cè):通過預(yù)測(cè)兩個(gè)隨機(jī)句子能否組成上下句來學(xué)習(xí)句子間的關(guān)系。
???本文選取BERT-Base作為預(yù)訓(xùn)練模型。BERT-Base擁有12個(gè)Transforme層,本文中的BERT-CNN采用BERT后四層的輸出作為下游CNN模型的輸入。
2.1.2、Conv2D層
???本文取BERT最后四層作為CNN的輸入矩陣I(768 x 4)。然后用32個(gè)濾波器F(3×4),步長(zhǎng)為1,掃描輸入矩陣I,目的是提取文本3-Gram特征,通過I?F 內(nèi)積獲得32個(gè)特征向量。為了降低計(jì)算的復(fù)雜度,CNN通常使用池化計(jì)算降低矩陣的維度。本文選取最大池化方式。
2.2、多層文本分類架構(gòu)
???多層文本分類其主要特點(diǎn)在于多層文本分類需要考慮的類別巨大,類別之間 往往存在各種依賴關(guān)系,并構(gòu)成一個(gè)復(fù)雜的層次化的類別體系。
目前處理該類問題一般有兩種策略
???全局策略:全局策略在處理多層級(jí)任務(wù)時(shí)沒有區(qū)分層級(jí),使用單一的分類器,完全忽略類別間的層次結(jié)構(gòu),這在處理類別有限并且樣本分布均衡的任務(wù)時(shí)簡(jiǎn)單有效。但是隨著層級(jí)、類別的增加,數(shù)據(jù)分布的不均衡,其魯棒性變低。
???局部策略:局部策略利用分治的思想,構(gòu)建一系列分類器,每個(gè)分類器只處理局部的類別。分類時(shí),從分類體系的根節(jié)點(diǎn)出發(fā),自頂向下確定樣本的分類。(本文采用的局部策略)
???作者在本文中提供了一種處理標(biāo)簽有層級(jí)關(guān)系的文本分類辦法。
???首先對(duì)所有數(shù)據(jù)、一級(jí)標(biāo)簽進(jìn)行分類;之后依次對(duì)所有歸類為一級(jí)標(biāo)簽A的數(shù)據(jù)、一級(jí)標(biāo)簽A的子標(biāo)簽進(jìn)行分類,對(duì)所有歸類為一級(jí)標(biāo)簽B的數(shù)據(jù)、一級(jí)標(biāo)簽B的子標(biāo)簽進(jìn)行分類,對(duì)所有歸類為一級(jí)標(biāo)簽…的數(shù)據(jù)、一級(jí)標(biāo)簽…的子標(biāo)簽進(jìn)行分類。
3、實(shí)驗(yàn)與結(jié)果
3.1、數(shù)據(jù)集
數(shù)據(jù)集采用國(guó)家信息中心提供的全國(guó)專利申請(qǐng)數(shù)據(jù) 。數(shù)據(jù)總量達(dá)到277萬條記錄。時(shí)間跨度為2017年全年(按照專利申請(qǐng)時(shí)間統(tǒng)計(jì)),地域覆蓋全國(guó)。
3.3、結(jié)果分析與討論
3.3.1、評(píng)估指標(biāo)
本文模型使用正確率作為評(píng)估指標(biāo),最終聯(lián)合模型的正確率 Acc(X)通過式(1)計(jì)算:
3.3.2、實(shí)驗(yàn)結(jié)果
從實(shí)驗(yàn)結(jié)果可以看到在各個(gè)模型上,前者的準(zhǔn)確率均高于后者。證實(shí)了作者所提出模型在文本分類的功能。
3.3.3、其他數(shù)據(jù)集
為了 進(jìn) 一 步 證 實(shí)BERT-CNN/RNN/Transformer等模型的效果,本文選取清華大學(xué)自然語言處理實(shí)驗(yàn)室開源的新聞文本分類數(shù)據(jù)集進(jìn)行平照實(shí)驗(yàn)。
3.3.4、討論
模型的準(zhǔn)確率在Transformer層數(shù)N=4時(shí)達(dá)到最大。當(dāng)N<4時(shí)Transformer的輸出作為文檔向量的代表性還不太強(qiáng),準(zhǔn)確率略有下降;當(dāng)N>4 時(shí),文檔向量中表征詞匯語法關(guān)系的成分增大,對(duì)分類結(jié)果意義不大,反而造成干擾,導(dǎo)致準(zhǔn)確率下降。
本文參考:https://comdy.blog.csdn.net/article/details/122683419
總結(jié)
以上是生活随笔為你收集整理的【层级多标签文本分类】基于预训练语言模型的BERT-CNN多层级专利分类研究的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: liberty配置mysql数据源_Bl
- 下一篇: koa --- mongoose连接m