當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【层级多标签文本分类】基于预训练语言模型的BERT-CNN多层级专利分类研究

發(fā)布時(shí)間：2023/12/10 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了【层级多标签文本分类】基于预训练语言模型的BERT-CNN多层级专利分类研究小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

基于預(yù)訓(xùn)練語言模型的BERT-CNN多層級(jí)專利分類研究

1、背景

1、作者（第一作者和通訊作者）
???陸曉蕾，倪斌
2、單位
???廈門大學(xué)，中國(guó)科學(xué)院計(jì)算技術(shù)研究所廈門數(shù)據(jù)智能研究院
3、年份
???2020
4、來源
???中文信息學(xué)報(bào)

2、四個(gè)問題

1、要解決什么問題？
???實(shí)現(xiàn)專利多層文本分類

2、用了什么方法解決？
???提出了基于預(yù)訓(xùn)練語言模型的BERT-CNN多層級(jí)專利分類模型

3、效果如何？
???該模型在準(zhǔn)確率上達(dá)到了84.3％，大幅優(yōu)于CNN、RNN等其他深度學(xué)習(xí)算法。

4、還存在什么問題？
??? 文章沒有解決多標(biāo)簽問題、未將模型擴(kuò)展到更深層級(jí)的分類中。

論文筆記

0、引言

???作者在引言部分介紹了近年來，工業(yè)界和學(xué)術(shù)界產(chǎn)生了大量專利申請(qǐng)。現(xiàn)行《國(guó)際專利分類法》包含 “部—類—亞類—組”四個(gè)層級(jí)，其中“組”級(jí)共含有７萬多種類別，人工太難分辨，所以提出用神經(jīng)網(wǎng)絡(luò)來分類。

???注：專利分類作為文本分類中的一個(gè)垂直領(lǐng)域，標(biāo)簽有多層級(jí)、多標(biāo)簽的特點(diǎn)，不像做新聞分類、情感分類很多時(shí)候標(biāo)簽單一、且簡(jiǎn)單、都是自定義的。所以專利分類寫論文更有“點(diǎn)”可寫。

1、相關(guān)研究

???此小節(jié)論述了文本分類的綜述，從機(jī)器學(xué)習(xí)到神經(jīng)網(wǎng)絡(luò)到詞向量、Elmo、GPT、Transformer、BERT。

???最后提出BERT也是有缺點(diǎn)的。“雖然BERT提供了下游任務(wù)的簡(jiǎn)單接口，可以直接進(jìn)行文本分類。然而，BERT作為預(yù)訓(xùn)練語言模型，關(guān)于其作為文檔向量的研究和應(yīng)用尚不多見。”

???然后說fastText可以做文檔向量，效果也不錯(cuò)，但是它使用的是word embedding，不能解決語義（多義詞）問題。

???最后的idea就是把BERT與fastText結(jié)合。

2、研究方法

2.1、BERT-CNN 模型結(jié)構(gòu)

2.1.1、BERT層

???BERT采用雙向Transformer編碼器，利用多頭注意力機(jī)制融合了上下文信息。與早期通過訓(xùn)練語言模型的目標(biāo)任務(wù)———“預(yù)測(cè)下一個(gè)詞”不同的是，BERT設(shè)置了兩種目標(biāo)任務(wù)，分別獲取單詞與句子級(jí)別的表義方式：

①遮蓋語言模型：隨機(jī)遮蓋15％的句子，讓編碼器預(yù)測(cè)這些詞；

②上下句關(guān)系預(yù)測(cè)：通過預(yù)測(cè)兩個(gè)隨機(jī)句子能否組成上下句來學(xué)習(xí)句子間的關(guān)系。

???本文選取BERT-Base作為預(yù)訓(xùn)練模型。BERT-Base擁有12個(gè)Transforme層，本文中的BERT-CNN采用BERT后四層的輸出作為下游CNN模型的輸入。

2.1.2、Conv2D層

???本文取BERT最后四層作為CNN的輸入矩陣I（768 x 4）。然后用32個(gè)濾波器F（３×４），步長(zhǎng)為１，掃描輸入矩陣Ｉ，目的是提取文本3-Gram特征，通過Ｉ?Ｆ內(nèi)積獲得32個(gè)特征向量。為了降低計(jì)算的復(fù)雜度，CNN通常使用池化計(jì)算降低矩陣的維度。本文選取最大池化方式。

2.2、多層文本分類架構(gòu)

???多層文本分類其主要特點(diǎn)在于多層文本分類需要考慮的類別巨大，類別之間往往存在各種依賴關(guān)系，并構(gòu)成一個(gè)復(fù)雜的層次化的類別體系。

目前處理該類問題一般有兩種策略

???全局策略：全局策略在處理多層級(jí)任務(wù)時(shí)沒有區(qū)分層級(jí)，使用單一的分類器，完全忽略類別間的層次結(jié)構(gòu)，這在處理類別有限并且樣本分布均衡的任務(wù)時(shí)簡(jiǎn)單有效。但是隨著層級(jí)、類別的增加，數(shù)據(jù)分布的不均衡，其魯棒性變低。

???局部策略：局部策略利用分治的思想，構(gòu)建一系列分類器，每個(gè)分類器只處理局部的類別。分類時(shí)，從分類體系的根節(jié)點(diǎn)出發(fā)，自頂向下確定樣本的分類。（本文采用的局部策略）

???作者在本文中提供了一種處理標(biāo)簽有層級(jí)關(guān)系的文本分類辦法。

???首先對(duì)所有數(shù)據(jù)、一級(jí)標(biāo)簽進(jìn)行分類；之后依次對(duì)所有歸類為一級(jí)標(biāo)簽A的數(shù)據(jù)、一級(jí)標(biāo)簽A的子標(biāo)簽進(jìn)行分類，對(duì)所有歸類為一級(jí)標(biāo)簽B的數(shù)據(jù)、一級(jí)標(biāo)簽B的子標(biāo)簽進(jìn)行分類，對(duì)所有歸類為一級(jí)標(biāo)簽…的數(shù)據(jù)、一級(jí)標(biāo)簽…的子標(biāo)簽進(jìn)行分類。

3、實(shí)驗(yàn)與結(jié)果

3.1、數(shù)據(jù)集

數(shù)據(jù)集采用國(guó)家信息中心提供的全國(guó)專利申請(qǐng)數(shù)據(jù) 。數(shù)據(jù)總量達(dá)到２７７萬條記錄。時(shí)間跨度為２０１７年全年（按照專利申請(qǐng)時(shí)間統(tǒng)計(jì)），地域覆蓋全國(guó)。

3.3、結(jié)果分析與討論

3.3.1、評(píng)估指標(biāo)

本文模型使用正確率作為評(píng)估指標(biāo)，最終聯(lián)合模型的正確率Ａｃｃ（Ｘ）通過式（１）計(jì)算：

3.3.2、實(shí)驗(yàn)結(jié)果

從實(shí)驗(yàn)結(jié)果可以看到在各個(gè)模型上，前者的準(zhǔn)確率均高于后者。證實(shí)了作者所提出模型在文本分類的功能。

3.3.3、其他數(shù)據(jù)集

為了進(jìn) 一步證實(shí)BERT-CNN／RNN／Transformer等模型的效果，本文選取清華大學(xué)自然語言處理實(shí)驗(yàn)室開源的新聞文本分類數(shù)據(jù)集進(jìn)行平照實(shí)驗(yàn)。

3.3.4、討論

模型的準(zhǔn)確率在Transformer層數(shù)N＝４時(shí)達(dá)到最大。當(dāng)N＜４時(shí)Transformer的輸出作為文檔向量的代表性還不太強(qiáng)，準(zhǔn)確率略有下降；當(dāng)N＞４時(shí)，文檔向量中表征詞匯語法關(guān)系的成分增大，對(duì)分類結(jié)果意義不大，反而造成干擾，導(dǎo)致準(zhǔn)確率下降。

本文參考：https://comdy.blog.csdn.net/article/details/122683419

總結(jié)

以上是生活随笔為你收集整理的【层级多标签文本分类】基于预训练语言模型的BERT-CNN多层级专利分类研究的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： liberty配置mysql数据源_Bl
下一篇： koa --- mongoose连接m