日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【层级多标签文本分类】基于预训练语言模型的BERT-CNN多层级专利分类研究

發(fā)布時(shí)間:2023/12/10 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【层级多标签文本分类】基于预训练语言模型的BERT-CNN多层级专利分类研究 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

基于預(yù)訓(xùn)練語言模型的BERT-CNN多層級(jí)專利分類研究

1、背景

1、作者(第一作者和通訊作者)
???陸曉蕾,倪斌
2、單位
???廈門大學(xué),中國(guó)科學(xué)院計(jì)算技術(shù)研究所廈門數(shù)據(jù)智能研究院
3、年份
???2020
4、來源
???中文信息學(xué)報(bào)

2、四個(gè)問題

1、要解決什么問題?
???實(shí)現(xiàn)專利多層文本分類

2、用了什么方法解決?
???提出了基于預(yù)訓(xùn)練語言模型的BERT-CNN多層級(jí)專利分類模型

3、效果如何?
???該模型在準(zhǔn)確率上達(dá)到了84.3%,大幅優(yōu)于CNN、RNN等其他深度學(xué)習(xí)算法。

4、還存在什么問題?
??? 文章沒有解決多標(biāo)簽問題、未將模型擴(kuò)展到更深層級(jí)的分類中。

論文筆記

0、引言

???作者在引言部分介紹了近年來,工業(yè)界和學(xué)術(shù)界產(chǎn)生了大量專利申請(qǐng)。現(xiàn)行《國(guó)際專利分類法》包含 “部—類—亞 類—組”四個(gè)層級(jí),其中“組”級(jí)共含有7萬多種類別,人工太難分辨,所以提出用神經(jīng)網(wǎng)絡(luò)來分類。

???注:專利分類作為文本分類中的一個(gè)垂直領(lǐng)域,標(biāo)簽有多層級(jí)、多標(biāo)簽的特點(diǎn),不像做新聞分類、情感分類很多時(shí)候標(biāo)簽單一、且簡(jiǎn)單、都是自定義的。所以專利分類寫論文更有“點(diǎn)”可寫。

1、相關(guān)研究

???此小節(jié)論述了文本分類的綜述,從機(jī)器學(xué)習(xí)到神經(jīng)網(wǎng)絡(luò)到詞向量、Elmo、GPT、Transformer、BERT。

???最后提出BERT也是有缺點(diǎn)的。“雖然BERT提供了下游任務(wù)的簡(jiǎn)單接口,可以直接進(jìn)行文本分類。然而,BERT作為預(yù)訓(xùn)練語言模型,關(guān)于其作為文檔向量的研究和應(yīng)用尚不多見。”

???然后說fastText可以做文檔向量,效果也不錯(cuò),但是它使用的是word embedding,不能解決語義(多義詞)問題。

???最后的idea就是把BERT與fastText結(jié)合。

2、研究方法

2.1、BERT-CNN 模型結(jié)構(gòu)

2.1.1、BERT層

???BERT采用雙向Transformer編碼器,利用多頭注意力機(jī)制融合了上下文信息。與早期通過訓(xùn)練語言模型的目標(biāo)任務(wù)———“預(yù)測(cè)下一個(gè)詞”不同的是,BERT設(shè)置了兩種目標(biāo)任務(wù),分別獲取單詞與句子級(jí)別的表義方式:

遮蓋語言模型:隨機(jī)遮蓋15%的句子,讓編碼器預(yù)測(cè)這些詞;

上下句關(guān)系預(yù)測(cè):通過預(yù)測(cè)兩個(gè)隨機(jī)句子能否組成上下句來學(xué)習(xí)句子間的關(guān)系。

???本文選取BERT-Base作為預(yù)訓(xùn)練模型。BERT-Base擁有12個(gè)Transforme層,本文中的BERT-CNN采用BERT后四層的輸出作為下游CNN模型的輸入。

2.1.2、Conv2D層

???本文取BERT最后四層作為CNN的輸入矩陣I(768 x 4)。然后用32個(gè)濾波器F(3×4),步長(zhǎng)為1,掃描輸入矩陣I,目的是提取文本3-Gram特征,通過I?F 內(nèi)積獲得32個(gè)特征向量。為了降低計(jì)算的復(fù)雜度,CNN通常使用池化計(jì)算降低矩陣的維度。本文選取最大池化方式。

2.2、多層文本分類架構(gòu)

???多層文本分類其主要特點(diǎn)在于多層文本分類需要考慮的類別巨大,類別之間 往往存在各種依賴關(guān)系,并構(gòu)成一個(gè)復(fù)雜的層次化的類別體系。

目前處理該類問題一般有兩種策略

???全局策略:全局策略在處理多層級(jí)任務(wù)時(shí)沒有區(qū)分層級(jí),使用單一的分類器,完全忽略類別間的層次結(jié)構(gòu),這在處理類別有限并且樣本分布均衡的任務(wù)時(shí)簡(jiǎn)單有效。但是隨著層級(jí)、類別的增加,數(shù)據(jù)分布的不均衡,其魯棒性變低。

???局部策略:局部策略利用分治的思想,構(gòu)建一系列分類器,每個(gè)分類器只處理局部的類別。分類時(shí),從分類體系的根節(jié)點(diǎn)出發(fā),自頂向下確定樣本的分類。(本文采用的局部策略)

???作者在本文中提供了一種處理標(biāo)簽有層級(jí)關(guān)系的文本分類辦法。

???首先對(duì)所有數(shù)據(jù)、一級(jí)標(biāo)簽進(jìn)行分類;之后依次對(duì)所有歸類為一級(jí)標(biāo)簽A的數(shù)據(jù)、一級(jí)標(biāo)簽A的子標(biāo)簽進(jìn)行分類,對(duì)所有歸類為一級(jí)標(biāo)簽B的數(shù)據(jù)、一級(jí)標(biāo)簽B的子標(biāo)簽進(jìn)行分類,對(duì)所有歸類為一級(jí)標(biāo)簽…的數(shù)據(jù)、一級(jí)標(biāo)簽…的子標(biāo)簽進(jìn)行分類。

3、實(shí)驗(yàn)與結(jié)果

3.1、數(shù)據(jù)集

數(shù)據(jù)集采用國(guó)家信息中心提供的全國(guó)專利申請(qǐng)數(shù)據(jù) 。數(shù)據(jù)總量達(dá)到277萬條記錄。時(shí)間跨度為2017年全年(按照專利申請(qǐng)時(shí)間統(tǒng)計(jì)),地域覆蓋全國(guó)。

3.3、結(jié)果分析與討論

3.3.1、評(píng)估指標(biāo)

本文模型使用正確率作為評(píng)估指標(biāo),最終聯(lián)合模型的正確率 Acc(X)通過式(1)計(jì)算:

3.3.2、實(shí)驗(yàn)結(jié)果


從實(shí)驗(yàn)結(jié)果可以看到在各個(gè)模型上,前者的準(zhǔn)確率均高于后者。證實(shí)了作者所提出模型在文本分類的功能。

3.3.3、其他數(shù)據(jù)集


為了 進(jìn) 一 步 證 實(shí)BERT-CNN/RNN/Transformer等模型的效果,本文選取清華大學(xué)自然語言處理實(shí)驗(yàn)室開源的新聞文本分類數(shù)據(jù)集進(jìn)行平照實(shí)驗(yàn)。

3.3.4、討論


模型的準(zhǔn)確率在Transformer層數(shù)N=4時(shí)達(dá)到最大。當(dāng)N<4時(shí)Transformer的輸出作為文檔向量的代表性還不太強(qiáng),準(zhǔn)確率略有下降;當(dāng)N>4 時(shí),文檔向量中表征詞匯語法關(guān)系的成分增大,對(duì)分類結(jié)果意義不大,反而造成干擾,導(dǎo)致準(zhǔn)確率下降。

本文參考:https://comdy.blog.csdn.net/article/details/122683419

總結(jié)

以上是生活随笔為你收集整理的【层级多标签文本分类】基于预训练语言模型的BERT-CNN多层级专利分类研究的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。