日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NLP十大数据扩充策略

發布時間:2025/3/8 编程问答 17 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NLP十大数据扩充策略 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

做圖像的同學都知道圖像的數據擴充可以帶來巨大的提升,包括:

  • 裁剪、旋轉、縮放等等。

那么在NLP中都有哪些數據擴充的策略呢?

這個很簡單,就是替換文中的某些詞匯,而不改變文本原由的意思。一般的操作是:

  • 我們從句子中隨機抽取一個或者多個單詞,使用同義詞對其進行替換。在英語中,常用的有WordNet等英語數據庫來查找同義詞。

詞Embedding替換的策略和近義詞有些類似,直接計算詞embedding的距離,然后用距離最近的N個詞的embedding進行替換。該策略在TinyBert等論文中有提及。

BERT、ROBERTA和ALBERT等模型已經在大量的文本上進行了訓練,我們可以使用其進行文本的擴充,隨機Mask個文本中的某個單詞,然后使用模型對其進行預測。

使用MLM的好壞取決于Mask的Mask的質量。

該策略的思路是先將原先的文本轉化為其它回家的語義,然后再轉化回來得到新的重新翻譯之后的文本。該策略經常在一些小數據集的文本上被使用。

該轉換的策略也非常簡單,例如下面的就是She's ——> She has.

我們將拼寫錯誤添加到句子中的一些隨機詞中。這些拼寫錯誤可以通過編程方式添加,也可以使用常見拼寫錯誤的映射。

QWERTY鍵盤錯誤注入是直接模擬鍵盤輸入出錯的策略,

該方法由Xie等人在他們的論文中提出。這種思想是使用占位符標記替換隨機單詞。論文使用“_”作為占位符標記。

句子Shuffliing的策略就是對整個句子進行shuffle,切換句子的位置。

該策略是Luque在關于TASS2019情感分析的論文中介紹的,例如在tweet的文本情感中,一個tweet被分成兩半,并且具有相同標簽(正/負)的兩個隨機tweet被隨機分開。假設是,即使結果不符合語法和語義,新的文本仍然會保留相同的情感。

十大NLP數據擴充策略

總結

以上是生活随笔為你收集整理的NLP十大数据扩充策略的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。