日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【论文笔记】An Unsupervised Style Transfer Framework for Profanity Redaction

發布時間:2024/1/18 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【论文笔记】An Unsupervised Style Transfer Framework for Profanity Redaction 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Towards A Friendly Online Community: An Unsupervised Style Transfer Framework for Profanity Redaction

文章目錄

  • Towards A Friendly Online Community: An Unsupervised Style Transfer Framework for Profanity Redaction
    • Abstract
    • Main idea and Framework
      • Problem Formulation
      • Retrieve
      • Generate
        • Matching
        • Filling
      • Edit
      • Selection
    • Experimental Results
      • Automatic Evaluations
      • Human Evaluations
    • Conclusion

會議:COLING2020

任務:文本解毒

Abstract

? 本文針對文本去毒任務,設計了一個檢索-生成-編輯(Retrieve, Generate and Edit)的無監督風格遷移流水線方法,通過詞限制的方式編輯冒犯性的評論,使其能夠保持高流暢度和較好地保留原始語義。實驗結果在人工評估上SOTA,并且是唯一一個在所有自動評估指標上都表現一致的方法。

Main idea and Framework

Problem Formulation

? 給定一個限制詞匯表 V r V_r Vr?,數據集D={( x 1 , l 1 x_1,l_1 x1?,l1?),( x n , l n x_n,l_n xn?,ln?)}, x i x_i xi?表示句子, l i l_i li?表示標簽,當句子中存在冒犯性詞 v i ( v i ∈ V r ) v_i(v_i\in{V_r}) vi?(vi?Vr?)時,該標簽為”offensive“,否則為”non-offensive“,對于 l i l_i li?="offensive"的句子 x i x_i xi?,生成不包含任何在限制詞表中的冒犯性詞的句子 x i ? x_i^* xi??。本文的工作聚焦于褻瀆性刪除(Profanity removal)。

Retrieve

? 如圖1所示,RGE框架通過檢索可能的詞性標注序列,作為生成候選句子和編輯模型糾正候選句子的模板。

  • 對冒犯性(Offensive,O)和非冒犯性(Non-offensive,N)都進行詞性標注(POS tagging),對于受限詞典 V r V_r Vr?中的冒犯性單詞,將其詞性置為[BW]。這樣得到了兩個語料庫中每個句子的詞性標注序列。
  • 給定一個句子 x i x_i xi?和它的詞性標注序列 p i p_i pi?,使用基于TF-IDF的Lucene搜索引擎來搜索N語料庫中的與其相似度最高的十個POS序列集合{ p i ′ {p_i'} pi?}

Generate

? 給定 x i x_i xi? p i p_i pi?,{ p i ′ {p_i'} pi?}。生成模塊創建一個不包含冒犯性詞的候選句集合 C i C_i Ci?。該模塊通過將 x i x_i xi?中的單詞“匹配”到每個 p i p_i pi?中的可能位置來生成新的句子來實現。無法匹配的位置通過預訓練的語言模型進行"填充"。算法流程如下圖所示。

Matching

? 算法解讀:

  • 取源詞性序列 p i p_i pi?和相似詞性序列{ p i ′ {p_i'} pi?},取它們的詞性交集,即都有的詞性,記作 T s h a r e d T_{shared} Tshared?
  • T s h a r e d T_{shared} Tshared?中的每個詞性,在源句子 x i x_i xi?中找到屬于該詞性的詞;
  • 把這些詞分配給相似詞性序列中對應該詞的詞性的位置,這樣對于N個詞和M個位置,應該有 m a x ( A N M , A M N ) max(A_N^M,A_M^N) max(ANM?,AMN?)種排列組合,因為N和M的大小不固定,且需要考慮位置,每個位置都需要分配一個詞;
  • 將匹配生成的句子加入候選句序列。

Filling

? 對于候選句集合 C i C_i Ci?,使用預訓練的RoBERTa-base模型對其中的[MASK] token進行填充。為了增強內容保留度,在每個生成句子之前插入源句子 x i x_i xi?,用[SEP]進行分隔,使用RoBERTa預測的不在限制詞表中的最可能的單詞替換[MASK]。最后,在每個[SEP]后的無掩碼的句子即生成模型的輸出。

Edit

? 該模塊用于糾正生成模塊輸出句子的一些問題,例如由于排列組合產生的錯誤的詞序、由于檢索產生的不良詞性標注序列導致的低流暢度文本。

  • 首先隨機采樣了60K個non-offensive句子,然后將檢索和生成模塊應用于它們。然后應用Retrieve得到去掉第一個檢索序列的最終序列{ P i N ′ P_i^{N'} PiN?},因為它是查詢序列 y i y_i yi?本身;

  • 然后,使用生成的候選集合 C i N C_i^N CiN?作為源數據集,同時將原始non-offensive句子作為目標數據集,形成一個平行語料庫,最后得到780K個句子對;

  • 在平行語料庫上微調T5-small,優化其重構損失,得到編輯后的候選集 C i ′ C_i' Ci?

Selection

? 該模塊用于從候選句子集 C i ′ C_i' Ci?中選擇一個質量最高的 x i ? x_i^* xi??

  • 首先刪除任何存在限制詞的候選句子;
  • 每個生成的候選句子和源句子進行BLEU值計算和PPL計算(使用預訓練的GPT-2);
  • 將BLEU和PPL使用MinMaxScaler歸一化到[0,1]區間,選取BLEU+PPL的和最高的句子作為最終輸出的句子。

Experimental Results

? 作者對比了八種現存的風格遷移方法。針對一些方法存在類別不平衡問題,對非冒犯性言論數據集進行了二次抽樣,使其規模從7M增大到350K。

Automatic Evaluations

  • Content preservation:BLEU-self(BL),ROUGE(RG),METEOR(MT);
  • Style transfer accuracy(Acc):生成的句子中不包含任何限制詞的句子比例;
  • Fluency:預訓練的GPT-2計算PPL
  • Result:

? 實驗結果表明,本文提出的方法是唯一一個在三類指標上都表現一致的方法。其中,R+G+E+S的PPL值比R+G+S低226個點,說明利用與訓練的Seq2Seq模型對生成的候選句進行修正是有效的。源數據集的PPL值為458.1。

? 作者在(Fighting offensive language on social media with unsupervised text style transfer.ACL 2018)該文的數據集中進行實驗,對比了實驗結果,超越其性能。

Human Evaluations

? Gra表示語法正確度,Succ.表示風格遷移成功率。選取了四個表現最好的模型,從冒犯性言論中采樣100條句子進行人工評估。實驗結果表明,本文的模型在Succ.明顯比其他模型較高。

Conclusion

? 這篇文章主要思路是用檢索的方法來做,根據詞性序列相似度計算拿到候選詞性序列,然后根據詞性分配候選詞。對于無法分配候選詞的詞性會帶有[MASK]標記,這時使用RoBERTa進行MASK預測。在這一整個過程中都對生成詞做限制,防止冒犯性詞出現。因此會造成一系列問題,比如詞序錯亂,句子不通順等問題。本文緩解這類問題的方法是用T5模型訓練一個Seq2Seq模型優化候選句和源句子的重構損失,以及在RoBERTa預測時插入源句子。但是,相比大規模預訓練語言模型做的工作,句子的困惑度還是偏高,也可能是數據集本身PPL值就挺高,文章中有提到。

總結

以上是生活随笔為你收集整理的【论文笔记】An Unsupervised Style Transfer Framework for Profanity Redaction的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。