对社会信息敏感的预训练方法 LMSOC: An Approach for Socially Sensitive Pretraining
生活随笔
收集整理的這篇文章主要介紹了
对社会信息敏感的预训练方法 LMSOC: An Approach for Socially Sensitive Pretraining
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
文獻(xiàn)地址:https://arxiv.org/pdf/2110.10319.pdf
本文將社會語境(感覺有點像世界知識)考慮到了NLP的模型之中,基于時間和地理位置兩個社會語境構(gòu)建了數(shù)據(jù)集,與基線對比,在MRR上的改進(jìn)超過了100%。
模型的實現(xiàn)非常簡單,只是將社會語境信息用圖的方法進(jìn)行嵌入,然后將其簡單粗暴地拼接到了BERT的輸入中。
概要
- “How canwe learn linguistically contextualized and socially contextualized language representations?” is the question we seek to answer in this paper.
- 以往的基于Transformer的模型沒有充分考慮到很多語言的現(xiàn)實環(huán)境方面,比如例子“I enjoyed ____ game in weekend”,會根據(jù)說話人來自哪,說話的時間,以及說話人更廣泛的社會環(huán)境與偏好
- 本文將說話人的社交語境融入到大規(guī)模語言模型的學(xué)習(xí)表示中,在地理敏感型語言建模任務(wù)上與基線相比有了很大的改善(相對MRR超過100%)
導(dǎo)論
- 背景:在大多數(shù)現(xiàn)代自然語言處理系統(tǒng)(包括語言模型)中,一個隱含的假設(shè)是,語言獨立于非語言語境,如說話人/作者身份和他們的社會背景。事實上,在社交媒體上使用語言,每句話都植根于特定的社會背景(如時間、地理、社會團(tuán)體、社區(qū)),忽略這些信息會對模型的表現(xiàn)產(chǎn)生影響。
- 先前的方法:學(xué)習(xí)依賴于社會語境的單詞嵌入,并且主要用于表征語言在許多維度(時間、地理和人口統(tǒng)計)上的變化。這些方法學(xué)習(xí)針對每個特定社交上下文的單詞嵌入,并可以捕獲詞義如何在這些維度上變化
- 限制
- 單詞嵌入沒有在語言上進(jìn)行上下文設(shè)置
- Matthew E Peters, Mark Neumann, Mohit Iyyer, MattGardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer. 2018. Deep contextualized word representations.arXiv preprint Xiv:1802.05365.
- 最近的方法已經(jīng)通過學(xué)習(xí)由其特定于token的,使用上下文的語境化的單詞表示來解決
- 單詞嵌入學(xué)習(xí)是直推式的(transductive)-它們只能生成訓(xùn)練期間觀察到的單詞的嵌入,并且通常假設(shè)有一個有限的單詞詞匯表和一組社交上下文,所有這些都需要在訓(xùn)練期間看到(OOV問題 ?)
- WordPiess標(biāo)記化方法來解決
- 單詞嵌入沒有在語言上進(jìn)行上下文設(shè)置
- 雖然這些方法已經(jīng)成功地捕捉到了語言語境,但它們?nèi)?span style="background-color:#FFFF00;">然沒有捕捉到語言表征中的社會語境
- 限制
- LMSOC模型(1)學(xué)習(xí)對語言語境和社會信息敏感的表征,(2)使語言模型能夠在預(yù)訓(xùn)練過程中從未觀察到的,社會語境中,歸納生成語言表征。例如,模型可以使NLP系統(tǒng)基于更廣泛的用戶/社會背景,將所引用的正確實體關(guān)聯(lián)起來,而“我們的首相上周訪問了英國”這樣的話語就是基于這種背景的
2 模型
- LMSOC有兩個組件
- SCE–一個社會背景編碼器
- SSP–一個標(biāo)準(zhǔn)的BERT編碼器,根據(jù)SCE的輸出進(jìn)行調(diào)整
- Social Context Encoder (SCE)
- 實現(xiàn)一個函數(shù)𝑓將社會背景映射到𝑑維的向量
- 𝑓的實現(xiàn)方法與后面的SSP預(yù)訓(xùn)練組件沒有關(guān)系,因此可以由領(lǐng)域?qū)<疫x擇決定
- 本文將社會環(huán)境編碼為相似網(wǎng)絡(luò),使用圖表示學(xué)習(xí)算法將網(wǎng)絡(luò)的節(jié)點嵌入到Rd,本文直接使用了NODE2VEC
- 用這個方法對常用的社會環(huán)境如時間和地理位置進(jìn)行建模。
- The importance of modeling social factors of language: Theory and practice. 論文中認(rèn)為這社會環(huán)境類別是相當(dāng)具有挑戰(zhàn)性的,因為其具有壓倒性的語言外性質(zhì)(extra-linguistic nature)
- Socially Sensitive Pretraining (SSP)
- 是一個BERT編碼器,只做了少許修改。這些修改使更多的層次能夠關(guān)注社會語境,從而在語言語境之外,在社會語境中條件化標(biāo)記表示。
- 首先,在標(biāo)準(zhǔn)MLM任務(wù)的預(yù)訓(xùn)練中,從社會語境編碼器獲得的社會語境表示也被納入其中,以影響所學(xué)語言的表示
- 輸入token序列為𝑇=<𝑤1,𝑤2,…,𝑤𝑛>, 相關(guān)的社會信息的上下文SC∈Rd
- 標(biāo)準(zhǔn)BERT在其初始層中將T映射到一系列單詞片段嵌入𝑄=<Φq1,?…,Φ𝑞𝑛>,?Φ𝑞𝑖∈𝑅𝑑,? 然后由更高的層進(jìn)行轉(zhuǎn)換。本文直接將𝑄=<Φq1,?…,Φ𝑞𝑛,?SC>作為更高層的輸入
- 其次,在訓(xùn)練中,凍結(jié)了𝑆𝐶
- 首先,在標(biāo)準(zhǔn)MLM任務(wù)的預(yù)訓(xùn)練中,從社會語境編碼器獲得的社會語境表示也被納入其中,以影響所學(xué)語言的表示
- 是一個BERT編碼器,只做了少許修改。這些修改使更多的層次能夠關(guān)注社會語境,從而在語言語境之外,在社會語境中條件化標(biāo)記表示。
- 值得強調(diào)的兩點
- ?因為語言模型從社會語境嵌入中學(xué)習(xí),所以語言模型可以歸納地產(chǎn)生基于社會語境的語言表示,這是它在訓(xùn)練中從未觀察到的
- 語言模型組件中未引入新的可訓(xùn)練參數(shù)。因此,這種簡單的預(yù)訓(xùn)練方法可以學(xué)習(xí)在語言和社會環(huán)境中的語言表達(dá)
3 評價
- baseline methods
- 標(biāo)準(zhǔn)BERT
- LMCTRL,一種非常簡單的方法,可以在不改變語言模型本身架構(gòu)的情況下將社會背景納入語言模型。其關(guān)鍵思想是為每個社交上下文分配附加到輸入文本的固定代碼(控制碼,一個獨特的名稱或數(shù)字序列)。已經(jīng)證明,這種方法對于生成以體裁/領(lǐng)域為條件的文本很有用。
- 雖然LMCTRL不要求改變模型架構(gòu)和社會環(huán)境條件,但該方法不能推廣到訓(xùn)練期間未看到的社會環(huán)境(我們也通過經(jīng)驗證明了這一點)。支持新的社會環(huán)境需要對模型進(jìn)行再訓(xùn)練
3.1 綜合數(shù)據(jù)的評價
- ?cloze-test language modeling task using a synthetic corpus
- 這種方法能夠在非常受控的環(huán)境中評估模型,描述它們的行為,并證明方法的表面效度(Face Validity)
設(shè)置
- 使用完形填空語言任務(wù),正確答案取決于句子所在的年份
- 注意到話語中對政治立場的引用取決于話語所依據(jù)的時間段,根據(jù)兩個模板句子構(gòu)建了一個合成語料庫-(A)總統(tǒng)是[總統(tǒng)的名字],(B)部長是[部長的名字],其中每個句子都有時間的依據(jù)。
- 以年份t為基礎(chǔ)的句子會將相應(yīng)的實體占位符替換為在該特定年份活躍的總統(tǒng)(或部長)的名字,活躍的總統(tǒng)/部長每5年更換一次。訓(xùn)練數(shù)據(jù)由1900到2000年間每個時間點的每個模板句子的1000個實例組成,每5年為一次。
- 評估預(yù)測(“我國的[總統(tǒng)/部長]是[mask]”,年份)的能力,其中我們從1900年到2000年改變句子的年份。
- 請注意,該評估設(shè)置能夠評估模型在訓(xùn)練中看不到的社交情境上的性能,因為評估中的社交情境集合是訓(xùn)練中看到的社交情境的超集。為了很好地完成這項任務(wù),模型需要同時利用語言和社會背景。只使用其中一種將導(dǎo)致性能不佳
- 注意,實驗中控制了不同社會背景下的訓(xùn)練句子的長度,因為長度可能是一個潛在的干擾因素(confounder)
- 在簡單的線性鏈圖上使用NODE2VEC嵌入年份,其中年份𝑦與𝑦?1和𝑦+1連接起來
結(jié)果
-
- seen--對held out的句子進(jìn)行評估,但基于訓(xùn)練期間看到的社會背景
- unseen--對held out的句子進(jìn)行評估,但基于訓(xùn)練期間看不到的社會背景
- overall--結(jié)合seen和unseen兩項。
- held out test:將一部分?jǐn)?shù)據(jù)(a)從數(shù)據(jù)集中拿出,然后使用k折驗證的方法對剩下數(shù)據(jù)(b,總體數(shù)據(jù)集=a+b)進(jìn)行訓(xùn)練,然后將最后的模型在a上進(jìn)行測試,用來評估模型的性能
- 平均倒數(shù)秩(MRR)
- BERT在所有設(shè)置中的表現(xiàn)都很差,因為它沒有利用句子所依據(jù)的社會上下文。
- LMCTRL在seen的設(shè)置上獲得了滿分,并且總體上比基線有了顯著的提高。這是因為LMCTRL能夠以社會語境為條件。然而,當(dāng)遇到unseen社會背景時,它的表現(xiàn)很差。這一觀察結(jié)果證實,LMCTRL能夠?qū)W習(xí)依賴于社會背景的表征,但要求在訓(xùn)練中觀察所有社會背景。
- LMSOC在所有環(huán)境下都明顯優(yōu)于這些基線模型,特別是在證實了模型的表面效度的社會語境上進(jìn)行評估時,并表明該方法可產(chǎn)生語言和社會語境都有效的表示
?
3.2 對真實世界數(shù)據(jù)的評估
- 在缺乏標(biāo)準(zhǔn)基準(zhǔn)的情況下,預(yù)測需要以更廣泛的社會背景為條件,考慮地理信息語言建模的代理任務(wù)。
- 注意到“我的家鄉(xiāng)是[mask]”或“我們生活在[mask]的狀態(tài)”的正確答案都取決于話語所依據(jù)的地理語境,我們認(rèn)為完形填空語言建模評估包括三個任務(wù)。該模型尚未針對這些任務(wù)進(jìn)行顯式訓(xùn)練
- STATES:恢復(fù)在自傳式句子中提到的地理狀態(tài)
- NFL:恢復(fù)作者在發(fā)言中最有可能提到的受歡迎的NFL(國家足球聯(lián)盟)球隊
- CLOSECITY:評估模型將其預(yù)測與地點之間的地理接近性相一致的能力
- 數(shù)據(jù)與設(shè)置:隨機(jī)抽取了美國10個主要城市(每個城市來自不同的州)的1000萬條英語推文作為樣本,這些推文都是由用戶的當(dāng)前位置決定的。與每條推文相關(guān)聯(lián)的社交語境就是這個位置。
3.2.1 STATES和NFL任務(wù)
- 嵌入城市:首先根據(jù)測地坐標(biāo)計算出的兩兩測地線距離構(gòu)建城市的最近鄰圖(k=5),然后使用NODE2VEC將城市嵌入到構(gòu)建的圖上
- 使用MRR進(jìn)行評估,測試數(shù)據(jù)可能來自hold out集
- 如果該模型是根據(jù)來自布法羅和舊金山的推文進(jìn)行訓(xùn)練的,那么我們可以評估該模型預(yù)測測試句子“我居住在[MASK]狀態(tài)”中最有可能提到的狀態(tài)的能力。如果輸入是在羅切斯特,正確答案是“紐約”,如果輸入是在圣何塞,正確答案是“加利福尼亞”。輸入測試語句為美國人口最多的50個城市之一。在STATES任務(wù)上,我們使用測試句子“我住在[MASK]州”,而對于NFL任務(wù),我們使用“我所在州最受歡迎的NFL球隊是[MASK]”。
3.2.2 CLOSECITY任務(wù)
- 為了進(jìn)一步評估模型編碼和利用地點之間地理位置接近的能力,我們考慮一項任務(wù),在該任務(wù)中,我們要求模型在以下提示中預(yù)測mask token的合理城市:“我開車到[MASK]的城市工作。”
- 然而,由于這項任務(wù)沒有確定的基本事實,我們測量了模型中排名靠前的預(yù)測城市/城鎮(zhèn)和輸入城市(社會語境)之間的地理距離。預(yù)測附近城市或城鎮(zhèn)的模型比預(yù)測遙遠(yuǎn)城市的模型更好,因為人們更有可能開車去附近的城市工作,而不是非常遠(yuǎn)的城市。請注意,為了確保不平凡,我們將輸入城市排除為有效的候選(或答案)。同樣需要注意的是,(A)該模型可以自由預(yù)測任何城市/城鎮(zhèn),(B)得分高的答案不一定對應(yīng)于輸入地點所在州的最大城市,甚至不一定對應(yīng)于同一州的城市。例如,如果輸入的社會背景是“紐約州布法羅”,那么預(yù)測“加拿大多倫多”(相距100公里)的模型比預(yù)測“紐約州紐約市”(相距470公里)的模型要好。除了這些不同之外,設(shè)置的其余部分類似于STATES和NFL任務(wù)。
- 結(jié)果
- 表1顯示了STATES和NFL任務(wù)的評估結(jié)果。LMSOC的表現(xiàn)明顯優(yōu)于BERT和LMCTRR,因為LMSOC更好地概括了訓(xùn)練期間看不到的社交情境(樣本預(yù)測參見表2)。
?
- 圖3顯示了CLOSECITY任務(wù)中各種模型預(yù)測的頂級城市距離的匯總統(tǒng)計信息。LMSOC模型預(yù)測的城市(距輸入地點)中值距離(178公里)明顯低于BERT(957公里)和LMCTRL(905公里)。
?
?
- 表1顯示了STATES和NFL任務(wù)的評估結(jié)果。LMSOC的表現(xiàn)明顯優(yōu)于BERT和LMCTRR,因為LMSOC更好地概括了訓(xùn)練期間看不到的社交情境(樣本預(yù)測參見表2)。
- 檢查LMSOC所做的預(yù)測還表明,LMSOC能夠?qū)ζ漕A(yù)測進(jìn)行條件調(diào)整,從而考慮地理上的接近程度。例如,當(dāng)輸入上下文為“Pittsburgh”時,模型傾向于預(yù)測“哥倫布(俄亥俄州)”,它比賓夕法尼亞州的其他主要城市(如費城(489公里)和艾倫敦(382公里))大約261公里遠(yuǎn),從而與哥倫布比費城和艾倫敦更接近匹茲堡的觀察結(jié)果一致。類似地,當(dāng)輸入上下文是“Buffalo(NY)”時,模型更喜歡預(yù)測“Toronto(Canada)”(它比紐約州的其他主要城市,如Rochester 或New York City)更接近。綜上所述,這些結(jié)果強調(diào)了LMSOC在融入社會語境方面的有效性。
4 結(jié)論
- 提出了一種從大規(guī)模語言模型中學(xué)習(xí)社會敏感的語境表征的方法。
- 使用圖表示算法將社會背景嵌入到連續(xù)空間中,并提出了一種簡單但有效的社會敏感預(yù)訓(xùn)練方法。
- 我們的方法使語言模型能夠利用社會語境之間的相關(guān)性,從而更好地推廣到訓(xùn)練中沒有觀察到的社會語境。
- 更廣泛地說,為未來的研究奠定了基礎(chǔ),這些研究將納入新類型的社交語境,并使個性化預(yù)測打字系統(tǒng)和實體鏈接系統(tǒng)等NLP系統(tǒng)能夠更好地適應(yīng)語言差異。
總結(jié)
以上是生活随笔為你收集整理的对社会信息敏感的预训练方法 LMSOC: An Approach for Socially Sensitive Pretraining的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计算机考研400分能上清华吗,考研400
- 下一篇: Social gan: Socially