日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

图机器学习中的数据增强技术

發(fā)布時(shí)間:2025/3/12 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 图机器学习中的数据增强技术 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文稿整理者:張琳
審稿&修改:趙通

本人總結(jié)來自圣母大學(xué)的博士生趙通在深藍(lán)學(xué)院分享的“圖機(jī)器學(xué)習(xí)中的數(shù)據(jù)增強(qiáng)技術(shù)”公開課。通過介紹圖機(jī)器學(xué)習(xí)的概念,發(fā)展歷程等,以及分享兩篇文獻(xiàn)和最后回答提問完成本次公開課。

01

圖機(jī)器學(xué)習(xí)的概念及發(fā)展歷程

圖是一種比較特殊的數(shù)據(jù)格式,由節(jié)點(diǎn)和節(jié)點(diǎn)之間的邊構(gòu)成,在圖數(shù)據(jù)上可以訓(xùn)練圖機(jī)器學(xué)習(xí)模型。圖機(jī)器學(xué)習(xí)在實(shí)際工業(yè)的應(yīng)用非常廣泛,比如節(jié)點(diǎn)的分類,節(jié)點(diǎn)的屬性預(yù)測,鏈路預(yù)測,圖異常檢測。

圖機(jī)器學(xué)習(xí)的手段具體通過圖表征學(xué)習(xí)實(shí)現(xiàn),圖數(shù)據(jù)屬于非歐式結(jié)構(gòu),具有高維和數(shù)據(jù)稀疏的特點(diǎn)。圖數(shù)據(jù)的鄰接矩陣通常是稀疏矩陣,因此很難直接用這樣的高維數(shù)據(jù)在模型中學(xué)習(xí)。所以,通常用圖表征學(xué)習(xí)學(xué)習(xí)節(jié)點(diǎn)的表征,節(jié)點(diǎn)表征是低維的。經(jīng)過圖表征學(xué)習(xí)模型,可以得到低維的節(jié)點(diǎn)/圖表征。有節(jié)點(diǎn)表征后,就可以用來完成下游任務(wù)。比如可以將其放入分類器中完成節(jié)點(diǎn)分類、異常檢測。如果把它放到回歸模型中,可以進(jìn)行屬性預(yù)測,如果把兩個(gè)節(jié)點(diǎn)的表征一起放入一個(gè)分類器中就能鏈路預(yù)測。

圖機(jī)器學(xué)習(xí)近幾年是比較火的話題,以下是一個(gè)簡單的發(fā)展歷程。最開始,圖機(jī)器學(xué)習(xí)主要用的手段是矩陣分解,通過分解鄰接矩陣來得到節(jié)點(diǎn)的低維表征,一直到2012年都還有相關(guān)研究的論文。2014年從DeepWalk[1]開始,圖嵌入方法是圖機(jī)器學(xué)習(xí)的主流。直到2017年,圖神經(jīng)網(wǎng)絡(luò)的提出進(jìn)一步促進(jìn)了圖深度學(xué)習(xí)的發(fā)展,圖神經(jīng)網(wǎng)絡(luò)在各種圖任務(wù)上都表現(xiàn)出了非常優(yōu)秀的效果。

圖神經(jīng)網(wǎng)絡(luò)的輸入是圖數(shù)據(jù)以及可選的節(jié)點(diǎn)屬性,輸出的是每個(gè)節(jié)點(diǎn)的低維表征。圖神經(jīng)網(wǎng)絡(luò)的核心是鄰域聚合,生成的節(jié)點(diǎn)表征基于鄰域節(jié)點(diǎn)。

在下圖中的左圖[2],對于A節(jié)點(diǎn),如果用兩層的神經(jīng)節(jié)點(diǎn)計(jì)算的流程圖如右圖,每一層都卷積周圍鄰域信息。

圖神經(jīng)網(wǎng)絡(luò)近幾年發(fā)展很好,2018年以后很多論文從不同角度切入嘗試提出更好的圖神經(jīng)網(wǎng)絡(luò)。在這里我們主要討論從數(shù)據(jù)的角度去提升圖神經(jīng)網(wǎng)絡(luò),也就是去嘗試解決圖數(shù)據(jù)的稀疏性問題:大多圖數(shù)據(jù)呈現(xiàn)Power-law分布,有非常少的節(jié)點(diǎn)有非常多的鄰域,有非常多的節(jié)點(diǎn)有非常少的鄰域。這種分布導(dǎo)致對大量的稀疏節(jié)點(diǎn)不能充分學(xué)習(xí)。因此會導(dǎo)致過擬合的問題,模型的結(jié)果和泛化性會比較差。

下圖是一個(gè)簡單的電影打分預(yù)測的效果,縱軸是MAE,越低代表效果越好??梢钥闯?#xff0c;數(shù)據(jù)越多,模型的效果越好。

?

要得到更多的數(shù)據(jù),就需要進(jìn)行數(shù)據(jù)增強(qiáng)。維基百科對于數(shù)據(jù)增強(qiáng)的定義:通過添加已存在數(shù)據(jù)的略微修改的副本或從現(xiàn)有數(shù)據(jù)中新創(chuàng)建的合成數(shù)據(jù)來增加數(shù)據(jù)量的技術(shù)。它充當(dāng)正則化器和有助于在訓(xùn)練機(jī)器學(xué)習(xí)模型時(shí)減輕數(shù)據(jù)的過擬合問題。

數(shù)據(jù)增強(qiáng)在CV,NLP等成熟領(lǐng)域已經(jīng)得到非常廣泛的運(yùn)用。下圖是CV的例子[3],數(shù)據(jù)集中只有一只貓的圖片,可以將這張圖片裁切或旋轉(zhuǎn)得到很多張貓的圖片,就可以減輕訓(xùn)練中的過擬合問題。

同樣,在NLP中以同義詞替換為例[4],在訓(xùn)練過程中以It is awesome句子為例,在同義詞此表中發(fā)現(xiàn)awesome和amazing,awe-inspring,awing是可以替換的,將awesome換為amazing以后得到了新的句子It is amazing。如果在情感和表達(dá)的意思上差別不大,豐富了數(shù)據(jù)集。?

02

針對節(jié)點(diǎn)分類的圖數(shù)據(jù)增強(qiáng)

第一篇文獻(xiàn):Data augmentation for graph neural networks [5],這篇文章關(guān)注的是節(jié)點(diǎn)分類的圖數(shù)據(jù)增強(qiáng),目的是提升節(jié)點(diǎn)分類的效果。

在圖上做數(shù)據(jù)增強(qiáng),和CV,NLP不同的點(diǎn)是無法直接把傳統(tǒng)CV數(shù)據(jù)增強(qiáng)技術(shù)直接應(yīng)用到圖上。比如CV中的圖片可以通過旋轉(zhuǎn)獲得新圖片,但圖數(shù)據(jù)的旋轉(zhuǎn)并沒有改變圖。另一個(gè)主要的問題是對于節(jié)點(diǎn)分類的任務(wù),數(shù)據(jù)是通過節(jié)點(diǎn)和節(jié)點(diǎn)連接的。圖片分類中的圖片之間是沒有關(guān)系的,改變其中一個(gè)不會影響其他的,只會影響改變的圖片。但對于圖數(shù)據(jù),節(jié)點(diǎn)的改變會影響該節(jié)點(diǎn)以及它的鄰域,甚至它鄰域的鄰域。因此對于這種互相依賴的數(shù)據(jù),不能直接應(yīng)用CV或NLP數(shù)據(jù)增強(qiáng)。在這個(gè)工作中,我們提出通過加減邊來進(jìn)行圖數(shù)據(jù)增強(qiáng),也就是加一些圖里沒有的邊,并從現(xiàn)有的邊里面刪除一些的操作。

以扎克的跆拳道俱樂部這個(gè)社交網(wǎng)絡(luò)為例。這個(gè)數(shù)據(jù)中節(jié)點(diǎn)的不同顏色代表了二分類的標(biāo)簽。圖中有30多個(gè)節(jié)點(diǎn),對每個(gè)節(jié)點(diǎn)隨機(jī)生成二維屬性,將其可視化如右圖。

屬性是隨機(jī)初始化的,將上述兩幅圖過一個(gè)隨機(jī)GCN層,可得到:

這里的GCN層沒有經(jīng)過訓(xùn)練,GCN層中的參數(shù)是隨機(jī)初始化的。將隨機(jī)初始化的特征過一個(gè)隨機(jī)初始化的GCN,可以看出,在上圖中的節(jié)點(diǎn)在二維平面上的分布已經(jīng)有一些分離,左上角大部分是紅色點(diǎn),右下角大部分是綠色點(diǎn)。這因?yàn)閳D本身有非常強(qiáng)的同秩性(homophily):原圖中紅色節(jié)點(diǎn)的大部分鄰域是紅色節(jié)點(diǎn),綠色節(jié)點(diǎn)的大部分鄰域是綠色節(jié)點(diǎn)。同秩性導(dǎo)致不需訓(xùn)練GCN就能對節(jié)點(diǎn)有一定的分離程度。

如果隨機(jī)挑6個(gè)類內(nèi)的邊加上去,再隨機(jī)挑6個(gè)類間的邊拿掉:

上圖中較粗的藍(lán)線是新加的邊,藍(lán)色虛線表示去掉的邊。將改動過的圖還是用一樣的隨機(jī)屬性過隨機(jī)初始化的GCN:

可以發(fā)現(xiàn)它已經(jīng)可以很不錯(cuò)地分離了,所有的紅色點(diǎn)都在一邊,所有的綠色點(diǎn)都在另一邊。這是因?yàn)楦膭雍蟮膱D有了更強(qiáng)的的同秩性導(dǎo)致的。如果極端一點(diǎn)把所有相同類的節(jié)點(diǎn)都連在一起,將所有類間的邊全部刪掉:

所有的紅色點(diǎn)都會聚到一個(gè)點(diǎn),所有的綠色點(diǎn)也會聚到另一個(gè)點(diǎn)。這個(gè)在論文中有證明。

但是這種加減邊要知道節(jié)點(diǎn)的標(biāo)簽,它們是否屬于同一類,才能知道增加或刪除哪條邊。但在真正的學(xué)習(xí)過程中模型是不知道應(yīng)該加哪條邊,刪哪條邊的。但好在圖機(jī)器學(xué)習(xí)可以幫助我們做的比隨機(jī)加減邊更好。

因此,我們提出了GAug-M模型:先改動圖,然后在此基礎(chǔ)上學(xué)習(xí)。在原圖上先訓(xùn)練一個(gè)鏈路預(yù)測的模型,鏈路預(yù)測模型對所有的點(diǎn)對都可以得到兩個(gè)點(diǎn)之間存在邊的概率。對概率特別高但是現(xiàn)在圖中沒有邊的點(diǎn)對,加邊將它們連接起來;對概率特別低但現(xiàn)在圖中有邊的點(diǎn)對,刪掉這個(gè)邊。然后加邊的數(shù)量和刪邊的數(shù)量我們利用兩個(gè)超參控制改動程度的大小。這種簡單的操作就可以得到很好的節(jié)點(diǎn)分類效果,如下圖:

藍(lán)色的線代表類內(nèi)的邊的數(shù)量,橙色的線代表類間的邊的數(shù)量,綠色的線代表它的節(jié)點(diǎn)分類的效果。可以看到,我們通過鏈路預(yù)測模型在加邊的情況下,主要加的是類內(nèi)的邊。因?yàn)檫@個(gè)模型不是完美的,可能會有失誤加一些類間的邊,但藍(lán)色的線走的更快說明加了更多類內(nèi)的邊,綠色的線隨著圖的同秩性越來越強(qiáng)也在不斷地增長。與之對比的是,如果隨機(jī)的加邊會怎樣?我們發(fā)現(xiàn)隨機(jī)加邊的話,更多的邊會是類間的邊,會損害圖的同秩性,將得到一個(gè)更差的節(jié)點(diǎn)分類結(jié)果。

通過GAug-M模型改圖得到一個(gè)更好或更容易訓(xùn)練的圖,但它存在一個(gè)問題就是圖神經(jīng)網(wǎng)絡(luò)很注重的inductive learning。當(dāng)數(shù)據(jù)發(fā)生改變后,GAug-M需要重新訓(xùn)練一個(gè)鏈路預(yù)測模型,然后利用這個(gè)模型修改圖數(shù)據(jù),改完后重新訓(xùn)練圖神經(jīng)網(wǎng)絡(luò)。如果數(shù)據(jù)一直在變動,這個(gè)操作會非常昂貴,我們不希望這樣。所以雖然GAug-M在靜態(tài)數(shù)據(jù)中效果很好,針對這個(gè)問題,我們提出了GAug-O模型。

GAug-O是端到端的模型,當(dāng)它訓(xùn)練好以后,只要輸入一個(gè)圖,就能得到這個(gè)圖的節(jié)點(diǎn)分類預(yù)測結(jié)果。因此,它對于新加入的數(shù)據(jù)不需要去重新做一個(gè)完成的訓(xùn)練。GAug-O的設(shè)計(jì)思路和之前模型的設(shè)計(jì)思路是一樣的,但它會稍微復(fù)雜一些。輸入的圖會先過一個(gè)鏈路預(yù)測模型,得到一個(gè)密集的邊存在概率矩陣,把它和原來的鄰接矩陣加在一起采樣,得到一個(gè)改過的鄰接矩陣,然后把改動過的鄰接矩陣輸入到圖神經(jīng)網(wǎng)絡(luò)中得到節(jié)點(diǎn)分類。這個(gè)過程如下圖:

在GAug-M中,改動圖的方法是把概率最高的邊加上,概率最低的邊去掉,但是這個(gè)操作離散且不可導(dǎo)。在端到端的模型中這種操作會使得鏈路預(yù)測模型無法得到訓(xùn)練。所以只能把確定性的加減邊變成取樣操作,然后把概率和原來的鄰接矩陣加起來,保證采樣結(jié)果不會太偏。得到加權(quán)重的概率后,在每一個(gè)點(diǎn)對的概率上進(jìn)行伯努利取樣。由于伯努利取樣也是離散的,在實(shí)際設(shè)計(jì)方法時(shí)用的是Gumbel-softmax加straight-through的設(shè)計(jì)。通過這樣的技術(shù)手段實(shí)現(xiàn)整個(gè)模型端到端的訓(xùn)練。

由于訓(xùn)練中有兩個(gè)模型,即鏈路預(yù)測模型和節(jié)點(diǎn)分類模型,都是有參數(shù)需要訓(xùn)練的。所以文章中使用兩個(gè)損失函數(shù),包括節(jié)點(diǎn)分類的損失函數(shù)和鏈路預(yù)測的損失函數(shù),通過同時(shí)訓(xùn)練可以得到相互增強(qiáng)。

GAug-O和GAug-M一樣,訓(xùn)練過程以及取樣的圖會有更多的類內(nèi)的邊和更少的類間的邊。下圖的藍(lán)線是類內(nèi)的邊在所有圖中所占的比例,可以發(fā)現(xiàn)隨著GAug-O訓(xùn)練的進(jìn)行,類內(nèi)的邊數(shù)有一個(gè)非??焖俚纳蠞q,最終穩(wěn)定在一個(gè)比較大的值,這意味著我們確實(shí)做到了增強(qiáng)圖的同秩性。

分析實(shí)驗(yàn)結(jié)果時(shí)使用6個(gè)常見的公開數(shù)據(jù)集,數(shù)據(jù)增強(qiáng)的模型對使用哪種圖神經(jīng)網(wǎng)絡(luò)沒有嚴(yán)格要求。使用4個(gè)常見的圖神經(jīng)網(wǎng)絡(luò),包括GCN,GSAGE,GAT和JK-NET,在6個(gè)數(shù)據(jù)集上都能得到很好的效果。


在數(shù)據(jù)稀疏時(shí)經(jīng)常會面臨訓(xùn)練數(shù)據(jù)或訓(xùn)練用的標(biāo)注數(shù)據(jù)減少的問題。所以,我們測試了在訓(xùn)練數(shù)據(jù)更少的情況下模型的性能??梢钥闯鲇?xùn)練數(shù)據(jù)非常少的時(shí)候,模型有更明顯的提升。

03

針對鏈路預(yù)測的圖數(shù)據(jù)增強(qiáng)

第二篇文獻(xiàn):Counterfactual graph learning for link prediction [7].

和節(jié)點(diǎn)分類不同,鏈路預(yù)測中數(shù)據(jù)增強(qiáng)的目的是得到新的邊。這樣就可以像其他的數(shù)據(jù)增強(qiáng)一樣,可以在更多的數(shù)據(jù)上訓(xùn)練模型以避免過擬合問題。這篇文章提出生成反事實(shí)鏈路來嘗試學(xué)習(xí)對于邊的形成來說最重要的信息。反事實(shí)鏈路是在這篇文章中新定義的一個(gè)概念。

?

上圖是一個(gè)簡單的小社交網(wǎng)絡(luò),假設(shè)圖中每個(gè)節(jié)點(diǎn)代表一個(gè)人,每條邊代表連接的兩個(gè)人是朋友,三個(gè)顏色代表相同顏色的人在一個(gè)小區(qū)居住。在圖中可以看出Alice和Adam兩個(gè)人是住在一個(gè)小區(qū)的朋友。

疑問:假如這兩個(gè)人不在同一個(gè)小區(qū),還會不會是朋友?這個(gè)問題就是反事實(shí)問題,在因果推斷中經(jīng)常使用。通過回答這個(gè)問題可以得知這兩個(gè)人是否因?yàn)榫幼≡谕粋€(gè)小區(qū)才成為的朋友。在因果推斷中通常有定義干擾(treatment),一般是0和1,在這里定義為兩人是否居住在一個(gè)小區(qū)。這兩個(gè)人住在一個(gè)小區(qū),結(jié)果是她們是朋友。

那么為了知道干擾(住在一個(gè)小區(qū))對結(jié)果(他倆是朋友)是否有影響,我們需要知道這兩人如果不在一個(gè)小區(qū)里,還會不會是朋友?如果是,說明她們住不住一個(gè)小區(qū)對她們是不是朋友沒有影響,沒有因果關(guān)系;反之,住不住一個(gè)小區(qū)對她們是朋友有因果關(guān)系。但問題在于他們不住在一個(gè)小區(qū)還是不是朋友是不可觀測數(shù)據(jù)。

這也是因果推斷中的常見問題,可觀測到的結(jié)果只有一個(gè),無法觀測當(dāng)干預(yù)不同的時(shí)候結(jié)果是怎樣。因?yàn)檫@個(gè)世界上沒有第二個(gè)Alice和第二個(gè)Adam,除非有平行宇宙中存在同樣的二人而且不居住在一個(gè)小區(qū),才能觀測二人是不是朋友。

在現(xiàn)實(shí)中無法這樣觀測,但我們又想知道這個(gè)結(jié)果,因?yàn)橹肋@個(gè)結(jié)果以后才能知道住在一個(gè)小區(qū)這個(gè)信息是不是有用信息。當(dāng)我們知道住在一個(gè)小區(qū)是不是有用信息后,就能進(jìn)行更好的鏈路預(yù)測。

在文章中提出反事實(shí)的邊近似問題的答案。對于Alice和Adam,確實(shí)無法知道她們不在一個(gè)小區(qū)的話還是不是朋友。但可以在社交網(wǎng)絡(luò)里找和Alice還有Adam分別最接近的人Helen和Bob,在社交網(wǎng)絡(luò)中可知Helen和Bob不住一個(gè)小區(qū)是怎么樣的。

在這個(gè)例子中,可以觀測到Helen和Bob不住在一個(gè)小區(qū)但他們是朋友(有邊相連)。我們把Helen和Bob之間邊的存在定義為Alice和Adam的反事實(shí)鏈路,這樣我們就相當(dāng)于知道了Alice和Adam不住在一個(gè)小區(qū)的時(shí)候還會不會是朋友。我們無從驗(yàn)證這種推理是否正確,但這種近似是能做到的最好結(jié)果。

有反事實(shí)鏈路后,可以讓機(jī)器學(xué)習(xí)的模型從可觀測的圖和生成的反事實(shí)鏈路一起學(xué)習(xí)。也就是說,把圖數(shù)據(jù)經(jīng)過圖神經(jīng)網(wǎng)絡(luò)編碼器,之后得到節(jié)點(diǎn)表征,將Alice和Adam的節(jié)點(diǎn)表征放在一起,然后把它和兩種煩擾(也就是二者在不在小區(qū))的信息一起輸入解碼器。在本例子中事實(shí)鏈路和反事實(shí)鏈路都是1,那么解碼器會學(xué)到不管Alice和Adam在不在一個(gè)小區(qū),她倆都是朋友。這樣,圖機(jī)器學(xué)習(xí)模型就能抓到更關(guān)鍵的信息。

從下表的結(jié)果可以看出鏈路預(yù)測的效果不錯(cuò),相較于目前SOTA的鏈路預(yù)測方法也可以達(dá)到非常多的提升。實(shí)驗(yàn)中用5個(gè)公開數(shù)據(jù)集,除了圖學(xué)習(xí)中常見的Cora,CiteSeer,PubMed外,還有Facebook和OGB-DDI數(shù)據(jù)。

在OGB-DDI的官方的榜單中,本文提出的方法(CFLP)是第三名。CFLP和前兩名在參數(shù)量上相差很多,可以看出CFLP是一個(gè)比較輕量級的模型,所以能夠達(dá)到這樣的結(jié)果已經(jīng)非常不錯(cuò)。

04

Takeaways

(1)?圖數(shù)據(jù)增強(qiáng)從數(shù)據(jù)角度嘗試提升圖機(jī)器學(xué)習(xí)。雖然不是一個(gè)非?;馃岬脑掝}但也還是一個(gè)很有效的手段;

(2)?圖數(shù)據(jù)增強(qiáng)可以被用于各種圖機(jī)器學(xué)習(xí)的任務(wù)中,比如節(jié)點(diǎn)分類和鏈路預(yù)測;

由于它并沒有被過多的研究,圖數(shù)據(jù)增強(qiáng)還有非常多可以做的工作,未來的研究方向有:異構(gòu)圖上的數(shù)據(jù)增強(qiáng),圖數(shù)據(jù)增強(qiáng)的理論基礎(chǔ),自動化數(shù)據(jù)增強(qiáng)手段等。

05

Q&A

(1) Q:請問隨機(jī)增加邊為什么出現(xiàn)了很多類間的邊?

A:這由圖本身標(biāo)簽分布決定。在那個(gè)數(shù)據(jù)中如果把圖加滿變成一個(gè)任意兩點(diǎn)都有邊的全連接圖(clique),會發(fā)現(xiàn)在那個(gè)圖中大多數(shù)都是類間的邊。既然這個(gè)分布是這樣的,在隨機(jī)的時(shí)候就有更高的可能性去隨機(jī)到這個(gè)類間邊。

(2) Q:在異構(gòu)圖和帶權(quán)圖中有用該技術(shù)做增強(qiáng)嗎?

A:在異構(gòu)圖中做圖數(shù)據(jù)增強(qiáng)是很有意思的方向,但目前并沒有看到很多這方面的工作,這個(gè)方向是很值得學(xué)習(xí)和研究的。

(3) Q:圖數(shù)據(jù)增強(qiáng)和圖類比學(xué)習(xí)有何異同?

A:這里討論的數(shù)據(jù)增強(qiáng)針對的是有監(jiān)督學(xué)習(xí)的工作,在有監(jiān)督或者半監(jiān)督的情況下更好的提升數(shù)據(jù)。而圖對比學(xué)習(xí)是自監(jiān)督學(xué)習(xí),通過對圖數(shù)據(jù)做一些改動,對比學(xué)習(xí)改動前和改動后的圖,使模型在無需監(jiān)督的情況下學(xué)到節(jié)點(diǎn)的低維表征。在對比學(xué)習(xí)中也需要用到圖數(shù)據(jù)增強(qiáng)的手段,但自監(jiān)督學(xué)習(xí)中的數(shù)據(jù)增強(qiáng)通常是一些擾動和噪音用來避免模型坍塌和簡單解,和監(jiān)督學(xué)習(xí)中的數(shù)據(jù)增強(qiáng)是不一樣的。在監(jiān)督學(xué)習(xí)中的數(shù)據(jù)增強(qiáng)一般會適當(dāng)更復(fù)雜一些。

(4) Q:在圖分類任務(wù)里有沒有什么數(shù)據(jù)增強(qiáng)的思路呢?

A:很多節(jié)點(diǎn)分類數(shù)據(jù)增強(qiáng)可以用于圖分類任務(wù)中的數(shù)據(jù)增強(qiáng),比如在第一個(gè)工作中用的大部分baseline都可以用在圖分類任務(wù)中。而且在圖分類任務(wù)中做數(shù)據(jù)增強(qiáng)的話其實(shí)會和在圖片中做數(shù)據(jù)增強(qiáng)更相似,因?yàn)樵趫D分類任務(wù)中的數(shù)據(jù)就是很多小圖,圖和圖之間是相互獨(dú)立的,沒有之前提到的數(shù)據(jù)之間相互依賴的問題。在這個(gè)情況下,很多CV和NLP中的數(shù)據(jù)增強(qiáng)技術(shù)手段都是可以拿來在圖分類中用的。

(5) Q:請問在鏈接預(yù)測任務(wù)中做數(shù)據(jù)增強(qiáng),有思路嗎?

A:第二個(gè)工作就是連接預(yù)測中的數(shù)據(jù)增強(qiáng)。

(6) Q: Alice和Adam可以不在一個(gè)小區(qū),然后改變Adam的屬性去數(shù)據(jù)增強(qiáng)嗎?Adam和其他鄰居的關(guān)系怎么處理?

A:不是通過改變Adam的屬性實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),而是找到它的反事實(shí)邊做數(shù)據(jù)增強(qiáng)。

(7) Q:第一個(gè)工作在異配網(wǎng)絡(luò)上效果應(yīng)該更好吧?

A:第一個(gè)工作實(shí)驗(yàn)中的Flickr和BlogC兩個(gè)數(shù)據(jù)應(yīng)該屬于異配圖。在異配圖種GAug-M能得到更好的結(jié)果,GAug-O效果不如GAug-M。因?yàn)樵诋惻鋱D中需要?jiǎng)h除非常多的邊才能得到高同質(zhì)性,這種情況下由于GAug-M的刪減操作很方便,導(dǎo)致GAug-M在異配圖中效果更好。

(8) Q:有介紹模型庫如何的使用嗎?就是Gaug-M和Gaug-O模型庫代碼介紹哪里有呢?

A:代碼在github上。

Reference:

[1]Perozzi, Bryan, et al. "Deepwalk: Online learning of social representations."?KDD. 2014.

[2]Ying, Rex, et al. "Graph convolutional neural networks for web-scale recommender systems." KDD. 2018.

[3]https://www.kdnuggets.com/2018/05/data-augmentation-deep-learning-limited-data.html

[4]https://amitness.com/2020/05/data-augmentation-for-nlp/

[5]Zhao, Tong, et al. "Data Augmentation for Graph Neural Networks" AAAI. 2021.

[6]Zhao, Tong, et al. "Counterfactual Graph Learning for Link Prediction" Arxiv. 2021.

*感謝張琳同學(xué)的整理,非常感謝趙通博士對本文的審核。

點(diǎn)擊“閱讀原文”,直通公開課。

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載(圖文+視頻)機(jī)器學(xué)習(xí)入門系列下載中國大學(xué)慕課《機(jī)器學(xué)習(xí)》(黃海廣主講)機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)交流qq群955171419,加入微信群請掃碼:

總結(jié)

以上是生活随笔為你收集整理的图机器学习中的数据增强技术的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。