當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

迁移学习（一）

發(fā)布時間：2025/3/15 编程问答 16 豆豆

生活随笔收集整理的這篇文章主要介紹了迁移学习（一）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

遷移學(xué)習(xí)綜述(一)（學(xué)習(xí)筆記）

A Survey of Recent Adances in Transfer leanning

1.引言

傳統(tǒng)機器學(xué)習(xí)方法只有在一個共同的假設(shè)下才能很好地工作:訓(xùn)練和測試數(shù)據(jù)都來自相同的特征空間和相同的分布。當分布發(fā)生變化時，大多數(shù)統(tǒng)計模型需要使用新收集的訓(xùn)練數(shù)據(jù)從頭開始重建。在許多現(xiàn)實的應(yīng)用程序中，回憶所需的訓(xùn)練數(shù)據(jù)和重建模型是昂貴的或不可能的。如果能減少重新收集訓(xùn)練數(shù)據(jù)的需要和工作，那就太好了。在這種情況下，知識轉(zhuǎn)移或任務(wù)域之間的遷移學(xué)習(xí)是可取的。

在現(xiàn)實世界中，我們觀察到許多遷移學(xué)習(xí)的例子。例如，我們可能會發(fā)現(xiàn)，學(xué)會辨認蘋果可能有助于辨認梨。同樣，學(xué)習(xí)彈奏電子琴可能有助于學(xué)習(xí)鋼琴。遷移學(xué)習(xí)的研究是基于這樣一個事實:人們可以智能地應(yīng)用之前學(xué)到的知識，更快地或更好地解決新問題。機器學(xué)習(xí)領(lǐng)域遷移學(xué)習(xí)的基本動機在“學(xué)會學(xué)習(xí)”的NIPS-95研討會上進行了討論，該研討會關(guān)注終身機器學(xué)習(xí)方法的需求，該方法可以保留和重用以前學(xué)習(xí)過的知識。

上圖可看出傳統(tǒng)學(xué)習(xí)技術(shù)與遷移學(xué)習(xí)技術(shù)的學(xué)習(xí)過程差異。我們可以看到，傳統(tǒng)的機器學(xué)習(xí)技術(shù)嘗試從頭開始學(xué)習(xí)每個任務(wù)，而遷移學(xué)習(xí)技術(shù)則嘗試在目標任務(wù)擁有較少高質(zhì)量訓(xùn)練數(shù)據(jù)時，將之前的一些任務(wù)中的知識轉(zhuǎn)移到目標任務(wù)中

2.符號說明

域(Domain)：包含特征空間（feature space） 和 邊緣概率分布（marginal probability distrubution） 兩部分。
$D = (X, P (X))$
任務(wù)（Task）：包含標簽（label） 和 映射函數(shù)（mapping function） 兩部分。
$=(Y,f(\cdot))$
注釋： $f(?)f(\cdot)$ 是不能直接觀測到的，是通過訓(xùn)練數(shù)據(jù)學(xué)習(xí)得到的，是在 $X$ 和 $Y$ 中 $x_i$ 和 $y_i$ 的對應(yīng)關(guān)系。從概率角度出發(fā)可以寫成 $P (y ∣ x)$ 。

源域 (Source Domain): $D_s=\{ (x_{s1},y_{s1}),...,(x_{sn},y_{sn})\}$
目標域 (Target Domain): $D_t=\{ (x_{t1},y_{t1}),...,(x_{tn},y_{tn})\}$
$\leq n_S \ll n_T$

定義：給定一個源域 $D_s$ 和源域任務(wù) $T_s$ ，一個目標域 $D_t$ 和目標域任務(wù) $T_t$ 。遷移學(xué)習(xí)的目標就是在 $Ds=?DtD_s\not=D_t$ 或 $Ts=?TtT_s\not=T_t$ 的情況下用 $D_s$ 和 $T_s$ 的知識幫助目標域 $D_t$ 學(xué)習(xí)得到一個效果更好的函數(shù) $f(?)f(\cdot)$
根據(jù)上述定于我們可以知道， $Ds=?DtD_s\not=D_t$ 有兩種情況：
（1） $Xs=?XtX_s\not=X_t$
（2） $Ps(X)=?Pt(X)P_s(X)\not=P_t(X)$
$Ts=?TtT_s\not=T_t$ 也有兩種情況：
（1） $Ys=?YtY_s\not=Y_t$
（2） $fs(?)=?ft(?)f_s(\cdot)\not=f_t(\cdot)$

3.遷移學(xué)習(xí)分類

遷移學(xué)習(xí)三大靈魂問題
何時遷移？（When?）
詢問在什么情況下，遷移技能應(yīng)該被使用。源域數(shù)據(jù)是否與目標與數(shù)據(jù)相關(guān)
【1】如果原訓(xùn)練樣本已經(jīng)足夠并且能夠?qū)崿F(xiàn)較好的效果，再用遷移學(xué)習(xí)就會因為源域冗余等限制使得目標域任務(wù)效果不好。
【2】各種不用散度的訓(xùn)練樣本，直接從源域遷移到目標域，源域樣本和目標域樣本巨大分歧即，當源域和目標域之間沒有關(guān)聯(lián)時，可能會導(dǎo)致蠻力傳遞失敗。在最壞的情況下，它甚至可能損害在目標領(lǐng)域的學(xué)習(xí)性能，這種情況通常被稱為負遷移。目前關(guān)于遷移學(xué)習(xí)的研究主要集中在
遷移什么？（What?）
哪些知識可以跨領(lǐng)域或任務(wù)轉(zhuǎn)移。有些知識是特定于單個領(lǐng)域或任務(wù)的，有些知識可能是不同領(lǐng)域之間的共同知識，從而有助于提高目標領(lǐng)域或任務(wù)的性能。在發(fā)現(xiàn)哪些知識可以轉(zhuǎn)移后，需要開發(fā)相應(yīng)的學(xué)習(xí)算法進行知識轉(zhuǎn)移。
（1）Instance-based TL（樣本遷移）
盡管源域數(shù)據(jù)不可以整個直接被用到目標域里，但是在源域中還是找到一些可以重新被用到目標域中的數(shù)據(jù) **instance reweighting（樣本重新調(diào)整權(quán)重）和importance sampling（重要性采樣）**是instance-based TL里主要用到的兩項技術(shù)。
（2）Feature-representation-transfer（特征遷移）
找到一些好的有代表性的特征，通過特征變換把源域和目標域的特征變換到同樣的空間，使得這個空間中源域和目標域的數(shù)據(jù)具有相同的分布，然后進行傳統(tǒng)的機器學(xué)習(xí)就可以了。
（3）Parameter-transfer（參數(shù)/模型遷移）
假設(shè)源域和目標域之間共享一些參數(shù)，或者共享模型hyperparameters（超參數(shù)）的先驗分布。這樣把原來的模型遷移到新的域時，也可以達到不錯的精度。
（4）Relational-knowledge-transfer（關(guān)系遷移）
把相似的關(guān)系進行遷移。

根據(jù)域和任務(wù)的不同組合可以分為以下四大類（根據(jù)遷移學(xué)習(xí)遷移什么知識可以分為三類。）
（1） $D_s=D_t$ 且 $T_s=T_t$ （傳統(tǒng)機器學(xué)習(xí)）
（2） $D_s=D_t$ 且 $Ts=?TtT_s\not=T_t$ （歸納式學(xué)習(xí)或轉(zhuǎn)換式學(xué)習(xí) （ITL/TTL））
（3） $Ds=?DtD_s\not=D_t$ 且 $T_s=T_t$ （轉(zhuǎn)換式學(xué)習(xí) Transductive Transfer learning）
（4） $Ds=?DtD_s\not=D_t$ 且 $Ts=?TtT_s\not=T_t$ （無監(jiān)督學(xué)習(xí) Unsupervised Transfer Learning

Inductive Transfer LearningTransductives Transfer LeanringUnsupervised Transfer Leanring

Instance-transfer	$?\checkmark$	$?\checkmark$
Feature-representation-transfer	$?\checkmark$	$?\checkmark$	$?\checkmark$
Parameter-transfer	$?\checkmark$
Relational-knowledge-transfer	$?\checkmark$

按照源域目標域標簽可用情況劃分

Y_t

Y_s

categorysub-domain

可用	可用	Inductive	Self-taught learning
可用	不可用	Inductive	Multi-task learning
不可用	不可用	Transductive	Domain adaptation
不可用	不可用	Unsupervised

如何遷移？（How?）
遷移學(xué)習(xí)技術(shù)方法。

4.歸納式遷移學(xué)習(xí)方法( Inductive Transfer Learning)

4.1 實例遷移（instance-transfer）
盡管源域數(shù)據(jù)不能直接重用，但仍然有某些部分的數(shù)據(jù)可以與目標領(lǐng)域中的少數(shù)標記數(shù)據(jù)一起重用。

TrAdaBoost： $Yt=Ys,Pt(X)=?Ps(X)Y_t=Y_s,P_t(X)\not=P_s(X)$
假設(shè)源域和目標域的數(shù)據(jù)使用完全相同特征和標簽的集合，但是數(shù)據(jù)在兩個域中的分布是不同的。由于源域和目標域之間分布的差異，一些**源域數(shù)據(jù)(instance)**可能對學(xué)習(xí)目標域有用，但一些可能不會有用，甚至可能有害。它嘗試迭代地重新加權(quán)源域數(shù)據(jù)，以減少“壞的”源數(shù)據(jù)的影響，同時鼓勵“好的”源數(shù)據(jù)為目標域貢獻更多。對于每一輪迭代，TrAdaBoost都會在加權(quán)源數(shù)據(jù)和目標數(shù)據(jù)上訓(xùn)練基分類器。錯誤只在目標數(shù)據(jù)上計算。TrAdaBoost使用與AdaBoost相同的策略來更新目標域中分類錯誤的示例，而使用與AdaBoost不同的策略來更新源域中分類錯誤的源示例。

4.2 傳遞特征表示的知識（Transferring Knowledge of Feature Representations）
尋找“好的”特征表示，以減少領(lǐng)域差異和分類或回歸模型誤差。如果源域中有大量的標記數(shù)據(jù)，可以使用監(jiān)督學(xué)習(xí)方法來構(gòu)造特征表示。如果源域中沒有可用的標記數(shù)據(jù)，使用無監(jiān)督學(xué)習(xí)方法來構(gòu)造特征表示。其基本思想是學(xué)習(xí)一種跨相關(guān)任務(wù)共享的低維表示（稀疏特征學(xué)習(xí)方法）。

4.2.1 監(jiān)督特征構(gòu)造方法
$argminA,U∑t∈{T,S}∑i=1niL(yti,<at,UTxti>)+γ∥A∥2,12s.t.U∈Od.argmin_{A,U}\sum_{t\in\{T,S\}}\sum_{i=1}^{n_i}L(y_{t_i},<a_t,U^Tx_{t_i}>)+\gamma \begin{Vmatrix}A\end{Vmatrix}_{2,1}^2 \\s.t. \space \space \space U\in O^d.$

4.2.2無監(jiān)督特征構(gòu)造方法
$argmina,b∑i∥xSi?∑jaSijbj∥22+β∥aSi∥1s.t.∥bj∥2≤1,?j∈1,...,s.argmin_{a,b}\sum_{i}\begin{Vmatrix}x_{S_i}-\sum_ja_{S_i}^jb_j \end{Vmatrix}_{2}^2 +\beta \begin{Vmatrix} aS_i\end{Vmatrix}_1 \\s.t. \space \space \space \begin{Vmatrix} b_j\end{Vmatrix}_2\leq1, \space \space \forall j\in 1,...,s.$
$a_{S_i}^j$ 是輸入 $x_{S_i}$ 在基底 $b_j$ 下的新表示; $β\beta$ 是一個平衡特征構(gòu)造項和正則化項的系數(shù)。學(xué)習(xí)基向量 $b$ 后，對目標域數(shù)據(jù)應(yīng)用下屬模型優(yōu)化，學(xué)習(xí)得到基于基向量 $b$ 更高層次的特征。
$aTi?=argminaTi∥xTi?∑jaTijbj∥22+β∥aTi∥1a_{T_i}^*=argmin_{a_{T_i}}\begin{Vmatrix}x_{T_i}-\sum_ja_{T_i}^jb_j \end{Vmatrix}_{2}^2 +\beta \begin{Vmatrix} aT_i\end{Vmatrix}_1$
最后，可以對 ${a_{T_i}^*}$ 使用相應(yīng)標簽的判別算法訓(xùn)練分類或回歸模型，以便在目標領(lǐng)域中使用。這種方法的一個缺點是，優(yōu)化 $b$ 時在源域?qū)W習(xí)到的所謂高階基向量可能不適合在目標域使用。

4.3 參數(shù)知識轉(zhuǎn)移（Transferring Knowledge of Parameters）
假設(shè)相關(guān)任務(wù)的個體模型應(yīng)該共享一些參數(shù)或超參數(shù)的先驗分布
多任務(wù)學(xué)習(xí)試圖同時完美地學(xué)習(xí)源任務(wù)和目標任務(wù)，而遷移學(xué)習(xí)的目的只是利用源域數(shù)據(jù)來提高目標域的性能。因此，在多任務(wù)學(xué)習(xí)中，源數(shù)據(jù)和目標數(shù)據(jù)的損失函數(shù)的權(quán)值是相同的。相反，在遷移學(xué)習(xí)中，不同領(lǐng)域的損失函數(shù)的權(quán)重是不同的。直觀地說，我們可以給目標域的loss function分配一個更大的權(quán)重，以確保我們在目標域中可以獲得更好的性能。

eg1.Evgeniou和Pontil[48]假設(shè)支持向量機中每個任務(wù)的參數(shù)w可以分為兩項。一個是針對任務(wù)的常見術(shù)語，另一個是特定于任務(wù)的術(shù)語。
$wS=w0+vSandwT=w0+vTw_S=w_0+v_S \space \space \space and \space \space \space w_T=w_0+v_T$ 將支持向量機擴展到多任務(wù)學(xué)習(xí)案例可以寫成這樣: $minw0,vt,ξtiJ(w0,vt,ξti)=∑t∈{S,T}∑i=1ntξti+λ12∑t∈{S,T}∥vt∥2+λ2∥w0∥2s.t.yti(w0+ut)?xti≥1?ξt+i,ξti≥0,i∈{1,2,...,n}andt∈{S,T}.min_{w_0,v_t,\xi _{t_i} }J(w_0,v_t,\xi _{t_i}) \\ = \sum_{t\in{\{S,T\}}}\sum_{i=1}^{n_t}\xi _{t_i}+ \cfrac{\lambda _1}{2}\sum_{t\in \{S,T\}}\begin{Vmatrix}v_t \end{Vmatrix}^2+\lambda_2\begin{Vmatrix}w_0 \end{Vmatrix}^2 \\s.t. \space \space \space y_{t_i}(w_0+u_t)\cdot x_{t_i}\ge 1-\xi _{t+i} ,\\ \xi _{t_i} \ge 0,i\in\{1,2,...,n\} \space \space and \space \space t\in\{S,T\}.$
eg2.局部加權(quán)集成學(xué)習(xí)框架，將多個模型結(jié)合起來進行遷移學(xué)習(xí)，根據(jù)模型對目標域內(nèi)每個測試例的預(yù)測能力動態(tài)分配權(quán)重。
eg3.MT-IVM過共享相同的GP先驗來學(xué)習(xí)多個任務(wù)的高斯過程參數(shù)
eg4.使用自由形式協(xié)方差矩陣來建模任務(wù)間依賴關(guān)系，其中GP先驗用于誘導(dǎo)任務(wù)之間的相關(guān)性。
eg5.分層貝葉斯框架(HB)

4.4 知識轉(zhuǎn)移關(guān)系(Transferring Relational Knowledge)
關(guān)系-知識遷移方法處理的是關(guān)系領(lǐng)域的遷移學(xué)習(xí)問題，其中數(shù)據(jù)是不同分布。并且可以用多種關(guān)系來表示，如網(wǎng)絡(luò)數(shù)據(jù)和社交網(wǎng)絡(luò)數(shù)據(jù)。這種方法不假設(shè)從每個域提取的數(shù)據(jù)是獨立的和同分布的，這是傳統(tǒng)的假設(shè)。它嘗試將數(shù)據(jù)之間的關(guān)系從源域轉(zhuǎn)移到目標域。在此背景下，統(tǒng)計關(guān)系學(xué)習(xí)技術(shù)被提出來解決這些問題。

eg: Mihalkova等人[50]提出了一種利用馬爾可夫邏輯網(wǎng)絡(luò)(MLNs)跨關(guān)系域轉(zhuǎn)移關(guān)系知識的算法TAMAR MLNs[56]是一個強大的形式主義，它結(jié)合了一階邏輯的緊湊表達和概率的靈活性，用于統(tǒng)計關(guān)系學(xué)習(xí)。在mln中，關(guān)系域中的實體用謂詞表示，它們的關(guān)系用一階邏輯表示。
TAMAR的動機是，如果兩個域彼此相關(guān)，那么可能存在連接源域到目標域的實體及其關(guān)系的映射。例如，教授可以被認為在學(xué)術(shù)領(lǐng)域扮演類似于在工業(yè)管理領(lǐng)域的經(jīng)理的角色。此外，教授和學(xué)生之間的關(guān)系類似于經(jīng)理和員工之間的關(guān)系。因此，可能存在從教授到經(jīng)理的映射，以及從教授-學(xué)生關(guān)系到經(jīng)理-工人關(guān)系的映射。

5.轉(zhuǎn)換式遷移學(xué)習(xí)方法( Transductive Transfer Learning)

轉(zhuǎn)導(dǎo)遷移學(xué)習(xí)一詞最早由Arnold等人提出，他們要求源和目標任務(wù)相同，盡管領(lǐng)域可能不同。在這些條件之上，他們進一步要求在訓(xùn)練時目標域中所有未標記的數(shù)據(jù)都是可用的，但我們認為這個條件可以放寬;相反，在我們對轉(zhuǎn)導(dǎo)遷移學(xué)習(xí)設(shè)置的定義中，我們只要求在訓(xùn)練時看到部分未標記的目標數(shù)據(jù)，以獲得目標數(shù)據(jù)的邊際概率。
ps:（1） $Xs=?XtX_s\not=X_t$ （2） $Ps(X)=?Pt(X)P_s(X)\not=P_t(X)$
希望通過最小化預(yù)期風(fēng)險來學(xué)習(xí)目標域的最優(yōu)模型。
5.1 轉(zhuǎn)移實例的知識(Transferring the Knowledge of Instances)
實例遷移方法的動機是重要抽樣。為了了解基于重要性的抽樣方法在這種情況下可能有何幫助要進行概率評估，ERM評估
$θ?=argminθ∈Θ1n∑i=1n[l(xi,yi,θ)]\theta ^*=argmin_{\theta\in \Theta}\cfrac{1}{n}\sum_{i=1}^n[l(x_i,y_i,\theta)]$

如果 $P_s(X)=P_t(X)$ ，從源域數(shù)據(jù)中學(xué)習(xí)模型 $P(X_S)$
$θ?=argminθ∈Θ∑(x,y)∈DSP(DS)l(x,y,θ)\theta ^*=argmin_{\theta\in \Theta}\sum_{(x,y)\in D_S}P(D_S)l(x,y,\theta)$
如果 $Ps(X)=?Pt(X)P_s(X)\not=P_t(X)$ ，修改上述優(yōu)化問題，學(xué)習(xí)一個對目標域泛化能力高的模型

$θ?=argminθ∈Θ∑(x,y)∈DSP(DT)P(DS)l(x,y,θ)?argminθ∈Θ∑i=1nSPT(XTi,yTi)PS(XSi,ySi)l(xSI,ySI,θ)\theta ^*=argmin_{\theta\in \Theta}\sum_{(x,y)\in D_S}\cfrac{P(D_T)}{P(D_S)}l(x,y,\theta)\\ \simeq argmin_{\theta\in \Theta}\sum_{i=1}^{n_S}\cfrac{P_T(X_{T_i},y_{T_i})}{P_S(X_{S_i},y_{S_i})}l(x_{S_I},y_{S_I},\theta)$
通過 $PT(XTi,yTi)PS(XSi,ySi)\cfrac{P_T(X_{T_i},y_{T_i})}{P_S(X_{S_i},y_{S_i})}$ 對每一個 $X_{S_i},y_{S_i})$ 添加懲罰值可以學(xué)習(xí)目標域的精確模型。又因為 $P(Y_T|X_T)=P(Y_S|X_S)$ ，所以 $PT(XTi,yTi)PS(XSi,ySi)=P(xSi)P(xTi)\cfrac{P_T(X_{T_i},y_{T_i})}{P_S(X_{S_i},y_{S_i})}=\cfrac{P(x_{S_i})}{P(x_{T_i})}$ ,我們就只需要評估
$P(xSi)P(xTi)\cfrac{P(x_{S_i})}{P(x_{T_i})}$ 即可。

5.1 傳遞特征表示的知識(Transferring Knowledge of Feature Representations)
利用目標域的未標記數(shù)據(jù)提取一些相關(guān)的特征，可以減少域之間的差異。

6.無監(jiān)督遷移學(xué)習(xí)( UnsupervisedTransfer Learning)

在訓(xùn)練的源域和目標域沒有觀察到標記的數(shù)據(jù)。自學(xué)聚類是無監(jiān)督遷移學(xué)習(xí)的一個實例，其目的是利用源域中大量的無標記數(shù)據(jù)對目標域中的少量無標記數(shù)據(jù)進行聚類。STC嘗試學(xué)習(xí)跨領(lǐng)域的公共特征空間，這有助于在目標領(lǐng)域進行聚類。

應(yīng)用省略

7.總結(jié)（2010年）

在未來的研究中，有幾個重要的問題亟待解決。首先，如何避免負遷移是一個開放的問題。許多提出的遷移學(xué)習(xí)算法都假定源域和目標域在某種意義上是相互關(guān)聯(lián)的。然而，如果這一假設(shè)不成立，負遷移可能會發(fā)生，這可能會導(dǎo)致學(xué)習(xí)者的表現(xiàn)不如沒有遷移。因此，如何保證遷移學(xué)習(xí)中不發(fā)生負遷移是遷移學(xué)習(xí)的關(guān)鍵問題。為了避免負遷移學(xué)習(xí)，我們需要首先研究源域或任務(wù)與目標域或任務(wù)之間的可遷移性。基于合適的可遷移性度量，我們可以選擇相關(guān)的源領(lǐng)域或任務(wù)，從中提取知識，用于學(xué)習(xí)目標任務(wù)。為了定義領(lǐng)域和任務(wù)之間的可轉(zhuǎn)移性，我們還需要定義標準來度量領(lǐng)域或任務(wù)之間的相似性。基于距離度量，我們可以對域或任務(wù)進行集群，這可能有助于度量可轉(zhuǎn)移性。一個相關(guān)的問題是，當一個完整的域不能用于遷移學(xué)習(xí)時，我們是否還可以在目標域中遷移部分域來進行有用的學(xué)習(xí)。

此外，現(xiàn)有的遷移學(xué)習(xí)算法主要集中在改進源域和目標域或任務(wù)之間不同分布的泛化。在這樣做的過程中，他們假設(shè)源域和目標域之間的特征空間是相同的。然而，在許多應(yīng)用程序中，我們可能希望跨具有不同特征空間的領(lǐng)域或任務(wù)轉(zhuǎn)移知識，并從多個這樣的源領(lǐng)域轉(zhuǎn)移知識。我們把這種遷移學(xué)習(xí)稱為異質(zhì)遷移學(xué)習(xí)

PS:個人學(xué)習(xí)筆記，僅供參考！

總結(jié)

以上是生活随笔為你收集整理的迁移学习（一）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： java 创建ssh用户秘钥,安装Jav
下一篇：学习笔记（一）——图像的灰度级和动态范围