从Richard Young教授的系列研究看超级增强子发现背后的故事 (附超级增强子鉴定代码)
歡迎關(guān)注天下博客:http://blog.genesino.com/2018/04/super-enhancer/
Richard Young教授,美國科學(xué)院院士,就職于Whitehead研究所,是基因轉(zhuǎn)錄和表觀調(diào)控研究的先驅(qū),做出了很多開創(chuàng)性發(fā)現(xiàn)。
2013年關(guān)于超級增強(qiáng)子的研究,引燃了這個領(lǐng)域。超級增強(qiáng)子的發(fā)現(xiàn)看上去是偶然,但遍歷其在轉(zhuǎn)錄調(diào)控領(lǐng)域的研究,這個發(fā)現(xiàn)又是必然,是知識積累到一定程度,融匯貫通的結(jié)果。
也許我們在處理高通量數(shù)據(jù)的過程中,也發(fā)現(xiàn)過類似的區(qū)域,但因為不敏感或不確信,更多的是因為沒有足夠的知識積淀來解釋這個現(xiàn)象存在的原因或意義,導(dǎo)致我們與大發(fā)現(xiàn)失之交臂。
超級增強(qiáng)子發(fā)現(xiàn)的那一年,有幸遇到Richard Young教授,就請教了下為啥會起這個名字,Young教授說,看到這個區(qū)域了,為了方便研究就隨便給了個名字。看來會起名字,是科學(xué)研究的第一步。要不然叫著都不順口,怎么去跟導(dǎo)師交流,怎么能讓人記住,讓自己記住。
當(dāng)然這只是大牛的謙虛,人家起這個名字是因為看得遠(yuǎn),一語道出了重要作用。
接下來我們捋一捋大牛10年間做過的研究,跟隨大牛的腳步,去學(xué)下如何做數(shù)據(jù)分析。
2000年發(fā)明 ChIP-chip,鑒定了Gal4和Ste12的結(jié)合圖譜,并結(jié)合不同生長條件下的轉(zhuǎn)錄圖譜,進(jìn)行了轉(zhuǎn)錄因子結(jié)合和基因表達(dá)的關(guān)聯(lián)分析。這篇文章,放在現(xiàn)在,也很具有參考意義。
這是華人大牛任兵教授在Richard Young教授做博后時的重要產(chǎn)出之一。
2002年,擴(kuò)大樣本量,整合分析106個調(diào)控因子的結(jié)合圖譜。構(gòu)建了106個調(diào)控因子與2343個基因之間的4000多調(diào)控結(jié)合關(guān)系,構(gòu)建調(diào)控網(wǎng)絡(luò) (網(wǎng)絡(luò)構(gòu)建),發(fā)現(xiàn)調(diào)控因子之間存在較強(qiáng)的互調(diào)控關(guān)系。
2004年綜合結(jié)合圖譜、Motif分析、序列保守性揭示轉(zhuǎn)錄調(diào)節(jié)代碼,即轉(zhuǎn)錄因子在啟動子區(qū)的結(jié)合模式及其在不同環(huán)境下的調(diào)控變化。(現(xiàn)在做motif分析,也無外乎這些)
這樣就把轉(zhuǎn)錄因子的分析工作能做的都做了,下面就到了組蛋白修飾方面。
2008年,活性啟動子區(qū)的雙向轉(zhuǎn)錄,發(fā)現(xiàn)轉(zhuǎn)錄延伸與H3K79me2相關(guān)。
2010年,承接上面的工作,發(fā)現(xiàn)cMyc調(diào)節(jié)Pol II啟動轉(zhuǎn)錄延伸。在人胚胎干細(xì)胞中,約30%的基因有轉(zhuǎn)錄起始進(jìn)程,卻檢測不到轉(zhuǎn)錄延伸。轉(zhuǎn)錄復(fù)合體招募形成后不會立即轉(zhuǎn)錄,而是在啟動子近端停留;轉(zhuǎn)錄因子cMyc則發(fā)揮促進(jìn)轉(zhuǎn)錄復(fù)合體運轉(zhuǎn)的作用。
這篇文章也是研究的一個很好的范例,首先確認(rèn)是不是 (轉(zhuǎn)錄起始和延伸不成比例),然后看誰參與 (關(guān)聯(lián)不同轉(zhuǎn)錄因子,這里有個背景是cMyc與之前發(fā)現(xiàn)的轉(zhuǎn)錄釋放因子PTEFb存在互作),然后多方證據(jù)證明cMyc確實與POL II的釋放有關(guān) (這里選取的對照、和采用的計量方式都值得借鑒)。最后干擾下,確實有效果。完美結(jié)束故事。
當(dāng)然關(guān)于cMyc的研究卻沒結(jié)束,2012年有一篇cell,發(fā)現(xiàn)cMyc可以引起腫瘤細(xì)胞中整體轉(zhuǎn)錄水平升高。(注意:cMyc腫瘤中絕大部分活性基因的增量表達(dá),做腫瘤轉(zhuǎn)錄組時,嚴(yán)格一些記得要加spike-in,不然相對定量就容易把差異抹去了)
還是2010年,發(fā)現(xiàn)Mediator和cohesin可以通過介導(dǎo)染色體結(jié)構(gòu)調(diào)節(jié)基因表達(dá)。Mediator很關(guān)鍵,也是后面發(fā)現(xiàn)超級增強(qiáng)子的一個功臣。
大規(guī)模shRNA篩選哪些基因的敲除對多能性基因的表達(dá)影響最大。
從結(jié)合圖譜確認(rèn)Mediator和cohesin敲低后,影響基因表達(dá)的機(jī)理。后續(xù)有3C實驗驗證染色體結(jié)構(gòu)確實發(fā)生了變化。
2013年發(fā)現(xiàn)超級增強(qiáng)子 (super enhancer),成簇的增強(qiáng)子。最開始定義是:Oct4,Sox,Nanog共結(jié)合的區(qū)域包含成簇的增強(qiáng)子定義為超級增強(qiáng)子,其調(diào)控轉(zhuǎn)錄的強(qiáng)度和敏感性都更高。
后來關(guān)聯(lián)到上一篇工作提到的Mediator:Med1的結(jié)合強(qiáng)度把增強(qiáng)子分成2類,大約40%的Med1信號出現(xiàn)在231個大的增強(qiáng)子上。這個關(guān)聯(lián)就成了超級增強(qiáng)子鑒定的一個依據(jù)。
隨后是超級增強(qiáng)子的結(jié)構(gòu)特征和功能分析,這個GSEA圖很有意思,充分利用上一篇文章中的大規(guī)模敲除結(jié)果,發(fā)現(xiàn)超級增強(qiáng)子調(diào)控的基因富集與對多能性因子影響最強(qiáng)的基因中,定格了超級增強(qiáng)子的重要功能。GSEA還不會,看這里。
超級增強(qiáng)子的富集峰圖很有意思,平常見多了Gene body區(qū)域的富集,習(xí)慣了有高有低的分布。而超級增強(qiáng)子內(nèi)TF的結(jié)合分布均一,這個圖咋一看上去沒什么特色,而這個沒特色作者卻能解釋成很重要的特色,是很好的看問題視角。區(qū)域內(nèi)怎么分布沒關(guān)系,反正是普遍高,高于兩端區(qū)域,就是好的現(xiàn)象。
關(guān)聯(lián)完轉(zhuǎn)錄因子,再關(guān)聯(lián)組蛋白修飾,畢竟轉(zhuǎn)錄組因子數(shù)據(jù)少,又有細(xì)胞特異性,不適合用于大規(guī)模鑒定,發(fā)現(xiàn)H3K27ac可以標(biāo)記超級增強(qiáng)子,并有細(xì)胞特異性。再刷一波cell。
來一張圖,檢驗下做調(diào)控的你知識儲備是否足夠,看看這些調(diào)控元件知道多少?如果都不知道,怎么能談得上活學(xué)活用、關(guān)聯(lián)分析呢?
Richard Young教授的文章還有很多,這里選了一部分表觀調(diào)控為主的文章,其在胚胎干細(xì)胞調(diào)控網(wǎng)絡(luò)、miRNA調(diào)控等領(lǐng)域都有很多好工作,每一篇文章都值得拿過來掰開了慢慢看。也許看的多了,可以從中看出大牛思考的蛛絲馬跡,給自己的科研加一些助力。后臺回復(fù) RA獲取文章全文和采訪視頻。想重復(fù)文章的圖,參考之前發(fā)布的ChIP-seq基本分析流程,和我們的視頻課 https://ke.qq.com/course/291881。
超級增強(qiáng)子鑒定代碼
這個是基于super-enhancer的文章描述和Richard Young教授實驗室發(fā)表的ROSE軟件,制作的一個簡化版,也是我們在本期ChIP-seq培訓(xùn)時大家一起討論出來的解決方式,發(fā)布出來,供大家批評指教。線下集訓(xùn)是很好的方式,歡迎大家參加正在籌備的二代三代轉(zhuǎn)錄組測序分析實戰(zhàn)班。
這個流程沒有考慮鑒定出的增強(qiáng)子與基因區(qū)的關(guān)系,另外流程稍作修改,可用于鑒定各種超級圖譜,如超級TF結(jié)合,超級組蛋白修飾結(jié)合,都可以。
組成型增強(qiáng)子排序
bedtools sort -i mm10.enhancer.bed >mm10.enhancer.sort.bed
距離在12.5 kb內(nèi)的增強(qiáng)子歸為一簇
bedtools cluster -d 125000 -i mm10.enhancer.sort.bed >mm10.cluster.enhancer.bed
計算每個增強(qiáng)子的H3K27ac結(jié)合強(qiáng)度
bedtools coverage -c -a mm10.cluster.enhancer.bed -b MESC_H3K27ac/MESC_H3K27ac.rmdup.bam \
mm10.cluster.enhancer.H3K27ac.profile_tmp
對每簇增強(qiáng)子的結(jié)合強(qiáng)度做簇內(nèi)加和
注意: -g 指定以那一列分組,指定的應(yīng)該是標(biāo)記分簇的數(shù)字所在的列;
-c 表示對coverage所在的列計算加和 (-o sum),注意列需要根據(jù)實際指定
bedtools groupby -i mm10.cluster.enhancer.H3K27ac.profile_tmp -g 5 -c 6 -o sum \
mm10.cluster.enhancer.H3K27ac.profile
以下為R代碼請在R中運行
以下為R代碼
enhancer = read.table(“mm10.cluster.enhancer.H3K27ac.profile”,
header=F, row.names=NULL, sep=”\t”)
head(enhancer)
注意查看豐度信息是否在第二列,若不在,則需做相應(yīng)修改
H3K27ac = sort(enhancer$V2)
plot(H3K27ac, col=2, type=”l”)
計算拐點, 代碼取自ROSE
numPts_below_line <- function(myVector,slope,x){
yPt <- myVector[x]
b <- yPt-(slope*x)
xPts <- 1:length(myVector)
return(sum(myVector<=(xPts*slope+b)))
}
inputVector <- H3K27ac
set those regions with more control than ranking equal to zero
inputVector[inputVector<0]<-0
This is the slope of the line we want to slide. This is the diagonal.
slope <- (max(inputVector)-min(inputVector))/length(inputVector)
Find the x-axis point where a line passing through that point has the minimum number
of points below it. (ie. tangent)。
該點就是切點
xPt <- floor(optimize(numPts_below_line, lower=1, \
upper=length(inputVector),myVector= inputVector,slope=slope)$minimum)
y_cutoff <- inputVector[xPt] #The y-value at this x point. This is our cutoff.
b <- y_cutoff-(slope* xPt)
abline(v= xPt,h= y_cutoff,lty=2,col=8)
points(xPt,y_cutoff,pch=16,cex=0.9,col=2)
abline(coef=c(b,slope),col=2)
title(paste(“x=”,xPt,”\ny=”,signif(y_cutoff,3),”\nFold over Median=”,
signif(y_cutoff/median(inputVector),3),”x\nFold over Mean=”,
signif(y_cutoff/mean(inputVector),3),”x”,sep=”“))
Number of regions with zero signal
axis(1,sum(inputVector==0),sum(inputVector==0),col.axis=”pink”,col=”pink”)
超級增強(qiáng)子cluster
enhancer[enhancer$V2>=y_cutoff,1]
PYTHONBIOINFO生物信息
CHENTONG
版權(quán)聲明:本文為博主原創(chuàng)文章,轉(zhuǎn)載請注明出處。
alipay.png WeChatPay.png
總結(jié)
以上是生活随笔為你收集整理的从Richard Young教授的系列研究看超级增强子发现背后的故事 (附超级增强子鉴定代码)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 聚类分析(三)Mini Batch KM
- 下一篇: 曾国藩36字诀,改变你的人生