日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

手动下载新版的TCGA数据也是可以用TCGAbiolinks包整理的

發布時間:2023/12/8 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 手动下载新版的TCGA数据也是可以用TCGAbiolinks包整理的 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

很多人因為網絡原因不能使用TCGAbiolinks這個神包下載TCGA的RNA-seq數據,只能通過瀏覽器訪問GDC TCGA的官網進行下載,而下載后得到的是一個個文件夾,對于如何整理成一個表達矩陣也是很麻煩的。

今天給大家介紹一個簡單點的方法,使用TCGAbiolinks包整理你通過瀏覽器官網下載的rna-seq數據。

通常大家通過瀏覽器下載后會得到下面的這種很多個文件夾:

每個文件夾里是一個樣本的表達量數據,tsv格式的:

這時候你可以通過之前介紹過的方法得到表達矩陣。

但是這個方法對于新手還是不夠友好,尤其是根據Json文件匹配數據時,但是TCGA表達量數據又是很常用的,這個操作還是很高頻的需求。

前幾天學習TCGAbiolinks包時意外發現,即使是手動下載的數據,只要構建合適的路徑,也是可以通過GDCprepare()函數進行整理從而簡單的得到表達矩陣的!

TCGAbiolinks包下載的表達量數據的文件路徑是有規律的,如果你沒有特別指明,通常是位于GDCdata\TCGA-COAD\harmonized\Transcriptome_Profiling\Gene_Expression_Quantification這個路徑下的。

這個包下載數據就是三板斧操作,query,download,prepare,而且最后GDCprepare()需要的還是GDCquery()得到的對象,因此我們完全可以通過構建一個適合它的路徑,讓GDC_prepare()幫我們整理成表達矩陣!

比如我上面的各個樣本文件夾的路徑在我的電腦中是這樣的:G:\tcga\GDCdata\TCGA-COAD\harmonized\Transcriptome_Profiling\Gene_Expression_Quantification,我的get_expr.R腳本是放在G:\tcga這個路徑下的。

腳本內容如下:

library(TCGAbiolinks)## ============================================================= ## ______ ___ ____ ___ ## || | | | | | o __ | o _ __ ## || | | ___ |___| |__ | | | | | | | | |_/ |__ ## || |___ |____| | | |__| | |__| |__ | | |_| | \ __| ## ------------------------------------------------------------ ## Query, download & analyze - GDC ## Version:2.25.2 ## ==============================================================# 查詢這一步是需要的!即使網在欄,這一步應該可以成功的... query <- GDCquery(project = "TCGA-COAD",data.category = "Transcriptome Profiling",data.type = "Gene Expression Quantification",workflow.type = "STAR - Counts") # 下載這一步就不用了,我們是通過官網手動下載的~ # GDCdownload(query, files.per.chunk = 100) #每次下載100個文件# 整理 GDCprepare(query,save = T,save.filename = "example.rdata")##|===============================================================================|100% ## Completed after 1 m ##Starting to add information to samples ## => Add clinical information to samples ## => Adding TCGA molecular information from marker papers ## => Information will have prefix 'paper_' ##coad subtype information from:doi:10.1038/nature11252 ##Available assays in SummarizedExperiment : ## => unstranded ## => stranded_first ## => stranded_second ## => tpm_unstrand ## => fpkm_unstrand ## => fpkm_uq_unstrand ##=> Saving file: example.rdata ##=> File saved

這樣我們的數據就整理好了:

下次使用直接load即可:

rm(list = ls()) load(file = "example.rdata")se <- data seclass: RangedSummarizedExperiment dim: 60660 521 metadata(1): data_release assays(6): unstranded stranded_first ... fpkm_unstrand fpkm_uq_unstrand rownames(60660): ENSG00000000003.15 ENSG00000000005.6 ... ENSG00000288674.1 ENSG00000288675.1 rowData names(10): source type ... hgnc_id havana_gene colnames(521): TCGA-A6-5664-01A-21R-1839-07 TCGA-D5-6530-01A-11R-1723-07 ...TCGA-A6-2683-01A-01R-0821-07 TCGA-A6-2683-11A-01R-A32Z-07 colData names(107): barcode patient ... paper_vascular_invasion_present paper_vital_status

這個se就是我們之前介紹過的SummarizedExperiment對象,你可以對它進行各種操作,得到counts矩陣、tpm矩陣、fpkm矩陣都是小事一樁,猶如探囊取物一般簡單流暢! 詳情可搜索歷史推文

關于TCGA表達矩陣提取,告訴我,你還有哪里搞不定!?

本文由 mdnice 多平臺發布

總結

以上是生活随笔為你收集整理的手动下载新版的TCGA数据也是可以用TCGAbiolinks包整理的的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。