如何下载一个物种的全部EST序列 | NCBI | 表达序列标签
EST:表達(dá)序列標(biāo)簽,expressed sequence tags 。
顧名思義,很好理解,就是表達(dá)出來(lái)的序列,即從基因組DNA上表達(dá)出來(lái)的RNA,但是我們沒(méi)法測(cè)序RNA,所以我們最終測(cè)的是表達(dá)序列的cDNA片段。
“標(biāo)簽”:就是指這些序列可能比較短,但是可以用來(lái)標(biāo)定一個(gè)物種。
常見(jiàn)下載方式有兩種:
1. NCBI Web下載
https://www.ncbi.nlm.nih.gov/dbEST/
打開(kāi),搜索你要的物種,比如?Camellia ,可以看到結(jié)果EST (50287)。
Web下載幾個(gè)還行,想要批量下載就有點(diǎn)費(fèi)力了,ncbi反爬蟲,也不好爬。
2. NCBI ftp下載
ftp://ftp.ncbi.nih.gov/repository/dbEST/
直接wget就可以批量下載了。
for one in `seq 1 81` do echo $one wget ftp://ftp.ncbi.nih.gov/repository/dbEST/dbEST.reports.000000.${one}.gz done下載后的文件格式是:
IDENTIFIERSdbEST Id: 5 EST name: EST00006 GenBank Acc: M61958 GDB Dsegment: D0S2525ECLONE INFO Clone Id: HHCSB86 Source: ATCC Id in host: 77063 DNA type: cDNAPRIMERS Sequencing: M13 Forward PolyA Tail: UnknownSEQUENCETGCACAACCAAGTTTTGTGACTACGGGAAGGCTCCCGGGGCAGAGGAGTACGCTCAACAAGATGTGTTAAAGAAATCTTACTCCAAGGCCTTCACGCTGACCATCTCTGCCCTCTTTGTGACACCCAAGACGACTGGGGCCCNGGTGGAGTTAAGCGAGCAGCAACTNCAGTTGTNGCCGAGTGATGTGGACAAGCTGTCACCCACTGACAEntry Created: May 26 1992 Last Updated: Dec 18 2012PUTATIVE ID Assigned by submitter2',3'-cyclic nucleotide phoshodiesteraseLIBRARY Id: LIBEST_000004 Lib Name: LIBEST_000004 Hippocampus, Stratagene (cat. #936205) Organism: Homo sapiens Vector: lambdaZAP-II Description: Female, 2 years; oligo-dT + random primed cDNA synthesis;信息是挺全面的,自己想要哪個(gè)物種就只能自己提取了。
提取成FASTA的腳本我就不貼了(效率很重要,因?yàn)槲募艽?#xff09;。
?最后我還是自己寫了個(gè)腳本,biopython實(shí)在是太慢了。
import gzip inf = gzip.open("dbEST.reports.000000.49.gz","rb") raw_id = "" seq = ""for line in inf:if line.stratswith("GenBank Acc"):id = line.split(":")[1].strip() if line.stratswith("SEQUENCE"):seq = ""while True:rline = inf.readline()seq+=rline.strip()if not line.stratswith(" "):breakif line.stratswith("Organism"):organism = line.split(":")[1].strip()if organism.startswith("Camellia"):print(">"+id+" "+organism, seq, sep="\n")
我的腳本可以用,但是不一定很快。
我用awk試了很久,沒(méi)有成功。
?
2018年3月16日
總結(jié)
以上是生活随笔為你收集整理的如何下载一个物种的全部EST序列 | NCBI | 表达序列标签的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: php数组根据指定列排序
- 下一篇: spark SQL读取ORC文件从Dri