日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

本地使用Rfam 12.0+

發布時間:2025/3/15 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 本地使用Rfam 12.0+ 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

歡迎關注天下博客:http://blog.genesino.com/2017/06/Rfam/
Jump to…
下載infernal軟件
下載數據庫
確定待查詢的核苷酸序列或基因組的大小,作為后續命令的參數
使用cmscan程序注釋基因組的ncRNAs
結果解釋
my-genome.cmscan
my-genome.tblout
結果解析
Reference
生信寶典,學的更多
Rfam是用來鑒定non-coding RNAs的數據庫,常用于注釋新的核酸序列或者基因組序列。

最新版本的Rfam (12.2),包含2588個RNA家族,其在線網站提供了便捷的查詢使用功能,http://rfam.xfam.org/,尤其是對小批量數據。

對已經注釋好的物種,建議在ENSEMBLE或UCSC直接下載官方的注釋文件,直接下載GTF或使用bioMart或TableBrowser都可。具體可在本博客或微信公眾號后臺回復關鍵字獲取使用方法。

最后確定要在本地使用了,如果是用之前的版本,請在線搜索,有幾篇教程可用。如果有新版本,請參考此教程。

下載infernal軟件
官網下載:infernal軟件本來應該在http://eddylab.org/infernal/下載,但這個網站最近打不開了。

GitHub下載

如果不會或不能使用git,拷貝鏈接,在GitHub下載壓縮文件,再按順序解壓即可

https://github.com/EddyRivasLab

git clone https://github.com/EddyRivasLab/infernal.git infernal
cd infernal
git clone https://github.com/EddyRivasLab/easel.git
git clone https://github.com/EddyRivasLab/hmmer.git

如果當前目錄有aclocal.m4,則不需要執行

ln -s pwd/easel/aclocal.m4 pwd/

ln -s pwd/easel/aclocal.m4 hmmer

如果沒有autoconf,找管理員配置,或查看軟件安裝

autoconf
(cd easel; autoconf)
(cd hmmer; autoconf)

./configure –prefix=pwd/../infernal_bin
make
make install
cd easel; make install

cd ../../infernal_bin/bin
ls

就可以看到安裝的程序了,加入環境變量即可,本站搜索環境變量查看具體配置方法

或微信公眾號 生信寶典 后臺回復 環境變量 查看

export PATH=${PATH}:pwd
下載數據庫
wget ftp://ftp.ebi.ac.uk/pub/databases/Rfam/12.2/Rfam.cm.gz
gunzip Rfam.cm.gz
wget ftp://ftp.ebi.ac.uk/pub/databases/Rfam/12.2/Rfam12.2.claninfo

使用 Infernal的程序cmpress索引Rfam.cm

大約需要一分鐘

cmporess Rfam.cm

輸出為

Working… done.
Pressed and indexed 2588 CMs and p7 HMM filters (2588 names and 2588 accessions).
Covariance models and p7 filters pressed into binary file: Rfam.cm.i1m
SSI index for binary covariance model file: Rfam.cm.i1i
Optimized p7 filter profiles (MSV part) pressed into: Rfam.cm.i1f
Optimized p7 filter profiles (remainder) pressed into: Rfam.cm.i1p
確定待查詢的核苷酸序列或基因組的大小,作為后續命令的參數

大約1分鐘

esl-seqstat my-genome.fa
其輸出結果中有一行,類似于Total # of residues: 3000000是我們需要的。考慮到基因組為雙鏈和下一步用到的參數的單位為Million,我們使用公式3000000 * 2 / 1000000計算得出結果為6,作為下一步參數-Z的值.

使用cmscan程序注釋基因組的ncRNAs

Rfam12.2.claninfo 為下載的claninfo文件,需提供所在路徑

Rfam.cm 下載的cm文件

my-genome.fa 待查詢序列

my-genome.cmscan 輸出結果

my-genome.tblout 有一個輸出結果

對500M大小的輸入序列,48線程,需要7個小時,最好放入后臺

cmscan -Z esl-seqstat my-genome.fa | awk '{if($0~/^Total/) print int($4/2000000);}'' –cut_ga –rfam –nohmmonly –tblout my-genome.tblout –fmt 2 –clanin Rfam12.2.claninfo Rfam.cm my-genome.fa > my-genome.cmscan
參數解釋:

-Z: 查詢序列的大小,以M為單位。由esl-seqstat算出或自己寫程序計算,記得乘以2,除以10^6.

–cut_ga: 輸出不小于Rfam GA閾值的結果。這是Rfam認證RNA家族的閾值,不低于這個閾值的序列得分被認為是真同源序列。The bit score gathering threshold (GA cutoff), set by Rfam curators when building the family. All sequences that score at or above this threshold will be included in the full alignment and are believed to be true homologs to the model.

–rfam: run in “fast” mode, the same mode used for Rfam annotation and determination of GA thresholds.

–nohmmonly: all models, even those with zero basepairs, are run in CM mode (not HMM mode). This ensures all GA cutoffs, which were determined in CM mode for each model, are valid.

–tblout: table輸出。

–fmt 2: table輸出的一種格式。

–clanin: 下載的clan信息。This file lists which models belong to the same clan. Rfam clans are groups of models that are homologous and therefore it is expected that some hits to these models will overlap. For example, the LSU rRNA archaea and LSU rRNA bacteria models are both in the same clan.

結果解釋
my-genome.cmscan

cmscan命令的標準輸出,使用>重定向。

結果的第一部分是運行的命令的參數記錄
第二部分是查詢的FASTA文件中每個序列的top hits, 根據E-value排序。

Query: scaffold12 [L=2429009]
Hit scores:
rank E-value score bias modelname start end mdl trunc gc description
—- ——— —— —– ——— ——- ——- — —– —- ———–
(1) ! 5.4e-20 86.6 0.0 mir-166 961624 961752 + cm no 0.43 -
(2) ! 9.6e-14 70.9 0.0 tRNA 2369877 2369805 - cm no 0.59 -
(3) ! 3.7e-13 68.8 0.0 tRNA 1344161 1344232 + cm no 0.53 -
(4) ! 2.3e-12 65.9 0.0 tRNA 973203 973274 + cm no 0.54 -
(5) ! 5.8e-12 64.5 0.0 tRNA 1241524 1241595 + cm no 0.50 -
E-value: 統計顯著性,依賴于查詢數據庫的大小。
score: Log-odds得分,獨立于查詢序列數據庫的大小。在使用了–cut_ga后所有輸出的結果都是高于Rfam GA得分的。
modelname: Rfam家族或模型的名字。
start, stop: 查詢序列匹配的區域。后面跟著的是鏈的信息,對于+,起始位置小于終止位置;對于-,其實位置大于終止位置。
互有重疊的查詢區域可能會匹配到不同的Rfam家族或模型。推薦保留具有最低的E-value,最高的bit scaore的部分。

結果的下一部分是比對結果。具體可查看文后的參考網址鏈接的內容。
my-genome.tblout

表格輸出包含了cmscan標準輸出的大部分內容,并且便于對結果的進一步處理。

idx target name accession query name accession clan name mdl mdl from mdl to seq from seq to strand trunc pass gc bias score E-value inc olp anyidx afrct1 afrct2 winidx wfrct1 wfrct2 description of target

— ——————– ——— ——————– ——— ——— — ——– ——– ——– ——– —— —– —- —- —– —— ——— — — —— —— —— —— —— —— ———————

1 tRNA RF00005 scaffold20 - CL00001 cm 1 71 1399503 1399576 + no 1 0.57 0.0 58.8 2.4e-10 ! * - - - - - - -
2 tRNA RF00005 scaffold20 - CL00001 cm 1 71 186338 186267 - no 1 0.54 0.0 55.4 2e-09 ! * - - - - - - -
1 mir-166 RF00075 scaffold12 - - cm 1 126 961624 961752 + no 1 0.43 0.0 86.6 5.4e-20 ! * - - - - - - -
2 tRNA RF00005 scaffold12 - CL00001 cm 1 71 2369877 2369805 - no 1 0.59 0.0 70.9 9.6e-14 ! * - - - - - - -
3 tRNA RF00005 scaffold12 - CL00001 cm 1 71 1344161 1344232 + no 1 0.53 0.0 68.8 3.7e-13 ! * - - - - - - -
4 tRNA RF00005 scaffold12 - CL00001 cm 1 71 973203 973274 + no 1 0.54 0.0 65.9 2.3e-12 ! * - - - - - - -
5 tRNA RF00005 scaffold12 - CL00001 cm 1 71 1241524 1241595 + no 1 0.50 0.0 64.5 5.8e-12 ! * - - - - - - -
1 Plant_SRP RF01855 scaffold15 - CL00003 cm 1 305 1511627 1511325 - no 1 0.62 0.7 249.5 1.1e-70 ! ^ - - - - - - -

每一行有27列,比較關鍵的是target name, accession, query name, seq from, seq to, strand, E-value, score。

olp列表示查詢序列的重疊信息,*表示同一條鏈上,不存在與此查詢序列重疊的序列也在Rfam數據庫有匹配,這是需要保留的查詢序列。^表示同一條鏈上,不存在比此查詢序列與Rfam數據庫匹配更好的序列,也需要保留。=表示同一條鏈上,存在比此查詢序列與Rfam數據庫匹配更好的序列,應忽略。

可通過下面的命令獲取最終結果。

“`bash
grep -v ‘=’ my-genome.tblout >my-genome.deoverlapped.tblout
結果解析
首先轉換下結果格式,提取必須得列和非重疊區域或重疊區域中得分高的區域。

awk ‘BEGIN{OFS=”\t”;}{if(FNR==1) print “target_name\taccession\tquery_name\tquery_start\tquery_end\tstrand\tscore\tEvalue”; if(FNR>2 && 20!="="?&&20!="="?&&0!~/^#/) print 2,2,3,4,4,10,11,11,12,17,17,18; }’ my-genome.tblout >my-genome.tblout.final.xls
統計預測出的ncRNA的類型。

首先下載Rfam家族的注釋,點擊http://rfam.xfam.org/search#tabview=tab5,選擇所有復選框,提交,把得到的表格拷貝下來,整理成TAB鍵分割的格式。并吧第三列拆開,取出類型, 存儲為 Rfam_anno.txt。

Accession ID Type Description class
RF00001 5S_rRNA Gene; rRNA 5S ribosomal RNA rRNA
RF00002 5_8S_rRNA Gene; rRNA 5.8S ribosomal RNA rRNA
RF00003 U1 Gene; snRNA; splicing U1 spliceosomal RNA snRNA
awk ‘BEGIN{OFS=FS=”\t”}ARGIND==1{a[2]=2]=5;}ARGIND==2{type=a[$1]; if(type==”“) type=”Others”; count[type]+=1;}END{for(type in count) print type, count[type];}’ Rfam_anno.txt my-genome.tblout.final.xls
最終輸出

rRNA 61
snRNA 397
sRNA 1
Others 55
antisense 1
tRNA 427
miRNA 95
ribozyme 1
riboswitch 1
Reference
http://rfam.readthedocs.io/en/latest/genome-annotation.html
http://rfam.xfam.org/
生信寶典,學的更多
Rfam 12.0+本地使用 (最新版教程)
RFAM
CHENTONG
版權聲明:本文為博主原創文章,轉載請注明出處。
alipay.png WeChatPay.png

創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的本地使用Rfam 12.0+的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 婷婷色小说 | 麻豆精品一区二区 | 国语对白一区二区 | 青青草手机在线观看 | 在线成人一区 | 国产卡一卡二卡三无线乱码新区 | 26uuu欧美日本| 91天堂视频 | 日韩在线视频不卡 | 国产91在线播放 | 久久国产激情视频 | 小珊的性放荡羞辱日记 | 一区二区视频在线免费观看 | 中文字幕精品国产 | 色综合天天操 | 少妇精品亚洲一区二区成人 | free性娇小hd第一次 | 女的被男的操 | 国产精品亚洲精品 | 欧美黑人孕妇孕交 | 中国性老太hd大全69 | sm乳奴虐乳调教bdsm | 四虎影视免费永久观看在线 | 亚洲麻豆一区 | 五月天婷婷丁香 | 手机av资源 | 久草资源在线观看 | 精品视频一二 | 丰满人妻一区二区三区无码av | 午夜免费播放观看在线视频 | wwwxx国产| 美女网站在线 | 日韩午夜在线播放 | 精品一区二区三区在线播放 | 亚洲专区一区二区三区 | 人妻在线日韩免费视频 | 国产色91| av片大全 | 日韩欧美视频在线免费观看 | 色av导航| 成人视品| 密臀av在线| 老牛影视av一区二区在线观看 | xxxx18日本 | 亚洲精品一区久久久久久 | 少妇精品久久久一区二区三区 | 亚洲国产一二 | 日本一级淫片1000部 | 一区二区三区欧美在线 | 多啪啪免费视频 | 人人人干| 伊人久久大香线蕉综合75 | 成人av地址 | 亚洲永久无码7777kkk | 三上悠亚激情av一区二区三区 | 给我看高清的视频在线观看 | 一区二区三区av在线 | 女人扒开腿让男人桶爽 | 147人体做爰大胆图片成人 | 亚洲精品国产精品国自 | 午夜国产福利在线观看 | 亚洲欧美bt | 国产一区二区在线免费观看视频 | 日本性爱动漫 | 亚洲精品.www | 中文资源在线播放 | julia中文字幕在线 | 久久依人网 | 久久久国产精华液999999 | 老司机午夜福利视频 | 国产精品99视频 | 神马久久久久 | 一级片一级片 | 熟女少妇精品一区二区 | 精品无码人妻一区二区三区 | 四虎黄色网| 日韩视频免费观看高清 | 国产色99| 性感美女福利视频 | 中文字幕日本一区二区 | 在线视频在线观看 | 亚洲午夜一区 | 欧美性猛交久久久乱大交小说 | 国产又粗又猛又爽又黄的视频一 | 午夜寂寞少妇 | 8x8ⅹ国产精品一区二区二区 | 中文字幕亚洲一区 | 就去色av| 欧美精品一区二区蜜臀亚洲 | 午夜成人在线视频 | 国产免费二区 | 波多野结衣在线观看一区 | 免费成人激情视频 | 国产在线播 | 一区二区视频在线看 | 中文字幕有码无码人妻av蜜桃 | 国产伦精品一区二区三区视频孕妇 | 国产91对白在线播放 | 成年人理论片 |