?? 阿祖拉塔:最好用的融合基因查找工具終于正式發表了 - 祖拉的世界|上古卷轴阿祖拉被口爆

最好用的融合基因查找工具終于正式發表了

就是STAR-fusion啦,它可以直接基于STAR比對好的bam文件來做分析,而大多數其它融合基因查找工具,需要從fastq文件開始,不太方便。之前我在生信技能樹公眾號介紹過它,那個時候發表該工具的文章是:STAR-Fusion: Fast and Accurate Fusion Transcript Detection from RNA-Seq  在biorxiv預印本:

image-20191029093943451

兩年前我在生信技能樹就寫過它的教程:使用STAR-fusion來對轉錄組數據找融合基因 也強調大家自行讀STAR-Fusion詳細說明:https://github.com/STAR-Fusion/STAR-Fusion/wiki 今天(2019-10-29  )翻它的主頁發現上面寫著已經正式發表了:

image-20191029094043567

還設計了一個好看(簡潔)的logo,我留意到作者少了很多:

image-20191029094535954

而且才意識到,居然是 Aviv Regev 實驗室出品的工具!如果生信技能樹的粉絲們有在 Aviv Regev 實驗室做科研的(博士,博士后均可),希望可以聯系我一下,認識一下。

再次回顧STAR-fusion對RNA-seq測序數據找融合基因的流程

生物信息學鑒定融合轉錄本的方法一般有兩種:

①將RNA-seq數據與Reference genome做alignment,鑒別可能發生重排的基因;

②先直接將reads裝配成更長的轉錄本序列,再鑒別與重排序列一致的融合轉錄本。

而我們選擇的Broad Institute的 Brian J. Haas 和冷泉港實驗室(CSHL)的 Alex Dobin 等人開發的工具STAR-Fusion,其工作原理分為三步:

①先將reads通過STAR比對到參考基因組,篩選出split和discordant reads作為候選的融合基因序列;

②將候選融合基因序列與參考基因序列進行比對,根據overlaps預測出融合基因;

③對預測結果做過濾,去除假陽性結果。

首先對RNA-seq測序數據進行star的two-pass比對:

批量運行,其中star_index 需要指定自己的star索引路徑文件夾,而bin_star需要指定自己的star軟件的可執行程序路徑哦。

核心代碼是:

start=$(date +%s.%N)

echo star start `date`

$bin_star --runThreadN  4  --genomeDir $star_index  \

--twopassMode Basic --outReadsUnmapped None --chimSegmentMin 12  \

--alignIntronMax 100000 --chimSegmentReadGapMax parameter 3  \

--alignSJstitchMismatchNmax 5 -1 5 5  \

--readFilesCommand zcat --readFilesIn $fq1 $fq2 --outFileNamePrefix  ${sample}_

mv ${sample}_Aligned.out.sam $sample.sam

$bin_samtools sort -o $sample.bam  $sample.sam

$bin_samtools index $sample.bam

$bin_samtools flagstat $sample.bam  > $sample.flagstat

touch  ok.star.$sample.status

rm  $sample.sam

echo star  end  `date`

dur=$(echo '$(date +%s.%N) - $start' | bc)

printf 'Execution time for star : %.6f seconds' $dur

實際上就是一行命令在運行比對過程,但是呢,參數太多了,調起來很麻煩,通常如果不理解的話就不建議修改參數。 有一個鏈接需要注意:https://github.com/STAR-Fusion/STAR-Fusion/issues/104

值得注意的是,star這個比對軟件,也需要選擇比較新的版本哦:Please be sure to use the STAR aligner with min version: 2.7.0f 畢竟我上次寫教程介紹它的時候是2017年。軟件需要最新版,下載的數據庫也需要最新版!

image-20191029104053046

比對本來是為了得到bam文件,但是我們這個流程是為了 得到'Chimeric.out.junction'這個文件,供STAR-fusion使用。最新版軟件,關于得到'Chimeric.out.junction'這個文件,有一個參數:chimOutJunctionFormat 需要注意。

然后使用conda安裝STAR-fusion

因為這個工具大量依賴perl???,一般人不會這個語言,弄起來也麻煩,所以推薦conda一鍵式安裝

一步法安裝代碼如下:

conda install -c bioconda star-fusion

可以看到下面那么多的perl??槎薊岜蛔遠滄埃?/p>

image-20191029094324826

一般來說,安裝成功后,可以使用perl代碼檢測一下:

perl -e 'use Set::IntervalTree'

# 值得注意的是

STAR-Fusion

#軟件命令是 STAR-Fusion

如果沒有明顯的報錯,說明你安裝成功啦。如果你不想使用conda一步到位的安裝,那么你會面臨perl??櫚木蘅櫻?/p>

A typical perl module installation may involve:

perl -MCPAN -e shell

install DB_File

install URI::Escape

install Set::IntervalTree

install Carp::Assert

install JSON::XS

install PerlIO::gzip

所以自己衡量一下時間和精力哦,不要逞強!

通常是軟件版本問題

比如star版本就很奇怪,在GitHub是最新的:

# Get latest STAR source from releases

wget https://github.com/alexdobin/STAR/archive/2.7.3a.tar.gz

tar -xzf 2.7.3a.tar.gz

cd STAR-2.7.3a

# Alternatively, get STAR source using git

git clone https://github.com/alexdobin/STAR.git

但是conda安裝的是2.7.0d , 就有可能報錯:

qiEXITING because of FATAL ERROR: Genome version: 2.7.1a is INCOMPATIBLE with running STAR version: 2.7.0f

SOLUTION: please re-generate genome from scratch with running version of STAR, or with version: 2.7.0d

's

Oct 29 20:10:37 ...... FATAL ERROR, exiting

其實conda可以安裝指定版本的軟件哦!

而且上面的那個報錯其實也不是字面上的意思。

需要下載指定參考基因組的數據庫文件供STAR-fusion使用

這個需要考驗大家網速了,其wiki說明:https://github.com/STAR-Fusion/STAR-Fusion/wiki 寫的很清楚。需要注意的是保證參考基因組的一致性哦!

如果你有自己的star軟件索引,就下載2.9G的,如果沒有,就下載29G的,如果你是人類,下載37和38均可,取決于你對參考基因組的熟悉程度!https://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/  如果你不熟悉,最好是選擇最新版,不要選擇我下面截圖的那些?。?!

反正我下載的是:GRCh38_gencode_v31_CTAT_lib_Oct012019.plug-n-play.tar.gz ,足足31個G!

image-20191029112135492

而且需要下載 ; be sure to use a more modern version of the companion CTAT_GENOME_LIB  如果你報錯的話,通常就是這些問題。

比如舊版的如下(文件夾里面是star的index文件):

image-20191029105012523

新版數據庫如下:

image-20191029142024193運行STAR-fusion

同樣也是批量運行:

lib='/home/yb77613/biosoft/starFusion/db/GRCh38_gencode_v31_CTAT_lib_Oct012019.plug-n-play/ctat_genome_lib_build_dir/'

# Please be sure to use the STAR aligner with min version: 2.7.0f

ls ../alignment/*.junction  |while read id

do

file=$(basename $id )

sample=${file%%.*}

~/biosoft/starFusion/STAR-Fusion/STAR-Fusion --genome_lib_dir $lib -J $id --output_dir $sample

done

或者單獨運行:

lib='/home/yb77613/biosoft/starFusion/db/GRCh38_gencode_v31_CTAT_lib_Oct012019.plug-n-play/ctat_genome_lib_build_dir/'

STAR-Fusion --genome_lib_dir $lib -J Lib_FUSCCTNBC001_Chimeric.out.junction  --output_dir s1

實際上,是非常多命令的組合,只不過你自己只需要運行一句話命令即可,比如:

CMD: mkdir -p /home/yb77613/data/public/tnbc/RNA-seq/star/s1

CMD: mkdir -p /home/yb77613/data/public/tnbc/RNA-seq/star/s1/_starF_checkpoints

CMD: mkdir -p /home/yb77613/data/public/tnbc/RNA-seq/star/s1/star-fusion.preliminary

-sample contains 41047586

* Running CMD: /home/yb77613/miniconda3/envs/rna/lib/STAR-Fusion/util/STAR-Fusion.map_chimeric_reads_to_genes  --genome_lib_dir /home/yb77613/biosoft/starFusion/db/GRCh38_gencode_v31_CTAT_lib_Oct012019.plug-n-play/ctat_genome_lib_build_dir/  -J /home/yb77613/data/public/tnbc/RNA-seq/star/Lib_FUSCCTNBC001_Chimeric.out.junction  > /home/yb77613/data/public/tnbc/RNA-seq/star/s1/star-fusion.preliminary/star-fusion.junction_breakpts_to_genes.txt

具體大家可以去查看log日志哈。

輸出文件的解讀

其實說明書也寫的很清楚了,主要就是看JunctionReads列,看看有多少條序列支持這樣的融合,然后也會列出融合基因的斷點出,左右兩個基因的銜接位置的堿基等等。

#FusionName    JunctionReadCount   SpanningFragCount   SpliceType  LeftGene    LeftBreakpoint  RightGene   RightBreakpoint LargeAnchorSupport  FFPM    LeftBreakDinuc  LeftBreakEntropy    RightBreakDinuc RightBreakEntropy   annots

IGH-@--MALAT1    4   16  INCL_NON_REF_SPLICE IGH-@^IGH-.g@   chr14:105708080:+   MALAT1^ENSG00000251562.8    chr11:65499045:+    YES_LDAS    0.4385  TG  1.7232  GT  1.8892  ['TCGA_StarF2019','INTERCHROMOSOMAL[chr14--chr11]']

IGH-@-ext--MALAT1    4   16  INCL_NON_REF_SPLICE IGH-@-ext^IGH-.g@-ext   chr14:105708080:+   MALAT1^ENSG00000251562.8    chr11:65499045:+    YES_LDAS    0.4385  TG  1.7232  GT  1.8892  ['INTERCHROMOSOMAL[chr14--chr11]']

IGH-@--KRT19    5   9   INCL_NON_REF_SPLICE IGH-@^IGH-.g@   chr14:105742042:+   KRT19^ENSG00000171345.13    chr17:41528296:-    YES_LDAS    0.3069  GC  1.6729  CG  1.9899  ['TCGA_StarF2019','INTERCHROMOSOMAL[chr14--chr17]']

IGH-@-ext--KRT19    5   9   INCL_NON_REF_SPLICE IGH-@-ext^IGH-.g@-ext   chr14:105742042:+   KRT19^ENSG00000171345.13    chr17:41528296:-    YES_LDAS    0.3069  GC  1.6729  CG  1.9899  ['INTERCHROMOSOMAL[chr14--chr17]']

AFF4--MAPK8    2   10  ONLY_REF_SPLICE AFF4^ENSG00000072364.13 chr5:132937067:-    MAPK8^ENSG00000107643.16    chr10:48401612:+    YES_LDAS    0.2632  GT  1.9219  AG  1.7232  ['INTERCHROMOSOMAL[chr5--chr10]']

AFF4--MAPK8    1   10  ONLY_REF_SPLICE AFF4^ENSG00000072364.13 chr5:132937067:-    MAPK8^ENSG00000107643.16    chr10:48325897:+    YES_LDAS    0.2412  GT  1.9219  AG  1.9086  ['INTERCHROMOSOMAL[chr5--chr10]']

RRM2B--AC016074.2    2   4   ONLY_REF_SPLICE RRM2B^ENSG00000048392.11    chr8:102224046:-    AC016074.2^ENSG00000286122.1    chr8:125650233:+    YES_LDAS    0.1316  GT  1.8323  AG  1.7465  ['INTRACHROMOSOMAL[chr8:23.41Mb]']

然后新版的STAR-fusion增加了一個過濾的功能,主要是過濾掉那些線粒體基因融合好HLA相關基因融合,說明書一直提到了:Red Herrings: Fusion pairs that may not be relevant to cancer, and potential false positives. 主要是因為這個軟件開發就是為癌癥研究服務的。

如果你確實不需要這個默認的過濾功能,就需要修改參數啦。

STAR-fusion還有兩個好哥們

If you plan on using the included FusionInspector for 'inspect' or 'validate' modes, please install the FusionInspector dependencies. 主要是可視化你的融合事件,通常是基于IGV?;褂懈鍪?FusionAnnotator 主要是基于癌癥數據庫,來為你的融合事件推薦注釋。

后面我們根據粉絲的學習情況來看看是否需要加餐繼續介紹!

號外:生信技能樹全國巡講11月在福州和上海,點擊了解報名哈:(福州、上海見?。┤步駁?9-20站(生信入門課加量不加價)

免責聲明:本文僅代表文章作者的個人觀點,與本站無關。其原創性、真實性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容文字的真實性、完整性和原創性本站不作任何保證或承諾,請讀者僅作參考,并自行核實相關內容。

//www.bygkuu.com.cn/style/images/nopic.gif
我要收藏
贊一個
踩一下
分享到
相關推薦
精選文章
?
分享
評論
祖拉的世界