利用宏基因組數(shù)據(jù)組裝某病原體基因組一(組裝篇)
一.前言:
有時候拿到某病原體感染病人的樣本,未經(jīng)培養(yǎng)而想獲得病原體的基因組序列,直接利用二代測序獲得進行宏基因組測序,通常思路就是通過bwa或者bowtie2與參考基因組比對獲得比對上的Reads,然后對比對上的Reads進行組裝,組裝完后評估組裝質(zhì)量。
? ? ? ? ?
以感染某病原體的樣本宏基因組數(shù)據(jù)為例,該病原體基因組大小約為610kb,分別嘗試了不同的組裝工具并對結(jié)果進行比較。
? ? ? ? ?
二.提取基因組序列:
提取基因組序列的具體實操網(wǎng)上太多例子不再重復(fù),簡單說一下過程,Bowtie2對參考基因組建索引,然后將宏基因組數(shù)據(jù)比對到ref上并提取比對上的序列生成bam文件,samtools并將bam文件轉(zhuǎn)fastq文件,獲得了來自目標物種的reads,進而進行組裝。
? ? ? ? ?
三.組裝:
我采用了三種二代的組裝工具,比較不同工具結(jié)果作為最優(yōu)選。
? ? ? ? ?
工具一:minia
Minia軟件基于de Bruijn圖原理的短序列組裝工具,速度非???,不消耗計算機資源,詳細過程見之前的帖子。
我嘗試了不同kmer進行組裝,結(jié)果如下:? ? ? ? ?

?在kmer大小介于41~81時,基因組大小接近,N50接近,然后對這幾個大小的kmer組裝出來的基因組使用Quast進行評估。
?
工具二.SPAdes
?
SPAdes適用于細菌/真菌等小型基因組的組裝,不推薦用于動植物基因組的組裝,是2012年發(fā)表在Journal of Computational Biology上的一篇文章提出的二代測序組裝軟件,是目前引用量已經(jīng)達到6200+,在宏基因組組裝軟件中引用量最高【其他組學(xué)不清楚了】。SPAdes不僅推出rnaSPAdes【轉(zhuǎn)錄組】、metaSPAdes【宏基因組】、plasmindSPAdes【質(zhì)?!?,還推出了可以用于二代、三代測序數(shù)據(jù)混合組裝的hybrid SPAdes功能。SPAdes雖然在速度、效率上比不過megahit,但SPAdes內(nèi)部含校錯功能,組裝更加準確,也因此適合二代、三代混合組裝。
?
官網(wǎng):
http://cab.spbu.ru/software/spades/
?

wget https://cab.spbu.ru/files/release3.15.4/SPAdes-3.15.4-Linux.tar.gz
?tar -zxf SPAdes-3.15.4-Linux.tar.gz
解壓之后就可以使用了。
/public/home/rp1016swf/rp1016swf/software/SPAdes/bin/spades.py
其中spades.py 就是主要的提交腳本,該軟件支持多種測序類型。
?

軟件運行:
?Read-pair 數(shù)據(jù)輸入到程序中有 3 種方式:
1. left 和 right 的 reads 分別在兩個 fastq 文件中。
2. left 和 right 的 reads 交叉融合在一個 fastq 文件中。
3. 將所有的輸入數(shù)據(jù)信息整合在一個 YAML 格式的文本文件中。
?
通常我們拿到的數(shù)據(jù)都屬于第一種類型,又可分為數(shù)據(jù)來自不同Library數(shù)量的情況,而我是單個 illumina paired-end 文庫,我就先只嘗試這種情況。
?
$ spades.py -o output_dir -1 reads1.fastq -2 reads2.fastq
參數(shù)均默認,如果數(shù)據(jù)量比較大,就要調(diào)整參數(shù)-t和-m,提高運算速度。
# m, memeory 250G by default
# t, thread 16 by default
#-k, 由逗號分隔的 k-mer sizes。這些數(shù)值必須為奇數(shù),要小于 128,且按升序排列。如果使用了 --sc 參數(shù),則默認值為 21,33,55 。若沒有 --sc 參數(shù),則程序會根據(jù) reads 長度自動選擇 k-mer 參數(shù)。?
?
當有多個文庫的時候:
雙端數(shù)據(jù) 用--pe1-1和--pe1-2分別指定雙端測序的R1端和R2端序列文件,多個文庫用數(shù)字后綴區(qū)分,比如--pe2-1, --pe2-2。?
?
注意:spades只支持fastq文件,fasta文件不能用
?
結(jié)果:

輸出結(jié)果目錄會生成許多文件,其中scaffolds.fasta對應(yīng)scaffold的結(jié)果,contig.fasta對應(yīng)contig組裝的結(jié)果。
?

?參考:
https://www.jianshu.com/p/f2bbca9a3fe3
https://www.plob.org/article/7861.html
使用 SPAdes 進行基因組組裝 | 陳連福的生信博客 (chenlianfu.com)
?
工具三.Megahit
?
簡介:
實驗室的宏基因組組裝流程中配置的軟件,一款超速的宏基因組從頭組裝工具,由港大—華大基因聯(lián)合實驗室(HKU-BGI)開發(fā),其在計算時間和內(nèi)存消耗方面有著巨大優(yōu)勢,適用于土壤等復(fù)雜環(huán)境樣本的組裝和大量樣本的混合組裝。Megahit采取的算法是基于kmer迭代的DBG法 (De-Bruijn Graph),具體可見參考[1]中的描述,感覺這個組裝工具的kmer迭代的DBG法還是挺新穎的。
?下載及安裝
megahit的github鏈接為: https://github.com/voutcn/megahit
下載二進制壓縮文件解壓后就能用。
軟件運行,基本使用
megahit [options] {-1-2| --12| -r} [-o]?

參數(shù)解釋,必須輸入?yún)?shù):
-1comma-separated list of fasta/q paired-end #read1的序列文件
-2comma-separated list of fasta/q paired-end #read2的序列文件
--12comma-separated list of interleaved fasta/q paired-end files # 交錯的雙端PE序列
-r/--readcomma-separated list of fasta/q single-end files# 單端SE的序列文件
?結(jié)果解讀:final.contigs.fa即組裝結(jié)果。

參考:
[1]https://zhuanlan.zhihu.com/p/470457258
本文使用 文章同步助手 同步