五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

利用宏基因組數(shù)據(jù)組裝某病原體基因組一(組裝篇)

2023-03-07 21:42 作者:笨笨熊愛吃肉  | 我要投稿


一.前言:

有時候拿到某病原體感染病人的樣本,未經(jīng)培養(yǎng)而想獲得病原體的基因組序列,直接利用二代測序獲得進行宏基因組測序,通常思路就是通過bwa或者bowtie2與參考基因組比對獲得比對上的Reads,然后對比對上的Reads進行組裝,組裝完后評估組裝質(zhì)量。

? ? ? ? ?

以感染某病原體的樣本宏基因組數(shù)據(jù)為例,該病原體基因組大小約為610kb,分別嘗試了不同的組裝工具并對結(jié)果進行比較。

? ? ? ? ?

二.提取基因組序列:

提取基因組序列的具體實操網(wǎng)上太多例子不再重復(fù),簡單說一下過程,Bowtie2對參考基因組建索引,然后將宏基因組數(shù)據(jù)比對到ref上并提取比對上的序列生成bam文件,samtools并將bam文件轉(zhuǎn)fastq文件,獲得了來自目標物種的reads,進而進行組裝。

? ? ? ? ?

三.組裝:

我采用了三種二代的組裝工具,比較不同工具結(jié)果作為最優(yōu)選。

? ? ? ? ?

工具一:minia

Minia軟件基于de Bruijn圖原理的短序列組裝工具,速度非???,不消耗計算機資源,詳細過程見之前的帖子。

我嘗試了不同kmer進行組裝,結(jié)果如下:? ? ? ? ?

圖片

?在kmer大小介于41~81時,基因組大小接近,N50接近,然后對這幾個大小的kmer組裝出來的基因組使用Quast進行評估。

?

工具二.SPAdes

?

SPAdes適用于細菌/真菌等小型基因組的組裝,不推薦用于動植物基因組的組裝,是2012年發(fā)表在Journal of Computational Biology上的一篇文章提出的二代測序組裝軟件,是目前引用量已經(jīng)達到6200+,在宏基因組組裝軟件中引用量最高【其他組學(xué)不清楚了】。SPAdes不僅推出rnaSPAdes【轉(zhuǎn)錄組】、metaSPAdes【宏基因組】、plasmindSPAdes【質(zhì)?!?,還推出了可以用于二代、三代測序數(shù)據(jù)混合組裝的hybrid SPAdes功能。SPAdes雖然在速度、效率上比不過megahit,但SPAdes內(nèi)部含校錯功能,組裝更加準確,也因此適合二代、三代混合組裝。

?

官網(wǎng):

http://cab.spbu.ru/software/spades/

?

圖片

wget https://cab.spbu.ru/files/release3.15.4/SPAdes-3.15.4-Linux.tar.gz

?tar -zxf SPAdes-3.15.4-Linux.tar.gz

解壓之后就可以使用了。

/public/home/rp1016swf/rp1016swf/software/SPAdes/bin/spades.py

其中spades.py 就是主要的提交腳本,該軟件支持多種測序類型。

?

圖片

軟件運行:

?Read-pair 數(shù)據(jù)輸入到程序中有 3 種方式:

1. left 和 right 的 reads 分別在兩個 fastq 文件中。

2. left 和 right 的 reads 交叉融合在一個 fastq 文件中。

3. 將所有的輸入數(shù)據(jù)信息整合在一個 YAML 格式的文本文件中。

?

通常我們拿到的數(shù)據(jù)都屬于第一種類型,又可分為數(shù)據(jù)來自不同Library數(shù)量的情況,而我是單個 illumina paired-end 文庫,我就先只嘗試這種情況。

?

$ spades.py -o output_dir -1 reads1.fastq -2 reads2.fastq

參數(shù)均默認,如果數(shù)據(jù)量比較大,就要調(diào)整參數(shù)-t和-m,提高運算速度。

# m, memeory 250G by default

# t, thread 16 by default

#-k, 由逗號分隔的 k-mer sizes。這些數(shù)值必須為奇數(shù),要小于 128,且按升序排列。如果使用了 --sc 參數(shù),則默認值為 21,33,55 。若沒有 --sc 參數(shù),則程序會根據(jù) reads 長度自動選擇 k-mer 參數(shù)。?

?

當有多個文庫的時候:

雙端數(shù)據(jù) 用--pe1-1和--pe1-2分別指定雙端測序的R1端和R2端序列文件,多個文庫用數(shù)字后綴區(qū)分,比如--pe2-1, --pe2-2。?

?

注意:spades只支持fastq文件,fasta文件不能用

?

結(jié)果:

圖片

輸出結(jié)果目錄會生成許多文件,其中scaffolds.fasta對應(yīng)scaffold的結(jié)果,contig.fasta對應(yīng)contig組裝的結(jié)果。

?

圖片

?參考:

https://www.jianshu.com/p/f2bbca9a3fe3

https://www.plob.org/article/7861.html

使用 SPAdes 進行基因組組裝 | 陳連福的生信博客 (chenlianfu.com)

?

工具三.Megahit

?

簡介:

實驗室的宏基因組組裝流程中配置的軟件,一款超速的宏基因組從頭組裝工具,由港大—華大基因聯(lián)合實驗室(HKU-BGI)開發(fā),其在計算時間和內(nèi)存消耗方面有著巨大優(yōu)勢,適用于土壤等復(fù)雜環(huán)境樣本的組裝和大量樣本的混合組裝。Megahit采取的算法是基于kmer迭代的DBG法 (De-Bruijn Graph),具體可見參考[1]中的描述,感覺這個組裝工具的kmer迭代的DBG法還是挺新穎的。

?下載及安裝

megahit的github鏈接為: https://github.com/voutcn/megahit

下載二進制壓縮文件解壓后就能用。

軟件運行,基本使用

megahit [options] {-1-2| --12| -r} [-o]?

圖片

參數(shù)解釋,必須輸入?yún)?shù):

-1comma-separated list of fasta/q paired-end #read1的序列文件

-2comma-separated list of fasta/q paired-end #read2的序列文件

--12comma-separated list of interleaved fasta/q paired-end files # 交錯的雙端PE序列

-r/--readcomma-separated list of fasta/q single-end files# 單端SE的序列文件


?結(jié)果解讀:final.contigs.fa即組裝結(jié)果。


圖片

參考:

[1]https://zhuanlan.zhihu.com/p/470457258


本文使用 文章同步助手 同步


利用宏基因組數(shù)據(jù)組裝某病原體基因組一(組裝篇)的評論 (共 條)

分享到微博請遵守國家法律
报价| 库伦旗| 莒南县| 门头沟区| 磴口县| 宁晋县| 报价| 旌德县| 包头市| 武安市| 刚察县| 石渠县| 萍乡市| 招远市| 新乡市| 二连浩特市| 鄄城县| 池州市| 安庆市| 上杭县| 金山区| 新昌县| 普陀区| 鹿泉市| 河源市| 锡林郭勒盟| 陆川县| 友谊县| 馆陶县| 赤城县| 辉县市| 崇礼县| 山西省| 安丘市| 土默特左旗| 聂荣县| 海城市| 阳信县| 察哈| 舒兰市| 福州市|