五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

【比較基因組學(xué)】01、基因家族聚類分析

2023-07-26 15:30 作者:普信沖浪男  | 我要投稿

? ? ? ? 為進(jìn)行多物種的系統(tǒng)發(fā)育分析,進(jìn)行基因家族的聚類工作是必不可少的。

物種數(shù)據(jù)準(zhǔn)備? ? ? ??

? ? ? ? 首先,需要根據(jù)擬研究的對(duì)象去準(zhǔn)備物種數(shù)據(jù)。如果做植物的話建議盡量選擇在?phytozome 上下載,注冊(cè)賬號(hào)簡單快捷,最關(guān)鍵的是該數(shù)據(jù)庫格式非常規(guī)范,對(duì)后續(xù)分析有很大幫助。

? ? ? ? 根據(jù)選擇物種信息下載數(shù)據(jù),并基于數(shù)據(jù)信息提取最長 cds 以用于后續(xù)基因家族聚類分析的輸入。

? ? ? ? 這里需要下載物種的 .fa .cds .pep .gff 文件,數(shù)據(jù)包括:

? ? ? ? # 基因注釋文件 xxx.gff3

? ? ? ? # cds序列文件 xxx.cds.all.fa

? ? ? ? # 蛋白序列文件 xxx.pep.all.fa

? ? ? ? # 基因組序列文件 xxx.fa

? ? ? ? 基于 gff3 注釋文件提取最長 cds 序列 ID ,并過濾 gff3 文件(以 Acorus_americanus 為例,簡寫為屬名第一個(gè)字母加種名前三位字母):

perl ~/software/gff_ensembl_longest.pl? ?Acorus_americanus_v1.1.gene_exons.gff3 \

Aame_longest.gene2mrna_id? Aame_longest.gff3

? ? ? ? 得到最長基因及 mRNA ID 后,通過 cds 文件和 pep 文件提取該物種最長 cds 文件和 pep 文件:

? ? ? ? 觀察到在原 cds 文件和 pep 文件中每條序列的命名方式與提取的 mRNA ID 不同,需要分別做出修改。當(dāng)然,如果實(shí)際情況命名格式一樣的話那最好。

? ? ? ? 首先獲取用于蛋白序列提取的 ID 文件:

less -S Aame_longest.gene2mrna_id | awk '{print $2}' | sed 's/.v1.1$/.p/g' > Aame_longest.mrna_id\(4pep\)

? ? ? ? 再獲取用于 cds 序列提取的 ID 文件:

less -S Aame_longest.mrna_id\(4pep\) | sed 's/.p$//' > Aame_longest.mrna_id\(4cds\)

? ? ? ? 最后基于以上兩個(gè) ID 文件用 seqtk 軟件去提取最長 cds 序列和 pep 序列:

seqtk subseq Acorus_americanus_v1.1.cds.fa? Aame_longest.mrna_id\(4cds\) > Aame_longest.cds.fasta

seqtk subseq Acorus_americanus_v1.1.protein.fa? Aame_longest.mrna_id\(4pep\) > Aame_longest.pep.fasta

? ? ? ? 其他物種信息處理方式類似。

? ? ? ? 提取完成所有輸入物種的最長 cds 序列和 pep 序列后,將蛋白序列作為輸入,進(jìn)行基因家族聚類。

? ? ? ? 基因家族聚類常用軟件為 OrthoFinder 和 orthoMCL,orthoMCL 使用較為繁瑣;而 orthofinder 集成度更好,可自動(dòng)完成建樹等工作,這里使用 orthofinder 進(jìn)行基因家族聚類。

? ? ? ? 將所有輸入物種的蛋白序列放入 /GeneFamilyCluster/ 文件夾下。蛋白序列文件名稱統(tǒng)一為 “物種簡寫.fasta”。OrthoFinder 會(huì)根據(jù) fasta 文件前綴匯總統(tǒng)計(jì)表格。

? ? ? ? 最后運(yùn)行 orthofinder :

orthofinder \

-f /home/zijie/workspace/01.GeneFamilyCluster/? \? #輸入數(shù)據(jù)目錄

-S diamond \? #比對(duì)方法,blast, mmseqs, blast_gz, diamond,使用 diamond 提升序列比對(duì)速度

-M msa \? #基因樹推斷方法,dendroblast,msa 軟件默認(rèn)使用 dendroblast 進(jìn)行比對(duì),使用 msa 即多序列比對(duì)的方法進(jìn)行物種樹的構(gòu)建提高準(zhǔn)確性

-T fasttree \? #建樹軟件選擇,iqtree, raxml-ng, fasttree, raxml

-t 30\? #線程數(shù),默認(rèn)為56

? ? ? ? 運(yùn)行完成后,主要聚類結(jié)果位于 Orthogroups 目錄下。 MultipleSequenceAlignments 為多序列比對(duì)結(jié)果,其中包含單拷貝基因supergene矩陣。



【比較基因組學(xué)】01、基因家族聚類分析的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
乌审旗| 顺平县| 广德县| 克什克腾旗| 商河县| 阳原县| 河津市| 岢岚县| 交口县| 双桥区| 绥芬河市| 怀来县| 老河口市| 金堂县| 内江市| 祥云县| 达日县| 景谷| 黄大仙区| 屏东县| 时尚| 石河子市| 循化| 始兴县| 潼南县| 揭西县| 钦州市| 湘乡市| 宿州市| 商南县| 庄浪县| 绥阳县| 津市市| 黄浦区| 乐山市| 大冶市| 全椒县| 崇州市| 四会市| 闵行区| 通山县|