之?dāng)?shù)據(jù)質(zhì)控最終章,"> 之?dāng)?shù)據(jù)質(zhì)控最終章。">

五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

GWAS分析<四>之?dāng)?shù)據(jù)質(zhì)控最終章

2022-11-25 14:05 作者:生信小院  | 我要投稿


上一篇推文《GWAS分析<三>之?dāng)?shù)據(jù)質(zhì)控》已經(jīng)介紹了GWAS分析中數(shù)據(jù)質(zhì)控的部分內(nèi)容,但是,受限于篇幅原因,僅介紹了一半的內(nèi)容。本篇推文算上一篇推文的延續(xù),繼續(xù)將數(shù)據(jù)質(zhì)控分析中剩下的部分介紹完畢。

一?命令與可視化結(jié)果

1.1?常染色上SNPs的獲得

因?yàn)槿梭w染色體中第1到第22號(hào)染色體均為常染色體,所以本教程通過(guò)unix中的awk命令提取1-22染色體的數(shù)據(jù),并存儲(chǔ)在snp_1_22.txt文件中。隨后,通過(guò)—extract和--freq參數(shù)分別進(jìn)行常染色體中SNPs信息的提取和MAF分布情況統(tǒng)計(jì)。再調(diào)用可視化腳本GWAS_analysis.R展示MAF分布情況(見(jiàn)圖1)。最后,通過(guò)--maf 0.05過(guò)濾掉MAF值較高的SNPs位點(diǎn)。

圖1 常染色SNPs的MAF分布情況統(tǒng)計(jì)

1.2 SNPs的HWP分布情況調(diào)查

本步驟主要是檢查所有SNP的HWP分布的p值,并選擇低于0.00001的SNP,并可視化存在強(qiáng)烈偏移的SNP(見(jiàn)圖2)。本教程使用兩個(gè)步驟,首先對(duì)控制使用嚴(yán)格的HWE閾值,然后對(duì)病例數(shù)據(jù)使用不太嚴(yán)格的閾值。。

注意:第二次篩選僅只關(guān)注病例樣本。

圖2 未過(guò)濾前所有樣本中SNPs的HWE分布

1.3?篩選符合雜合率要求的個(gè)體

本步驟的目標(biāo)是去除雜合率偏離平均值超過(guò)3 SD的個(gè)體。使用Rscript生成雜合率分布圖(見(jiàn)圖3),并進(jìn)行統(tǒng)計(jì)分析,輸出fail-het-qc.txt文件。當(dāng)使用我們的HapMap示例數(shù)據(jù)時(shí),該列表包含2個(gè)體(即兩個(gè)個(gè)體的雜合率雜合率偏離平均值超過(guò)3 SD)。調(diào)整這個(gè)文件,使其與PLINK兼容,從文件中去掉所有引號(hào),只選擇前兩列,從而完成雜合率異常值個(gè)體的篩除。

圖3 所有個(gè)體雜合率分布的統(tǒng)計(jì)

1.4?檢查數(shù)據(jù)集是否存在隱形關(guān)聯(lián)

檢查所分析的數(shù)據(jù)集的隱性親緣關(guān)系是至關(guān)重要的,所有高于pihat閾值0.2的個(gè)體可能會(huì)干擾GWAS的分析結(jié)果,因此需要進(jìn)行篩除。在本教程中,我們的目標(biāo)是去除數(shù)據(jù)集中的所有?"相關(guān)度"。HapMap數(shù)據(jù)集包含父母與子女的關(guān)系,而教程演示的目的,我們將親緣關(guān)系視為隨機(jī)人口樣本中的隱性親緣關(guān)系。通過(guò)使用z值具體地可視化這些親子關(guān)系,能夠生成一個(gè)圖來(lái)評(píng)估關(guān)系的類(lèi)型。通常情況下,基于家族的數(shù)據(jù)應(yīng)使用特定的基于家族的方法進(jìn)行分析。

首先,獲取pihat閾值低于0.2的個(gè)體,并去除創(chuàng)始者,可視化不同個(gè)體間的親緣關(guān)系。隨后,調(diào)用’--genome --min 0.2’以及0.2_low_call_rate_pihat.txt文件刪除pihat閾值低于0.2的個(gè)體和低召回率的個(gè)體。

圖4 ?放大尺度下(z0和z1均縮小到0.02)的親緣關(guān)系
圖5 全尺度下的親緣關(guān)系
圖6 所有樣品的Pihat分布

祝賀各位?。?!到這里,你已經(jīng)成功地完成了GWAS分析的第一步。后面,你就可以使用質(zhì)控之后的數(shù)據(jù)進(jìn)行適當(dāng)?shù)腉WAS分析啦。

二?慣例小結(jié)

通過(guò)上述內(nèi)容,我們完成了GWAS分析中質(zhì)控環(huán)節(jié)。這些結(jié)果的完成為我們后續(xù)的分析提供了堅(jiān)實(shí)可靠的依據(jù),也避免了因數(shù)據(jù)清洗不完全帶來(lái)的結(jié)果分析偏差。后續(xù)推文中,我們將以前人基因組為例,展示如何進(jìn)行完整的GWAS分析。可視化腳本也會(huì)在后面進(jìn)行介紹,歡迎大家持續(xù)關(guān)注

本公眾號(hào)開(kāi)發(fā)的相關(guān)軟件,Multi-omics Hammer軟件和Multi-omics Visual軟件歡迎大家使用。文末是本公眾號(hào)在其他平臺(tái)的賬戶(hù),也歡迎大家關(guān)注并多提意見(jiàn)。

簡(jiǎn)書(shū):WJ的生信小院

公眾號(hào):生信小院

博客園:生信小院

最后,也歡迎各位大佬能夠在本平臺(tái)上:1傳播和講解自己發(fā)表的論文;2:發(fā)表對(duì)某一科研領(lǐng)域的看法;3:想要達(dá)成的合作或者相應(yīng)的招聘信息;4:展示自己以尋找博后工作或者博士就讀的機(jī)會(huì);5:博導(dǎo)提供博后工作或者博士攻讀機(jī)會(huì),都可以后臺(tái)給筆者留言。希望本平臺(tái)在進(jìn)行生信知識(shí)分享的同時(shí),能夠成為生信分析者的交流平臺(tái),能夠?qū)崿F(xiàn)相應(yīng)的利益互補(bǔ)和雙贏(yíng)(不一定能實(shí)現(xiàn),但是夢(mèng)想總得是有的吧)。

另外,怎么說(shuō)呢,投幣也可,不強(qiáng)求,但奢求。


GWAS分析<四>之?dāng)?shù)據(jù)質(zhì)控最終章的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
鸡东县| 凤翔县| 闻喜县| 郎溪县| 松潘县| 北流市| 九龙城区| 宜川县| 易门县| 巴塘县| 定襄县| 杂多县| 屏山县| 鹤岗市| 丰城市| 醴陵市| 兴安县| 黄浦区| 宾阳县| 安图县| 虎林市| 莱芜市| 凉山| 龙川县| 行唐县| 贺州市| 大余县| 营口市| 文山县| 舟山市| 顺平县| 冕宁县| 淳化县| 牡丹江市| 高平市| 济源市| 乌苏市| 灯塔市| 汾阳市| 马山县| 宁蒗|