五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

QC參數(shù)的解讀詮釋

2023-03-13 16:51 作者:上海迪贏生物  | 我要投稿

NGS(Next-generation sequencing)也叫高通量測(cè)序,相對(duì)于一代測(cè)序而言,可以一次并行地對(duì)幾十萬(wàn)到幾百萬(wàn)條的DNA分子進(jìn)行序列讀取,提供豐富的遺傳信息。針對(duì)20個(gè)以上的靶點(diǎn),NGS更加經(jīng)濟(jì)快速。

通過NGS數(shù)據(jù)可以獲得基因組的序列信息并分析突變。但是相比Sanger測(cè)序直觀的峰圖和較高的測(cè)序準(zhǔn)確度,NGS數(shù)據(jù)量龐大,且測(cè)序準(zhǔn)確度較Sanger測(cè)序的更低,因此建立標(biāo)準(zhǔn)的質(zhì)控流程,確保用于后續(xù)分析序列的可靠性就非常重要。本文將對(duì)目前通用的QC指標(biāo)進(jìn)行解讀。

高通量測(cè)序得到的原始圖像數(shù)據(jù)文件經(jīng)堿基識(shí)別(Base Calling)分析轉(zhuǎn)化為原始測(cè)序序列(Sequenced Reads),我們稱之為Raw Data或Raw Reads,以FASTQ(簡(jiǎn)稱為fq)文件格式存儲(chǔ)。

圖1.Base相關(guān)參數(shù)概念
圖2.Read相關(guān)參數(shù)概念

為了保證分析質(zhì)量,后續(xù)數(shù)據(jù)分析都是基于精細(xì)過濾的Clean?Reads進(jìn)行的,主要分析參數(shù)有Q值-堿基質(zhì)量值、QC率(Clean?data得率)、Mapping?Rate-比對(duì)率、Duplication?Rate-冗余率、On?Target?Rate-中靶率、Uniformity-均一性、Coverage-覆蓋度、Depth-測(cè)序深度,相應(yīng)的概念及意義分析如下:

Q值-堿基質(zhì)量值

在高通量測(cè)序中,每個(gè)被測(cè)到的堿基都會(huì)有一個(gè)質(zhì)量值打分,稱為Q值(Qphred),體現(xiàn)測(cè)序過程中堿基識(shí)別的可信度和錯(cuò)誤率(e)。計(jì)算方法如下:Qphred = -10log10e,通過此公式可以看出,Q值越大,表示識(shí)別錯(cuò)誤的可能性越小,可信度就越高。如表1所示,常用于統(tǒng)計(jì)的Q值對(duì)應(yīng)著不同的錯(cuò)誤率。在高通量測(cè)序中,普遍使用Q20作為堿基過濾的閾值,而Q30也被經(jīng)常用來評(píng)價(jià)測(cè)序的質(zhì)量。

表1.Q值與錯(cuò)誤率的對(duì)應(yīng)關(guān)系


QC率(Clean?data得率)

下機(jī)后的Raw Data除了要過濾掉低質(zhì)量的堿基,還要考慮部分情況下可能測(cè)到的adapter序列。因?yàn)閍dapter的序列是人工設(shè)計(jì)的,因此可以通過對(duì)測(cè)序序列的比較來判斷read上是否存在adapter序列,并切除。經(jīng)過低質(zhì)量堿基和接頭序列過濾后,就得到我們需要的Clean Data。Clean Data和Raw Data的比值就是QC率,也可以稱之為Clean Data得率。在計(jì)算上機(jī)測(cè)序數(shù)據(jù)量時(shí),該指標(biāo)可以作為參數(shù)進(jìn)行數(shù)據(jù)量的預(yù)估,也可以反過來計(jì)算測(cè)序深度。


Mapping?rate-比對(duì)率

將測(cè)序得到的Clean數(shù)據(jù)對(duì)比到參考基因組,統(tǒng)計(jì)能夠比對(duì)到參考基因組的Reads和全部Clean Reads的比例,就是Mapping Rate。該比值越高越好,過低意味著存在污染。


Duplication?Rate-冗余率

在將Clean Reads比對(duì)到參考基因組后,會(huì)發(fā)現(xiàn)部分Reads有著相同的起始和結(jié)束位置,并且序列完全相同,則這些序列被視作Duplication,只保留一條用于后續(xù)分析(也有觀點(diǎn)認(rèn)為只需要起始、終止位置一致就可以判定為Duplication)。比如下圖中的R1和R2。R3雖然起始位置和R1、R2一致,但終止位置并不一致,因此不能算作為Duplication。這些重復(fù)序列在總測(cè)序序列中的占比稱之Duplication Rate-冗余率。

圖3.Duplication示意圖

Duplication的存在會(huì)造成等位基因頻率和基因型識(shí)別不準(zhǔn)確,并且相同的測(cè)序深度下,Duplication Rate越高,有效深度就越低,可能會(huì)影響測(cè)序結(jié)果。


On?Target?Rate-中靶率

表示含有目標(biāo)區(qū)域的文庫(kù)占全部文庫(kù)的比例。拿外顯子的Panel來舉例,基因組中有許多與外顯子有同源性的序列,但這些并不屬于目標(biāo)區(qū)域的部分也會(huì)在雜交過程中被捕獲下來。這種探針捕獲到非目標(biāo)區(qū)域片段的情況稱為脫靶現(xiàn)象(Off Target)。脫靶的數(shù)據(jù)是無(wú)效的,不能用于后續(xù)分析,浪費(fèi)數(shù)據(jù)量。通過計(jì)算中靶序列在全部文庫(kù)中的占比,就可以評(píng)估這一次捕獲實(shí)驗(yàn)的特異性。捕獲效率越高,說明覆蓋同樣深度所需的數(shù)據(jù)量越小,可以降低測(cè)序成本。

捕獲效率可以細(xì)分為Reads和Bases兩類。Bases的捕獲效率通常被用于計(jì)算目標(biāo)區(qū)域的平均深度。而對(duì)于某些特殊的捕獲場(chǎng)景,Reads的捕獲效率更適合用來表征真實(shí)的捕獲效率,比如檢測(cè)某種病原體的有無(wú)。


Uniformity-均一性

均一性指的是測(cè)序得到的數(shù)據(jù)在基因組或目標(biāo)區(qū)域分布的均一程度。在實(shí)際測(cè)序中,目標(biāo)區(qū)域內(nèi)不同的位點(diǎn)被覆蓋的情況是不同的,理論上均一性越高越好,表明每一個(gè)位點(diǎn)都能均勻的測(cè)到基本一致的深度。

對(duì)于均一性有兩種解釋:1.總體的偏離,可以用方差來計(jì)算;2.特定深度區(qū)域的占比。目前行業(yè)內(nèi)的共同標(biāo)準(zhǔn)是深度達(dá)到0.2倍平均深度的區(qū)域占Coverage區(qū)域的比例。另外還有Fold-80評(píng)分也可以評(píng)估均一性。


Coverage-覆蓋度

覆蓋度往往會(huì)和測(cè)序深度一起提及,比如100X測(cè)序深度下的覆蓋度為99%,則表示有99%的區(qū)域,區(qū)域中的每個(gè)堿基都至少被測(cè)到了100次,或者說99%的區(qū)域至少有100條的Reads覆蓋。如果不涉及測(cè)序深度,那么覆蓋度往往指的是1X測(cè)序深度下的覆蓋度,比如覆蓋度99%則代表有99%的區(qū)域至少測(cè)到過1條reads,還有1%的區(qū)域沒有測(cè)到數(shù)據(jù)。相同條件下,覆蓋度越高越好,代表著越多的區(qū)域被測(cè)到,遺漏的信息越少。


Depth-測(cè)序深度

由于高通量測(cè)序的準(zhǔn)確度較Sanger測(cè)序低,且為并行測(cè)序,因此可以通過對(duì)同一個(gè)堿基進(jìn)行多次測(cè)序來獲得準(zhǔn)確的堿基信息。對(duì)某一個(gè)特定的堿基來說,每測(cè)到一次,我們就記這個(gè)堿基被測(cè)了“1X”。最終所有的數(shù)據(jù)統(tǒng)計(jì),這個(gè)堿基被測(cè)到了多少次,就說這個(gè)堿基測(cè)了“多少X的深度“。反過來說,如果某個(gè)堿基的測(cè)序深度是20X,那表明該堿基被測(cè)到了20次,或者說有20條不同的reads覆蓋這個(gè)堿基。對(duì)于一定的區(qū)域而言,則使用”平均測(cè)序深度“這個(gè)概念,來描述整個(gè)區(qū)域平均每個(gè)堿基被測(cè)到的次數(shù)。在實(shí)際應(yīng)用中,不同類型的檢測(cè),所需要的深度也不同。用于Germline變異檢測(cè)的時(shí)候,WGS一般測(cè)30X的平均深度,WES一般測(cè)100-200X的平均深度;而用于Somatic變異檢測(cè)的時(shí)候,Panel會(huì)被推薦測(cè)至少500X的平均深度。

下圖即為以上指標(biāo)簡(jiǎn)易示意圖:

圖4.相關(guān)指標(biāo)示意圖

在以上介紹到的指標(biāo)中,覆蓋度是最重要的一點(diǎn),如果覆蓋度達(dá)不到要求,那就談不上檢測(cè)變異。均一性是保障檢測(cè)的準(zhǔn)確度,二代測(cè)序要求位點(diǎn)有足夠高的絕對(duì)深度,較高的均一性可以保證在一定的測(cè)序數(shù)據(jù)量下,更多的區(qū)域有足夠的深度;捕獲效率是關(guān)注有效數(shù)據(jù)比例,若該指標(biāo)低,那就需要增加足夠多的測(cè)序量才能得到足夠高的有效深度。均一性、捕獲效率和Duplication共同決定了檢測(cè)的經(jīng)濟(jì)性,三個(gè)指標(biāo)都達(dá)到較為理想的狀態(tài)時(shí),就可以用最小的數(shù)據(jù)量來準(zhǔn)確檢測(cè)目標(biāo)區(qū)域的變異信息。

QC參數(shù)的解讀詮釋的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
阳新县| 横峰县| 林西县| 岱山县| 彭山县| 兴隆县| 莱阳市| 祁连县| 竹山县| 黑山县| 成都市| 定边县| 姜堰市| 崇文区| 上饶县| 海丰县| 呼图壁县| 惠水县| 浦江县| 永康市| 佛学| 兰溪市| 昌黎县| 论坛| 南部县| 武平县| 雷州市| 永城市| 新竹县| 玉树县| 江门市| 隆回县| 育儿| 鄂伦春自治旗| 仁布县| 舞钢市| 客服| 沙雅县| 中方县| 象州县| 什邡市|