散文網(wǎng) » 科技 »學(xué)習(xí) » QC參數(shù)的解讀詮釋

QC參數(shù)的解讀詮釋

2023-03-13 16:51 作者:上海迪贏生物 0人讀過 | 我要投稿

NGS（Next-generation sequencing）也叫高通量測(cè)序，相對(duì)于一代測(cè)序而言，可以一次并行地對(duì)幾十萬(wàn)到幾百萬(wàn)條的DNA分子進(jìn)行序列讀取，提供豐富的遺傳信息。針對(duì)20個(gè)以上的靶點(diǎn)，NGS更加經(jīng)濟(jì)快速。

通過NGS數(shù)據(jù)可以獲得基因組的序列信息并分析突變。但是相比Sanger測(cè)序直觀的峰圖和較高的測(cè)序準(zhǔn)確度，NGS數(shù)據(jù)量龐大，且測(cè)序準(zhǔn)確度較Sanger測(cè)序的更低，因此建立標(biāo)準(zhǔn)的質(zhì)控流程，確保用于后續(xù)分析序列的可靠性就非常重要。本文將對(duì)目前通用的QC指標(biāo)進(jìn)行解讀。

高通量測(cè)序得到的原始圖像數(shù)據(jù)文件經(jīng)堿基識(shí)別（Base Calling）分析轉(zhuǎn)化為原始測(cè)序序列（Sequenced Reads），我們稱之為Raw Data或Raw Reads，以FASTQ（簡(jiǎn)稱為fq）文件格式存儲(chǔ)。

為了保證分析質(zhì)量，后續(xù)數(shù)據(jù)分析都是基于精細(xì)過濾的Clean?Reads進(jìn)行的，主要分析參數(shù)有Q值-堿基質(zhì)量值、QC率(Clean?data得率)、Mapping?Rate-比對(duì)率、Duplication?Rate-冗余率、On?Target?Rate-中靶率、Uniformity-均一性、Coverage-覆蓋度、Depth-測(cè)序深度，相應(yīng)的概念及意義分析如下：

Q值-堿基質(zhì)量值

在高通量測(cè)序中，每個(gè)被測(cè)到的堿基都會(huì)有一個(gè)質(zhì)量值打分，稱為Q值（Qphred），體現(xiàn)測(cè)序過程中堿基識(shí)別的可信度和錯(cuò)誤率（e）。計(jì)算方法如下：Qphred = -10log10e，通過此公式可以看出，Q值越大，表示識(shí)別錯(cuò)誤的可能性越小，可信度就越高。如表1所示，常用于統(tǒng)計(jì)的Q值對(duì)應(yīng)著不同的錯(cuò)誤率。在高通量測(cè)序中，普遍使用Q20作為堿基過濾的閾值，而Q30也被經(jīng)常用來評(píng)價(jià)測(cè)序的質(zhì)量。

QC率(Clean?data得率)

下機(jī)后的Raw Data除了要過濾掉低質(zhì)量的堿基，還要考慮部分情況下可能測(cè)到的adapter序列。因?yàn)閍dapter的序列是人工設(shè)計(jì)的，因此可以通過對(duì)測(cè)序序列的比較來判斷read上是否存在adapter序列，并切除。經(jīng)過低質(zhì)量堿基和接頭序列過濾后，就得到我們需要的Clean Data。Clean Data和Raw Data的比值就是QC率，也可以稱之為Clean Data得率。在計(jì)算上機(jī)測(cè)序數(shù)據(jù)量時(shí)，該指標(biāo)可以作為參數(shù)進(jìn)行數(shù)據(jù)量的預(yù)估，也可以反過來計(jì)算測(cè)序深度。

Mapping?rate-比對(duì)率

將測(cè)序得到的Clean數(shù)據(jù)對(duì)比到參考基因組，統(tǒng)計(jì)能夠比對(duì)到參考基因組的Reads和全部Clean Reads的比例，就是Mapping Rate。該比值越高越好，過低意味著存在污染。

Duplication?Rate-冗余率

在將Clean Reads比對(duì)到參考基因組后，會(huì)發(fā)現(xiàn)部分Reads有著相同的起始和結(jié)束位置，并且序列完全相同，則這些序列被視作Duplication，只保留一條用于后續(xù)分析（也有觀點(diǎn)認(rèn)為只需要起始、終止位置一致就可以判定為Duplication）。比如下圖中的R1和R2。R3雖然起始位置和R1、R2一致，但終止位置并不一致，因此不能算作為Duplication。這些重復(fù)序列在總測(cè)序序列中的占比稱之Duplication Rate-冗余率。

Duplication的存在會(huì)造成等位基因頻率和基因型識(shí)別不準(zhǔn)確，并且相同的測(cè)序深度下，Duplication Rate越高，有效深度就越低，可能會(huì)影響測(cè)序結(jié)果。

On?Target?Rate-中靶率

表示含有目標(biāo)區(qū)域的文庫(kù)占全部文庫(kù)的比例。拿外顯子的Panel來舉例，基因組中有許多與外顯子有同源性的序列，但這些并不屬于目標(biāo)區(qū)域的部分也會(huì)在雜交過程中被捕獲下來。這種探針捕獲到非目標(biāo)區(qū)域片段的情況稱為脫靶現(xiàn)象（Off Target）。脫靶的數(shù)據(jù)是無(wú)效的，不能用于后續(xù)分析，浪費(fèi)數(shù)據(jù)量。通過計(jì)算中靶序列在全部文庫(kù)中的占比，就可以評(píng)估這一次捕獲實(shí)驗(yàn)的特異性。捕獲效率越高，說明覆蓋同樣深度所需的數(shù)據(jù)量越小，可以降低測(cè)序成本。

捕獲效率可以細(xì)分為Reads和Bases兩類。Bases的捕獲效率通常被用于計(jì)算目標(biāo)區(qū)域的平均深度。而對(duì)于某些特殊的捕獲場(chǎng)景，Reads的捕獲效率更適合用來表征真實(shí)的捕獲效率，比如檢測(cè)某種病原體的有無(wú)。

Uniformity-均一性

均一性指的是測(cè)序得到的數(shù)據(jù)在基因組或目標(biāo)區(qū)域分布的均一程度。在實(shí)際測(cè)序中，目標(biāo)區(qū)域內(nèi)不同的位點(diǎn)被覆蓋的情況是不同的，理論上均一性越高越好，表明每一個(gè)位點(diǎn)都能均勻的測(cè)到基本一致的深度。

對(duì)于均一性有兩種解釋：1.總體的偏離，可以用方差來計(jì)算；2.特定深度區(qū)域的占比。目前行業(yè)內(nèi)的共同標(biāo)準(zhǔn)是深度達(dá)到0.2倍平均深度的區(qū)域占Coverage區(qū)域的比例。另外還有Fold-80評(píng)分也可以評(píng)估均一性。

Coverage-覆蓋度

覆蓋度往往會(huì)和測(cè)序深度一起提及，比如100X測(cè)序深度下的覆蓋度為99%，則表示有99%的區(qū)域，區(qū)域中的每個(gè)堿基都至少被測(cè)到了100次，或者說99%的區(qū)域至少有100條的Reads覆蓋。如果不涉及測(cè)序深度，那么覆蓋度往往指的是1X測(cè)序深度下的覆蓋度，比如覆蓋度99%則代表有99%的區(qū)域至少測(cè)到過1條reads，還有1%的區(qū)域沒有測(cè)到數(shù)據(jù)。相同條件下，覆蓋度越高越好，代表著越多的區(qū)域被測(cè)到，遺漏的信息越少。

Depth-測(cè)序深度

由于高通量測(cè)序的準(zhǔn)確度較Sanger測(cè)序低，且為并行測(cè)序，因此可以通過對(duì)同一個(gè)堿基進(jìn)行多次測(cè)序來獲得準(zhǔn)確的堿基信息。對(duì)某一個(gè)特定的堿基來說，每測(cè)到一次，我們就記這個(gè)堿基被測(cè)了“1X”。最終所有的數(shù)據(jù)統(tǒng)計(jì)，這個(gè)堿基被測(cè)到了多少次，就說這個(gè)堿基測(cè)了“多少X的深度“。反過來說，如果某個(gè)堿基的測(cè)序深度是20X，那表明該堿基被測(cè)到了20次，或者說有20條不同的reads覆蓋這個(gè)堿基。對(duì)于一定的區(qū)域而言，則使用”平均測(cè)序深度“這個(gè)概念，來描述整個(gè)區(qū)域平均每個(gè)堿基被測(cè)到的次數(shù)。在實(shí)際應(yīng)用中，不同類型的檢測(cè)，所需要的深度也不同。用于Germline變異檢測(cè)的時(shí)候，WGS一般測(cè)30X的平均深度，WES一般測(cè)100-200X的平均深度；而用于Somatic變異檢測(cè)的時(shí)候，Panel會(huì)被推薦測(cè)至少500X的平均深度。

下圖即為以上指標(biāo)簡(jiǎn)易示意圖：

在以上介紹到的指標(biāo)中，覆蓋度是最重要的一點(diǎn)，如果覆蓋度達(dá)不到要求，那就談不上檢測(cè)變異。均一性是保障檢測(cè)的準(zhǔn)確度，二代測(cè)序要求位點(diǎn)有足夠高的絕對(duì)深度，較高的均一性可以保證在一定的測(cè)序數(shù)據(jù)量下，更多的區(qū)域有足夠的深度；捕獲效率是關(guān)注有效數(shù)據(jù)比例，若該指標(biāo)低，那就需要增加足夠多的測(cè)序量才能得到足夠高的有效深度。均一性、捕獲效率和Duplication共同決定了檢測(cè)的經(jīng)濟(jì)性，三個(gè)指標(biāo)都達(dá)到較為理想的狀態(tài)時(shí)，就可以用最小的數(shù)據(jù)量來準(zhǔn)確檢測(cè)目標(biāo)區(qū)域的變異信息。

標(biāo)簽：

QC參數(shù)的解讀詮釋的評(píng)論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩(shī)歌空間日志經(jīng)典語(yǔ)句愛情句子作文大全

五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

QC參數(shù)的解讀詮釋

QC參數(shù)的解讀詮釋的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

QC參數(shù)的解讀詮釋

本文作者的其他文章

QC參數(shù)的解讀詮釋的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

QC參數(shù)的解讀詮釋的評(píng)論 (共條)