易基因:染色質(zhì)免疫共沉淀測序(ChIP-seq)的數(shù)據(jù)挖掘思路 |干貨系列
大家好,這里是專注表觀組學(xué)十余年,領(lǐng)跑多組學(xué)科研服務(wù)的易基因。
CHIP-seq研究的數(shù)據(jù)挖掘思路主要分為3步:
整體把握CHIP-seq圖譜特征:peak/reads在基因組上的分布、peak在元件上的富集、peak在基因元件上的分布、peak的motif分析、peak距離TSS位點的距離分析、peak修飾基因的功能分析
篩選具體差異peak和基因:差異 peak鑒定、非時序數(shù)據(jù)的分析策略、時序數(shù)據(jù)的分析策略、差異peak關(guān)聯(lián)基因的功能分析、差異peak關(guān)聯(lián)基因的PPI分析、感興趣目標(biāo)區(qū)域的可視化展示
CHIP-seq&轉(zhuǎn)錄組學(xué)關(guān)聯(lián)分析:Meta genes整體關(guān)聯(lián)、peak關(guān)聯(lián)基因與DEG對應(yīng)關(guān)聯(lián)、目標(biāo)區(qū)域和靶基因的篩選
后期視情況是否需要下游實驗設(shè)計驗證TF結(jié)合/組蛋白修飾的目標(biāo)區(qū)域和候選靶基因。

1、圖譜分析
(1)peak/reads在基因組上的分布
Peak的分布就是蛋白與DNA互作圖譜。
不同蛋白對DNA的結(jié)合可以按照峰的寬窄和分布特征分為:
narrow peak:即發(fā)生在DNA上特定的短序列,結(jié)合的區(qū)域很短。
broad peak:這種類型的peak在DNA上呈彌 散的連續(xù)的分布,峰型較寬。
一般來說,轉(zhuǎn)錄因子的峰型都是narrow peak;而對于組蛋白修飾,有的峰型為 narrow peak,有的為broad peak。
可以通過調(diào)整參數(shù)或使用不同的軟件分別鑒定narrow peak及broad peak。


(2)信號的富集程度分析——覆蓋度累積曲線
對樣本比對結(jié)果reads累積情況進(jìn)行展示。一定長度窗口(bin)上reads數(shù)進(jìn)行計數(shù),然后排序,再依次累加畫圖。input (能測到90 DNA片段)在基因組理論上是均勻分布,隨著測序深度增加趨近于直線,實驗組在排序越高的窗口處reads累積速度越快,說明這些區(qū)域富集的越特異。
narrow peak :富集程度高;broad peak:富集程度低。
富集程度低不代表失敗, 如broad peak。
但是如果是轉(zhuǎn)錄因子, 富集程度低則需要謹(jǐn)慎對待。


(3)peak/reads的基因元件富集分析
reference-point(relative to a point):?計算某個點的信號豐度
scale-regions(over a set of regions):?把所有基因組區(qū)段縮放至同樣大小,然后計算其信號豐度。


基于信號富集的靶基因集分類鑒定(基于聚類算法)

(4)peak/reads的基因元件分布分析

(5)peak/reads與TSS的相對距離分布
轉(zhuǎn)錄因子、組蛋白修飾往往具有重要的轉(zhuǎn)錄調(diào)控功能,而TSS附近是主要的轉(zhuǎn)錄調(diào)控區(qū)域,因此判斷peak與TSS的位置關(guān)系有重要的意義。

(6)降維分析
將基因組分為等長窗口(bins),計算各樣本各窗口內(nèi)的Reads覆蓋情況并進(jìn)行標(biāo)準(zhǔn)化?;诖藬?shù)據(jù)進(jìn)行相關(guān)性、聚類和PCA分析。

(7)motif分析
Motif為一段有特征的DNA短序列,主要為轉(zhuǎn)錄因子的識別位點,不同的motif對應(yīng)不同的轉(zhuǎn)錄因子。
根據(jù)motif可以推測結(jié)合的轉(zhuǎn)錄因子。
已知轉(zhuǎn)錄因子則分析該轉(zhuǎn)錄因子識別的序列特征。

(8)peak的基因注釋和功能分析
ORA
GSEA: 可以按照peak信號強(qiáng)度排序

2、差異peak分析
(1)非時間序列數(shù)據(jù):


(2)時間序列數(shù)據(jù):


(3)差異peak關(guān)聯(lián)基因的PPI分析

感興趣基因的差異peak展示

3、組學(xué)關(guān)聯(lián)分析:CHIP-seq&轉(zhuǎn)錄組學(xué)
(1)Meta genes整體關(guān)聯(lián)
距離TSS位點不同距離的peak注釋到的基因的表達(dá)水平分析
不同表達(dá)水平的基因,peak的數(shù)量分布對比

轉(zhuǎn)錄水平倍數(shù)變化 vs. peak倍數(shù)變化
(2)差異peak基因-DEG對應(yīng)關(guān)聯(lián):篩選關(guān)鍵目的基因
peak關(guān)聯(lián)基因與差異表達(dá)基因的重疊分析。
peak關(guān)聯(lián)基因可以是peak注釋到啟動子區(qū),TSS±10kb區(qū)的基因,也可以來自已 知公共數(shù)據(jù)庫的注釋,如Human Enhancer Disease Database (HEDD)。
九象限圖法

關(guān)于易基因染色質(zhì)免疫共沉淀測序?(ChIP-seq)
染色質(zhì)免疫共沉淀(Chromatin Immunoprecipitation,ChIP),是研究體內(nèi)蛋白質(zhì)與DNA相互作用的經(jīng)典方法。將ChIP與高通量測序技術(shù)相結(jié)合的ChIP-Seq技術(shù),可在全基因組范圍對特定蛋白的DNA結(jié)合位點進(jìn)行高效而準(zhǔn)確的篩選與鑒定,為研究的深入開展打下基礎(chǔ)。
DNA與蛋白質(zhì)的相互作用與基因的轉(zhuǎn)錄、染色質(zhì)的空間構(gòu)型和構(gòu)象密切相關(guān)。運(yùn)用組蛋白特定修飾的特異性抗體或DNA結(jié)合蛋白或轉(zhuǎn)錄因子特異性抗體富集與其結(jié)合的DNA片段,并進(jìn)行純化和文庫構(gòu)建,然后進(jìn)行高通量測序,通過將獲得的數(shù)據(jù)與參考基因組精確比對,研究人員可獲得全基因組范圍內(nèi)某種修飾類型的特定組蛋白或轉(zhuǎn)錄因子與基因組DNA序列之間的關(guān)系,也可對多個樣品進(jìn)行差異比較。