總體來說,DNA甲基化一般遵循三個步驟進(jìn)行數(shù)據(jù)挖掘。
首先,進(jìn)行整體全基因組甲基化變化的分析,包括平均甲基化水平變化、甲基化水平分布變化、降維分析、聚類分析、相關(guān)性分析等。
其次,進(jìn)行甲基化差異水平分析,篩選具體差異基因,包括DMC/DMR/DMG鑒定、DMC/DMR在基因組元件上的分布、DMC/DMR的TF結(jié)合分析、時序甲基化數(shù)據(jù)的分析策略、DMG的功能分析等。
將甲基化組學(xué)&轉(zhuǎn)錄組學(xué)關(guān)聯(lián)分析,包括me[x]ta genes整體關(guān)聯(lián)、DMG-DEG對應(yīng)關(guān)聯(lián)、網(wǎng)絡(luò)關(guān)聯(lián)等。
一、甲基化圖譜分析
(1)平均甲基化水平的比較
平均甲基化水平能反應(yīng)樣本整體的甲基化水平。
但是平均水平差異不大并不能說明樣本間甲基化圖譜沒有差異。
(2)CG/CHG/CHH甲基化水平分布
不同物種中,甲基化修飾可能傾向于發(fā)生在不同類型的C位點(diǎn)上,該分析有助于反應(yīng)甲基化發(fā)生位點(diǎn)類型的偏好性。
甲基化水平分布的組間比較,能夠更進(jìn)一步了解組間甲基化水平的變化。
不同基因組元件(CGI相關(guān)元件、重復(fù)序列元件、基因元件等)的甲基化水平分布規(guī)律不同。特別是在不同物種中,基因元件的甲基化水平可能有一定的特點(diǎn)。
比較特定元件甲基化水平的組間差異也能發(fā)現(xiàn)潛在的功能差異。
(3)降維分析
降維分析嘗試找到能反映數(shù)據(jù)點(diǎn)真實(shí)分布情況的兩個維度,以方便對數(shù)據(jù)進(jìn)行直觀把握。一般采用共同覆蓋的5×以上位點(diǎn)進(jìn)行分析:
主成分分析(PCA)
非度量多維標(biāo)度法(NMDS)
主坐標(biāo)分析(PCoA)
可采用統(tǒng)計檢驗(yàn)分析組間差異:
相似性分析(ANOSIM)
置換多元方差分析(ADONIS)
(4)聚類分析
聚類分析考慮的是各樣本之間的距離,即不相似性。一般采用共同覆蓋的5×以上位點(diǎn)進(jìn)行分析。
與降維分析的差別在于,聚類分析更真實(shí)地反映樣本的差距,而非僅考慮兩個代表性維度。
(5)相關(guān)性分析
相關(guān)性分析考慮的是各樣本之間的相似性。一般采用共同覆蓋的5×以上位點(diǎn)進(jìn)行分析。
一般采用皮爾森相關(guān)系數(shù)
·
二、差異甲基化位點(diǎn)/區(qū)域分析DMC/DMR分析)
(1)DMC/DMR鑒定
差異甲基化位點(diǎn):DMC
差異甲基化區(qū)域:DMR
(甲基化位點(diǎn)一般是與附近的位點(diǎn)一起起作用的)
鑒定實(shí)驗(yàn)組與對照組甲基化圖譜的具體差異。
如果實(shí)驗(yàn)設(shè)計包括多個時間節(jié)點(diǎn),也可以比較相鄰時間節(jié)點(diǎn)/感興趣的時間節(jié)點(diǎn)之間的甲基化圖譜的差異。
(2)DMC/DMR轉(zhuǎn)錄因子結(jié)合分析(TF binding motif )
主要關(guān)注Promoter和Enhancer等調(diào)控區(qū)域DMC/DMR的TF結(jié)合位點(diǎn)。
(3)時序甲基化數(shù)據(jù)的分析策略(Time Course)
比較相鄰時間點(diǎn)的差異
直接篩選時間階段相關(guān)的DMC和DMR
線性模型/混合線性模型
(可以排除混雜因素干擾,如性別)
共甲基化模式分析(階段特異性Cluster篩選)
WGCNA(權(quán)重基因共表達(dá)網(wǎng)絡(luò)分析)
MEGENA(多尺度嵌入式基因共表達(dá)網(wǎng)絡(luò)分析)
mfuzz
(4)DMC/DMR在基因元件上的分布
TE(轉(zhuǎn)座元件):影響基因組穩(wěn)定性
Promoter:影響基因表達(dá)
Genebody
(5)差異甲基化基因集(DMGs)的功能分析
分析策略:
可以分為Hyper-DMG和Hypo-DMG
可以分為Promoter-DMG和Genebody-DMG
Gene Ontology
KEGG pathway
Reactome pathway
DisGeNET disease
Disease Ontology
三、組學(xué)關(guān)聯(lián)分析:甲基化組學(xué)&轉(zhuǎn)錄組學(xué)
(1)me[x]ta genes整體關(guān)聯(lián)
同一樣本/組別內(nèi),所有基因的表達(dá)水平與對應(yīng)基因的甲基化水平進(jìn)行關(guān)聯(lián)。
研究的是基因甲基化與表達(dá)的整體關(guān)系。
(2)DMG-DEG對應(yīng)關(guān)聯(lián)
重疊分析: 特點(diǎn):簡單粗暴,也適用于樣本量少的情況。
(3)網(wǎng)絡(luò)關(guān)聯(lián) 基于基因表達(dá)具有功能和通路的富集性。有低樣本數(shù)量要求。
共表達(dá)-共甲基化網(wǎng)絡(luò)關(guān)聯(lián):
WGCNA module correlation
EMDN algorithm
融合網(wǎng)絡(luò)關(guān)聯(lián):
SNF algorithm