資訊
頻道
當(dāng)前位置:首頁 > 醫(yī)療器械資訊 > 技術(shù)前沿 > DNA甲基化研究的測序數(shù)據(jù)挖掘思路

DNA甲基化研究的測序數(shù)據(jù)挖掘思路

文章來源:健康界發(fā)布日期:2023-02-25瀏覽次數(shù):51

總體來說,DNA甲基化一般遵循三個步驟進(jìn)行數(shù)據(jù)挖掘。

首先,進(jìn)行整體全基因組甲基化變化的分析,包括平均甲基化水平變化、甲基化水平分布變化、降維分析、聚類分析、相關(guān)性分析等。

其次,進(jìn)行甲基化差異水平分析,篩選具體差異基因,包括DMC/DMR/DMG鑒定、DMC/DMR在基因組元件上的分布、DMC/DMRTF結(jié)合分析、時序甲基化數(shù)據(jù)的分析策略、DMG的功能分析等。

將甲基化組學(xué)&轉(zhuǎn)錄組學(xué)關(guān)聯(lián)分析,包括me[x]ta genes整體關(guān)聯(lián)、DMG-DEG對應(yīng)關(guān)聯(lián)、網(wǎng)絡(luò)關(guān)聯(lián)等。


一、甲基化圖譜分析

1)平均甲基化水平的比較

平均甲基化水平能反應(yīng)樣本整體的甲基化水平。

但是平均水平差異不大并不能說明樣本間甲基化圖譜沒有差異。

2CG/CHG/CHH甲基化水平分布

不同物種中,甲基化修飾可能傾向于發(fā)生在不同類型的C位點(diǎn)上,該分析有助于反應(yīng)甲基化發(fā)生位點(diǎn)類型的偏好性。

甲基化水平分布的組間比較,能夠更進(jìn)一步了解組間甲基化水平的變化。

不同基因組元件(CGI相關(guān)元件、重復(fù)序列元件、基因元件等)的甲基化水平分布規(guī)律不同。特別是在不同物種中,基因元件的甲基化水平可能有一定的特點(diǎn)。

比較特定元件甲基化水平的組間差異也能發(fā)現(xiàn)潛在的功能差異。

3)降維分析

降維分析嘗試找到能反映數(shù)據(jù)點(diǎn)真實(shí)分布情況的兩個維度,以方便對數(shù)據(jù)進(jìn)行直觀把握。一般采用共同覆蓋的5×以上位點(diǎn)進(jìn)行分析:

主成分分析(PCA

非度量多維標(biāo)度法(NMDS

主坐標(biāo)分析(PCoA

可采用統(tǒng)計檢驗(yàn)分析組間差異:

相似性分析(ANOSIM

置換多元方差分析(ADONIS

4)聚類分析

聚類分析考慮的是各樣本之間的距離,即不相似性。一般采用共同覆蓋的5×以上位點(diǎn)進(jìn)行分析。

與降維分析的差別在于,聚類分析更真實(shí)地反映樣本的差距,而非僅考慮兩個代表性維度。


5)相關(guān)性分析

相關(guān)性分析考慮的是各樣本之間的相似性。一般采用共同覆蓋的5×以上位點(diǎn)進(jìn)行分析。

一般采用皮爾森相關(guān)系數(shù)

·

二、差異甲基化位點(diǎn)/區(qū)域分析DMC/DMR分析)

1DMC/DMR鑒定

差異甲基化位點(diǎn):DMC

差異甲基化區(qū)域:DMR

(甲基化位點(diǎn)一般是與附近的位點(diǎn)一起起作用的)

鑒定實(shí)驗(yàn)組與對照組甲基化圖譜的具體差異。

如果實(shí)驗(yàn)設(shè)計包括多個時間節(jié)點(diǎn),也可以比較相鄰時間節(jié)點(diǎn)/感興趣的時間節(jié)點(diǎn)之間的甲基化圖譜的差異。


2DMC/DMR轉(zhuǎn)錄因子結(jié)合分析(TF binding motif

主要關(guān)注PromoterEnhancer等調(diào)控區(qū)域DMC/DMRTF結(jié)合位點(diǎn)。

3)時序甲基化數(shù)據(jù)的分析策略(Time Course

比較相鄰時間點(diǎn)的差異

直接篩選時間階段相關(guān)的DMCDMR

線性模型/混合線性模型

(可以排除混雜因素干擾,如性別)

共甲基化模式分析(階段特異性Cluster篩選)

WGCNA(權(quán)重基因共表達(dá)網(wǎng)絡(luò)分析)

MEGENA(多尺度嵌入式基因共表達(dá)網(wǎng)絡(luò)分析)

mfuzz


4DMC/DMR在基因元件上的分布

TE(轉(zhuǎn)座元件):影響基因組穩(wěn)定性

Promoter:影響基因表達(dá)

Genebody


5)差異甲基化基因集(DMGs)的功能分析

分析策略:

可以分為Hyper-DMGHypo-DMG

可以分為Promoter-DMGGenebody-DMG

Gene Ontology

KEGG pathway

Reactome pathway

DisGeNET disease

Disease Ontology


三、組學(xué)關(guān)聯(lián)分析:甲基化組學(xué)&轉(zhuǎn)錄組學(xué)

1me[x]ta genes整體關(guān)聯(lián)

同一樣本/組別內(nèi),所有基因的表達(dá)水平與對應(yīng)基因的甲基化水平進(jìn)行關(guān)聯(lián)。

研究的是基因甲基化與表達(dá)的整體關(guān)系。

2DMG-DEG對應(yīng)關(guān)聯(lián)

重疊分析: 特點(diǎn):簡單粗暴,也適用于樣本量少的情況。

3)網(wǎng)絡(luò)關(guān)聯(lián) 基于基因表達(dá)具有功能和通路的富集性。有低樣本數(shù)量要求。

共表達(dá)-共甲基化網(wǎng)絡(luò)關(guān)聯(lián):

WGCNA module correlation

EMDN algorithm

融合網(wǎng)絡(luò)關(guān)聯(lián):

SNF algorithm