捕獲Hi-C測序鑒定33個(gè)乳腺癌風(fēng)險基因座潛在的110個(gè)靶基因
1.研究背景
目前GWAS研究已經(jīng)鑒定了約100個(gè)乳腺癌易感基因座。絕大多數乳腺癌風(fēng)險SNP位于非編碼區,可能影響基因轉錄調控;甚至有許多風(fēng)險SNP位于“基因沙漠”中,即距離最近的蛋白編碼基因數百Kb遠。鑒定這些風(fēng)險位點(diǎn)作用的靶基因有助于深入理解這些GWAS風(fēng)險位點(diǎn)的作用機制。鑒定乳腺癌風(fēng)險位點(diǎn)功能的系統性方法,主要包括大基因組區域的精細定位、SNP基因型與鄰近基因表達之間的相關(guān)分析(eQTL,基因表達數量性狀定位)和染色質(zhì)構象捕獲技術(shù)(Hi-C、CHIA-PET等)鑒定調控區域的靶基因。
2.研究方法
利用Capture Hi-C(CHi-C)技術(shù)在6種細胞系中對68個(gè)乳腺癌風(fēng)險基因座進(jìn)行高通量測序,即首先構建Hi-C文庫,針對該68個(gè)loci(目標區域共計14.7Mb)設計RNA捕獲探針(Agilent),雜交捕獲目標片段,最后上機測序,off-target(目標區域以外的) di-tags(插入片段兩端的Reads)定義為2端都未比對到風(fēng)險基因座。
3.技術(shù)路線(xiàn)
4.研究結果
1、63個(gè)風(fēng)險基因座的互作peak(loop)分布
在2種ER +乳腺癌細胞系(T-47D,ZR-75-1)、2種ER-乳腺癌細胞系(BT-20,MDAMB-231)、1種“正?!比橄偕掀ぜ毎?(Bre80-Q-TERT/Bre80)和1種非乳腺類(lèi)淋巴母細胞系(GM06990)中進(jìn)行了CHi-C測序。風(fēng)險基因座定義為包含至少1個(gè)風(fēng)險SNP位點(diǎn)在內,且包含與該SNP相關(guān)(r2>0.2)的所有SNP的一個(gè)連續區域。每個(gè)細胞系的互作peak數目在0-1744的范圍內,有12個(gè)基因座沒(méi)有在以上任何一種細胞系中鑒定到互作peak。剩余的51個(gè)loci中46個(gè)是與所有乳腺癌或者ER+乳腺癌風(fēng)險相關(guān)的。
作者發(fā)現ER+乳腺癌細胞系中互作peak數目顯著(zhù)高于ER-乳腺癌細胞系,且ER+乳腺癌細胞系中存在很大一部分距離大于2Mb的互作片段。分析樣本間互作peak的Jaccard相似性,發(fā)現ER+和ER-各自組內具有更高的相似性。
互作peak示例:下圖為10q26.13基因座的互作peak(loop),在ER+乳腺癌細胞系和正常乳腺上皮細胞系中鑒定到了互作peak,但是ER-乳腺癌細胞系中則未檢測到?;プ靼谢虻霓D錄起始位點(diǎn)(TSS)位于捕獲區域內,并且和相距幾百Kb遠的特異的HindIII酶切片段形成環(huán)(互作Peak)。在T-47D細胞系中,這些遠距離片段與DNase I超敏位點(diǎn)、CTCF、FOXA1、GATA3轉錄因子結合位點(diǎn)以及雌激素受體ERα結合位點(diǎn)共定位。
2、定義潛在的靶基因
作者將靶基因定義為至少兩個(gè)細胞系中,定位到捕獲區域內或捕獲區域的順式作用區間(≤5 Mb)的基因,且其轉錄起始位點(diǎn)/TSS定位在相互作用片段上。以此為準能夠為51個(gè)基因座中的33個(gè)(64.7%)鑒定到110個(gè)推定的靶基因,其中94個(gè)為蛋白編碼基因,16個(gè)非編碼RNA。作者比較了GWAS風(fēng)險SNP位點(diǎn)的臨近基因以及本研究中鑒定到的靶基因,發(fā)現其中24個(gè)基因座的鄰近基因是唯一的CHi-C靶基因(N = 9)或幾個(gè)CHi-C靶基因之一(N = 15)。
注:√表示鄰近基因與CHi-C靶基因一致,且有且僅有一個(gè)靶基因;√+表示該基因座鄰近基因為CHi-C靶基因之一;X 表示鄰近基因不是CHi-C靶基因。
3、CHi-C靶基因和eQTL分析
為了評估推定的靶基因在乳腺癌病因中具有因果作用的可能性,作者首先使用風(fēng)險SNP(或與風(fēng)險SNP連鎖不平衡的位點(diǎn),r2> 0.8)和TCGA數據庫中的RNA-Seq數據(N=547)進(jìn)行eQTL分析( TCGA),并對匹配的DNA甲基化數據和體細胞拷貝數變異進(jìn)行了校正,根據ER狀態(tài)進(jìn)行分層分析。共計鑒定到了22個(gè)顯著(zhù)SNP-基因組合(t檢驗p<0.05),其中9個(gè)經(jīng)過(guò)多重檢驗FDR校正后仍然顯著(zhù)。其中,3個(gè)基因為鄰近基因。
4、CHi-C靶基因和疾病特異性生存期(DSS)分析
作者所納入的風(fēng)險SNP在此之前只有一個(gè)位點(diǎn)(16q12.1-rs3803662)報道了與疾病預后相關(guān)。本研究中作者直接分析了代謝型乳腺癌隊列中潛在的靶基因的表達水平與的患者預后之間的關(guān)聯(lián)(分別對ER +和ER-亞組進(jìn)行生存分析)。其中32個(gè)靶基因(33%)與ER +乳腺癌患者的DSS相關(guān),6個(gè)DSS相關(guān)的靶基因為eQTL靶基因。
5、CHi-C靶基因和體細胞突變癌基因分析
CHi-C推定的靶基因與560個(gè)乳腺癌的全基因組測序分析得到的727個(gè)癌基因列表進(jìn)行比較,CHi-C靶基因高度富集這些癌癥基因(n=14),包括證據充分的癌基因(CCND1、 CDKN2A、CDKN2B、MYC、MAP3K1、 ESR1和FGFR2)以及表征不明的癌基因(TET2、 KLF4、 MLLT10、FADD、TBX3、PAX9 和 ZFP36L1)。
綜合分析體細胞突變數據與eQTL和DSS三種指標,6個(gè)基因座至少有2個(gè)指標支持,見(jiàn)下表。其中4個(gè)基因CDCA7、FADD、ZFP36L1和MRPL34的表達水平同時(shí)與SNP基因型以及DSS相關(guān)。
怎么樣,Hi-C技術(shù)是不是非常強大,做完GWAS沒(méi)有鑒定到位于編碼區的候選SNP,或者全是基因沙漠區的候選SNP,如何開(kāi)展下游機制研究呢?不妨試一試Hi-C測序。
參考文獻:Baxter J S, Leavy O C, Dryden N H, et al. Capture Hi-C identifies putative target genes at 33 breast cancer risk loci[J]. Nature communications, 2018, 9(1): 1028.