目前,對基因表達調控的研究主要是以基因及其調控元件的線(xiàn)性關(guān)系為基礎,然而,基因不僅僅以簡(jiǎn)單的線(xiàn)性形式存在,越來(lái)越多的證據表明染色質(zhì)之間的相互作用在基因表達調節方面也起重要作用,即基因的表達調控存在三維空間網(wǎng)絡(luò ),基因表達可被遠程調控元件所調控。
基于3C的技術(shù)方法產(chǎn)生了大量的全基因組相互作用數據。本文(發(fā)表于2013年Nat Rev Genet)簡(jiǎn)述了主要的實(shí)驗方法,更多篇幅用于描述最近開(kāi)發(fā)的染色質(zhì)互作數據集的分析、計算和建模方法。在此討論3種方法:第1種方法,其目的僅僅在于識別比預期更頻繁互作的一對或一組基因座,比如染色質(zhì)環(huán)loop或特定的共定位事件,分析基因座間互作頻率以鑒定更高階的染色體結構域;另外2種方法分別為距離約束建模(restraint-based modeling)和聚合體(polymer)建模,使用包括基線(xiàn)互作和非特異性互作在內的所有互作數據來(lái)構建染色體空間模型的集合。之后,3D模型可以用來(lái)鑒定染色體空間組織的更高階結構特征和DNA元件,以估計折疊過(guò)程中細胞內的染色質(zhì)動(dòng)力學(xué)以及細胞間的可變性。在此,作者討論了這些方法的應用,包括如何確定染色體空間組織的原理,揭示新的染色質(zhì)結構,并將這些結構與基因表達和調控聯(lián)系起來(lái)。
一、實(shí)驗技術(shù)——染色質(zhì)構象捕獲及其衍生技術(shù)
染色質(zhì)構象捕獲(chromosome conformation capture, 3C)技術(shù)原理是:(1)利用甲醛固定細胞核內的相互作用的染色質(zhì)位點(diǎn);(2)利用限制性?xún)惹忻笇NA切成片段狀;(3)再用DNA連接酶對片段末端進(jìn)行連接,從而捕獲含有相互接觸DNA片段;(4)利用PCR 或者測序的方法檢測DNA片段的連接位點(diǎn),獲得染色質(zhì)不同位點(diǎn)相互接觸的頻率;(5)數據分析,推斷出染色質(zhì)的空間位置信息,從而得到染色質(zhì)相互作用位點(diǎn)的圖譜。
不同的3C衍生技術(shù)的區別在于捕獲的連接片段檢測和定量方式:
3C:經(jīng)典的3C實(shí)驗中,通過(guò)基因座特異性引物PCR檢測單個(gè)連接產(chǎn)物,大多數3C通常僅能分析幾十到幾百Kb染色質(zhì)之間的相互作用,通量低,費時(shí)費力——one vs one;
4C(“circular 3C”或“3C-on-Chip”):使用反向PCR產(chǎn)生單基因座的全基因組相互作用圖,研究已知DNA片段(bait)與全基因組未知DNA片段之間的互作——one vs all;
5C(Chromosome conformation capture carbon copy):基于3C的基本原理,結合連接介導的擴增 (ligation-mediated amplification,LMA)來(lái)增加3C檢測的通量,識別兩組大量位點(diǎn)之間并行的數百萬(wàn)個(gè)相互作用,例如一組啟動(dòng)子和一組遠端調控元件之間的互作——many vs many。
Hi-C(High-throughput chromosome conformation capture):用于對整個(gè)基因組所有位點(diǎn)間進(jìn)行無(wú)偏差的作用分析的3C衍生技術(shù),該技術(shù)有一個(gè)獨特的步驟,即限制性酶切消化后用生物素標記的核苷酸補平缺口,有助于選擇性純化用于測序的連接產(chǎn)物。Hi-C提供了一個(gè)真正全基因組范圍的相互作用圖譜(該圖譜的分辨率取決于測序的深度,常規測序數據量,即幾億reads時(shí),小鼠或人類(lèi)基因組中的染色質(zhì)互作的檢測分辨率為100Kb)——all vs all。
此外,還有將3C與染色質(zhì)免疫沉淀結合,以研究與特定蛋白結合的基因座之間互作的技術(shù):
ChIP-loop(chromatin immunoprecipitation-loop assay):常見(jiàn)的是ChIP-3C,以過(guò)量的限制性?xún)惹忻笇⑷旧|(zhì)-蛋白質(zhì)交連物酶切消化后,用所研究蛋白質(zhì)的特異抗體進(jìn)行免疫沉淀,然后再連接酶切產(chǎn)物,后續步驟和3C相同——one vs one;
ChIA-PET(chromatin interaction analysis by paired-end tag sequencing):對感興趣的蛋白質(zhì)結合位點(diǎn)之間的遠程互作進(jìn)行全基因組分析——all vs all。
二、研究染色質(zhì)的空間組織形式
源于成像技術(shù)的見(jiàn)解
利用各種改進(jìn)的成像技術(shù)進(jìn)行的詳細研究揭示了染色體在整個(gè)細胞核內的幾個(gè)組織原則:
1)在許多生物體的間期細胞中,染色體不易混合,而是占據它們自己的獨立區域;
2)染色體區域接觸的地方,可以形成交織的區域,為位于不同染色體基因座之間的潛在功能性互作提供機會(huì );
3)轉錄事件在整個(gè)細胞核中并非廣泛地發(fā)生,而是發(fā)生在富含RNA聚合酶Ⅱ和轉錄以及RNA加工的其它組分的區域。這意味著(zhù)積極轉錄的基因傾向于共同定位;
4)基因組的轉錄失活片段也傾向于彼此相關(guān)聯(lián),并且常常位于核周邊、核仁周?chē)蚬壷械膩喓私Y構上,如多梳體。
這些發(fā)現表明細胞核在空間和功能上可以劃分不同區域,基因座的亞核定位與基因表達相關(guān)。
染色質(zhì)構象捕獲及其衍生技術(shù)(3C-based technologies)
成像技術(shù)的缺點(diǎn):不易全面分析完整基因組的三維折疊,且分辨率達不到Kb水平。
基于3C及衍生技術(shù),克服了成像技術(shù)的缺點(diǎn),能夠以足夠的分辨率在全基因組范圍內研究染色體折疊,以及涉及的基因和調控元件。詳細介紹見(jiàn)上述實(shí)驗技術(shù)——染色質(zhì)構象捕獲及其衍生技術(shù)。
3C、4C、5C和Hi-C數據集互作圖示例:
三、解析染色質(zhì)互作數據
這些3C及其衍生技術(shù)報告了細胞群體中兩個(gè)基因座空間上緊密接近的頻率,但未區分功能性與非功能性的位點(diǎn)間關(guān)聯(lián),也未揭示導致其共定位的機制??臻g上緊密接近包括以下幾種情況:1)Direct interaction:兩個(gè)基因座之間直接、特異性接觸的結果(由結合它們的蛋白質(zhì)復合物介導);2)Interaction with the same sub-nuclear structures:成對基因座與相同亞核結構間接共定位的結果(例如核纖層,核仁、或轉錄工廠(chǎng)等)。3)Bystander interaction:在某些細胞中,由于鄰近的某些遠程互作或其他約束因素決定的染色質(zhì)纖維的堆積和折疊的造成的非特異性接觸,或者由于擁擠核中的隨機(非特異性)碰撞導致的非特異性接觸。4)Baseline(polymer) interaction:染色質(zhì)纖維非常長(cháng),而且柔韌,染色體具有聚合體性質(zhì),因此,即使在沒(méi)有任何特定高階結構的情況下,這個(gè)特征在很大程度上也決定了基因座間相互作用的頻率。
染色質(zhì)纖維的√確三維結構在其它同類(lèi)細胞之間甚至是高度可變的,并且在細胞內局部區域(大約Mb大?。┦莿?dòng)態(tài)的。這解釋了為什么全面的染色質(zhì)互作數據集通常顯示一個(gè)基因座幾乎與基因組中的任何其它基因座具有互作的概率。檢測到的每個(gè)染色質(zhì)互作或連接產(chǎn)物實(shí)例,表示群體中單個(gè)細胞中的一對基因座的互作。因此,3C互作頻率數據代表細胞固定時(shí),存在空間上緊密接近的基因座所在的那部分細胞,并且只有在基因組折疊顯示出巨大的細胞間異質(zhì)性時(shí)才能解釋該數據。這些突出了全面染色質(zhì)互作數據集的復雜性質(zhì):互作數據表示大量細胞群體間相互作用的總和,并且在每個(gè)細胞中染色體構象由作用于染色質(zhì)纖維的許多不同約束決定。
目前,分析染色體構象的挑戰正在從開(kāi)發(fā)用于生成日益全面和定量數據集的實(shí)驗方法轉變?yōu)闃嫿ǚ治龉ぞ咭越忉屜嗷プ饔脭祿?作者闡述的第一種方法是用來(lái)識別點(diǎn)對點(diǎn)的成環(huán)互作,例如, 啟動(dòng)子和基因調控元件之間的互作。
四、定位調控元件的靶基因
鑒定成環(huán)互作
后生動(dòng)物基因組中,每個(gè)基因被大量元件包圍。一個(gè)主要問(wèn)題是:決定特定時(shí)間哪些元件調控特定基因的原理是什么?;谧罱甑膯蝹€(gè)基因的詳細分析,以及最近更全面的全基因組范圍的研究報道發(fā)現,調控元件與其靶基因進(jìn)行通信的主要機制是通過(guò)染色質(zhì)成環(huán)(chromatin looping),這使得線(xiàn)性距離很遠的基因座可以在空間上密切接近。
單基因座研究中,經(jīng)典的3C技術(shù)被用于檢測感興趣的元件之間的相互作用頻率,例如,啟動(dòng)子和延伸至數百Kb的側翼染色質(zhì)間。分析這樣的“錨定”(anchored)互作圖,可以找到比預期更頻繁地與錨定位點(diǎn)互作的遠側基因座,也就是成環(huán)互作(loop interaction)。通常,相互作用頻率隨著(zhù)基因組距離的增加呈指數衰減。許多研究中,loop互作指在整體衰減基線(xiàn)之上觀(guān)察到局部峰(peak)。3C分析本質(zhì)上是定性,并且基于互作圖的簡(jiǎn)單視覺(jué)檢測來(lái)識別交互頻率中的peak。比較不同細胞或不同條件下獲得的互作特征,可以提供更多信息,包括統計定量以及當遠程互作是條件性或細胞類(lèi)型特異性時(shí)的loop互作信息。
特定基因組成環(huán)互作示例
經(jīng)典示例之一:基因座位控制區(locus control region,LCR)和相距40-80Kb的一組遠端β-珠蛋白基因之間的長(cháng)程互作。小鼠和人類(lèi)的3C研究檢測到珠蛋白表達細胞中這些元件之間的顯著(zhù)互作,且這些互作在不表達這些基因的細胞中顯著(zhù)較不頻繁(如大腦)。這些互作由特定的轉錄因子介導,包括結合LCR和基因啟動(dòng)子的EKLF1和GATA1。此外,成環(huán)互作通過(guò)促進(jìn)RNA聚合酶Ⅱ的募集和磷酸化直接促進(jìn)轉錄。染色質(zhì)成環(huán)構成基因調控元件在基因組遠距離調控基因的常見(jiàn)機制。
五、綜合分析Loop
5C數據loop分析
5C技術(shù)通過(guò)并行繪制多個(gè)基因座之間的互作圖譜,允許更全面地分析大量基因的染色質(zhì)成環(huán)互作。例如,最近一項研究中,繪制了3種人類(lèi)細胞系超過(guò)600個(gè)基因啟動(dòng)子的互作圖譜,分辨率:?jiǎn)蝹€(gè)限制性片段(?4Kb)。假設大多數交互不是特異的loop交互,從整個(gè)數據集中估計互作頻率的基線(xiàn)值,由此估計出各基因組距離的互作頻率基線(xiàn)。然后通過(guò)檢測顯著(zhù)高于該基線(xiàn)的信號,以選定的p值和錯誤發(fā)現率鑒定loop互作。與經(jīng)典的3C單基因座對研究相比,這種方法統計學(xué)分析上更嚴格,可以鑒定該基線(xiàn)上的顯著(zhù)peak。示例見(jiàn)下圖。
5C的缺陷:1)受限于用于定義預期互作頻率的模型和假設;2)被檢測的細胞群體中的實(shí)際互作頻率(發(fā)生loop互作的細胞比例)仍然是未知的,并且可能非常低,這使得很難評估這些相互作用在任何給定細胞中的功能作用。
關(guān)于loop景觀(guān)的見(jiàn)解
盡管5C技術(shù)存在上述缺陷,但仍舊揭示了染色質(zhì)不同區域間遠程互作參與基因表達調控的普遍規律。Sanyal等人發(fā)現了基因啟動(dòng)子和遠端基因座之間有數千個(gè)重要的遠距離loop互作,強調了許多基因啟動(dòng)子通過(guò)染色質(zhì)環(huán)與遠端元件互作的觀(guān)點(diǎn)。普遍規律如下:1)許多染色質(zhì)成環(huán)事件是活性基因啟動(dòng)子和類(lèi)似于活性增強子的遠端元件之間的細胞類(lèi)型特異性互作,這與這些染色體結構在基因活化中的作用一致;2)其中一類(lèi)豐富的遠程互作即是啟動(dòng)子區與絕緣蛋白CTCF結合位點(diǎn)之間成環(huán);3)通常認為調控元件可以調節*鄰近的基因,但是成環(huán)互作經(jīng)常跳過(guò)一個(gè)或多個(gè)基因,這表明基因和元件的線(xiàn)性排列是它們之間功能和結構互作的較差預測因子;4)基因和調控元件之間的關(guān)系并不唯一:一個(gè)基因可以與多個(gè)遠端元件互作,同時(shí)一個(gè)元件也可以與多個(gè)基因互作。
此外,研究發(fā)現啟動(dòng)子周?chē)某森h(huán)互作模式不對稱(chēng):?jiǎn)?dòng)子可與位于轉錄起始位點(diǎn)上游或下游的遠端元件互作,但成環(huán)互作常見(jiàn)于上游?120Kb。不對稱(chēng)原因尚不清楚,但是可能暗示某種方向性。從這些研究可以看出,染色體是由遠距離互作驅動(dòng)的高度復雜的三維網(wǎng)絡(luò )。同時(shí)提出了新的問(wèn)題:介導它們的蛋白質(zhì)以及這些成環(huán)互作如何促進(jìn)基因調控。
六、拓撲相關(guān)結構域(topologically associating domains, TAD)
5C和Hi-C等技術(shù),以不偏倚的方式對感興趣的基因組區域或整個(gè)基因組中的所有相互作用進(jìn)行分析,從而鑒定染色體的結構特征。后生動(dòng)物基因組的一個(gè)突出特征是形成各種類(lèi)型的染色體結構域。果蠅、小鼠和人類(lèi)染色體的研究發(fā)現,染色體由離散的拓撲相關(guān)結構域(TAD)組成,其大小為數百Kb(見(jiàn)下圖中每個(gè)綠色橫線(xiàn)對應的三角形,TAD染色質(zhì)局部相互作用較為強烈的一個(gè)作用單元)。
包含小鼠X染色體失活中心的4.5Mb區域的高分辨率5C互作圖揭示了一系列大的結構域。位于這些TADs內的基因座往往頻繁地相互作用,但它們與位于其領(lǐng)域之外的基因座的相互作用要少得多,即TAD內部的相互作用強,不同TAD間的相互作用弱。這種特征使研究人員能夠通過(guò)分析分辨率較低的全基因組Hi-C互作圖與隱馬爾可夫模型方法結合,來(lái)識別整個(gè)人類(lèi)和小鼠基因組中的TAD。TADs是染色體的通用結構模塊,人類(lèi)和小鼠的基因組都由2000多個(gè)TAD組成,覆蓋了90%以上的基因組。
TAD是由遺傳編碼的邊界元件定義的。刪除X染色體失活中心中兩個(gè)TAD之間的邊界,導致兩個(gè)側翼TAD的部分融合(并非完全融合),這表明激活了一個(gè)新的邊界。全基因組研究發(fā)現TAD邊界富含CTCF結合位點(diǎn),盡管CTCT也經(jīng)常結合TAD內部基因座。TAD的邊界除了富集 CTCF的結構域,還有大量的持家基因、tRNAs、SINE 反轉錄轉座子等 DNA 元件。建立TAD邊界的機制仍不明確。
(CTCF, CCCTC binding factor,絕緣子結合蛋白,CTCF基因編碼的轉錄因子,與絕緣子的活性相關(guān),CTCF與靶順式元件的結合可阻斷增強子和啟動(dòng)子的相互作用,從而將增強子的活性限制在一定的功能區域。)
TADs的存在也提示了基因和遠端調控元件之間可能發(fā)生的loop互作會(huì )存在限制,loop互作局限于位于相同TAD內的元件。事實(shí)上,小鼠基因組中的初步分析表明增強子-啟動(dòng)子相互作用在TAD內特別頻繁。也就是,TAD在調控基因表達方面具有主要作用,將基因限制于某些特定的遠端調控元件。對X染色體失活中心的TAD進(jìn)行分析表明,相同TAD內的基因傾向于在細胞分化期間協(xié)調表達,可能是因為它們共享相同的一組基因調控元件。 TADs的存在可以為長(cháng)期觀(guān)察到一種現象提供染色質(zhì)結構層面的解釋?zhuān)@種現象即相鄰基因通常在多種細胞類(lèi)型中表達相關(guān)。
七、補充內容:基因組隔間(Genome compartments)
哺乳動(dòng)物基因組的染色體內和染色體間相互作用圖揭示了一種相互作用模式,可以近似分為兩個(gè)隔間(A和B,或稱(chēng)區室/隔室),它們沿著(zhù)染色體交替,并且具有約5Mb的特征尺寸。A隔間優(yōu)先與整個(gè)基因組中的其它A隔間相互作用。 同樣,B隔間與其它B隔間相關(guān)聯(lián)。隔間信號可以通過(guò)互作圖的特征向量擴展來(lái)量化。 A / B室信號不是簡(jiǎn)單的雙相(僅代表兩種狀態(tài)),而是連續的,并且與轉錄活性指標,如DNA可及性、基因密度、復制時(shí)間、GC含量和幾個(gè)組蛋白標記相關(guān)。A-隔間主要是常染色質(zhì)-轉錄活躍區域,B-隔間則主要是聚集在一起的異染色質(zhì)(轉錄失活區域)。
Compartment的發(fā)現:Lieberman-Aiden 等(2009)在研究人染色質(zhì)互作時(shí)發(fā)現,在分辨率為1 Mb時(shí),得到的染色質(zhì)相互作用矩陣圖中,由于染色質(zhì)不同區間互作強度不同產(chǎn)生了明顯的“格子圖案”模型(plaid pattern),見(jiàn)下圖,從而將染色質(zhì)大致分成2部分,A 隔間和B隔間。
圖片引自Comprehensive mapping of long-range interactions reveals folding principles of the human genome[J]. science, 2009, 326(5950): 289-293,互作矩陣中顏色表示每對1Mb基因座染色質(zhì)間互作相關(guān)性系數(紅色:1,藍色:-1)。
TAD不同于較大的A和B隔間。:1)對胚胎干細胞、腦組織和成纖維細胞的分析表明,大部分的TAD在不同組織間保持不變,而A隔間和B隔間是活性和非活性染色質(zhì)的組織特異性結構域,其與細胞類(lèi)型特異性基因表達模式相關(guān);2)A隔間和B隔間通常為幾Mb,并沿著(zhù)染色體形成活性區域和非活性區域交替模式,相比之下,TAD較?。ㄖ兄导s為400-500Kb),可以是活性的或無(wú)活性的,并且相鄰的TAD不一定具有相反的染色質(zhì)狀態(tài)。 因此,TADs似乎是染色體的硬件特征,并且一組相鄰TADs形成A隔室和B隔室。
未完待續:后面的部分著(zhù)重闡述構建染色質(zhì)的3D模型構建方法,即前面引言所述的另外2種方法:距離約束建模(restraint-based modeling)方法和聚合體(polymer)建模方法,由于篇幅所限,暫不列在本次解讀中。
如果您對該技術(shù)感興趣,歡迎點(diǎn)擊下方按鈕聯(lián)系我們,我們將免費為您設計文章思路研究方案。
參考文獻:
Dekker J, Marti-Renom M A, Mirny L A. Exploring the three-dimensional organization of genomes: interpreting chromatin interaction data[J]. Nature Reviews Genetics, 2013, 14(6): 390.