想搭載nanopore三代測序新技術(shù)科研快車(chē)的你,get到研究套路了嗎?ONT重測序和ONT全長(cháng)轉錄組測序,雙劍合璧!
Long read sequencing reveals a novel class of structural aberrations in cancers:identification and characterization of cancerous local amplifications.bioRxiv.2019
研究背景
國際癌癥基因組協(xié)作組(International Cancer Genome Consortium,ICGC)和癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)等已經(jīng)揭示了多種癌癥的致病性突變,其中包括研究較深入的肺腺癌LUAD。超過(guò)一半的LUAD病例具有EGFR和KRAS基因特征性點(diǎn)突變,或者ALK、RET和ROS1的基因融合,并被應用于靶向治療策略指導。但,大約20-30%的肺腺癌患者仍未診斷出其癌性突變。
目前的突變研究幾乎都是基于短讀長(cháng)的二代測序平臺,長(cháng)度在200-300bp(目前通用的是PE150bp),比較有利于檢測點(diǎn)突變(snp和InDel )。雖然開(kāi)發(fā)了一系列算法,但短讀長(cháng)測序仍然難以檢測更復雜更大的結構變異,如染色體非整倍性、拷貝數變異CNV和染色體重排。
最近的長(cháng)讀長(cháng)測序技術(shù)正在改變這種局面,比如單分子實(shí)時(shí)(SMRT)測序儀PacBio和Nanopore測序儀,納米孔型測序儀MinION首次用于表征良性成人家族性肌陣攣性癲癇(BAFME)19號內含子中致病性重復序列擴張,作者以及他人的研究中也通過(guò)Nanopore測序方法檢測到了癌癥相關(guān)結構變異,另外Nanopore全長(cháng)轉錄組測序甚至可以一條read可以揭示一個(gè)mRNA的完整剪接模式,并且Nanopore PromethION平臺通量得到極大提升。
本研究作者試圖用Nanopore測序技術(shù)研究肺腺癌中存在的之前未解析的致癌性突變。
研究方法
1)作者嘗試使用PromethION平臺對整個(gè)人類(lèi)癌癥基因組進(jìn)行長(cháng)讀長(cháng)測序。首先證明PromethION測序可以相對容易地識別點(diǎn)突變以及大的結構畸變和融合基因。并意外地發(fā)現,包含中小型結構變異的復雜組合突變非常普遍,構成了以前未定義的獨特突變類(lèi)別,稱(chēng)為致癌性局部拷貝數畸變(Cancerous Local Copy-number Lesions
,CLCLs)。
2)隨后,利用長(cháng)讀長(cháng)測序的優(yōu)勢,通過(guò)Nanopore全長(cháng)轉錄組測序來(lái)表征全長(cháng)轉錄本的結構。
3)最后,結合之前的其他多組學(xué)數據:基于Illumina短reads測序的全基因組重測序、RNA-seq和ChIP-seq,證明這些CLCL可能的功能,以及不僅限于細胞系中,也存在于臨床樣本中。
研究結果
1、癌細胞系長(cháng)讀長(cháng)測序
使用納米孔測序儀MinION及其更高通量PromethION平臺進(jìn)行了長(cháng)讀長(cháng)全基因組測序分析。首先通過(guò)對LC2/ad的基因組進(jìn)行測序來(lái)驗證新型PromethION儀器的性能,LC2/ad是源自日本肺腺癌患者的肺癌細胞系。作為參考,作者從總共33個(gè)MinION runs(R9.5)中收集了全基因組測序數據,以31×的總測序深度覆蓋了整個(gè)人類(lèi)基因組,共有7,282,846條reads(93,813,338,154 base)。reads的*大長(cháng)度和N50長(cháng)度分別為2,495,160 bp和30,606 bp。采用Minimap2將67.5%的reads比對到人類(lèi)參考基因組UCSC hg38。比對上的reads平均長(cháng)度為16,452 bp,總體序列一致性平均為82%,比以前的長(cháng)讀長(cháng)人類(lèi)癌癥基因組測序分析顯著(zhù)增長(cháng)。PromethION測序需要大約三個(gè)flowcells才能產(chǎn)生總共10,064,668個(gè)reads(100,440,433,160 bp),總覆蓋率為33x,Reads的*大長(cháng)度和N50長(cháng)度分別為987,834 bp和32,710 bp。使用Minimap2,將69.4%的讀數定位到參考基因組。比對上的reads平均長(cháng)度為13,620 bp,平均一致性為84.8%。值得注意的是,對于31X 93G數據量,PromethION平臺不需要制備多個(gè)文庫33次測序,因此與MinION相比,PromethION所需的起始DNA總量可減少十倍以上。
PromethION vs MinION:為了探究PromethION測序是否與MinION測序兼容,比較了獲得的兩個(gè)數據集的特征。Reads長(cháng)度的總體分布是相似的(圖1A)。這兩個(gè)數據集都包含很大一部分超過(guò)50 kb的長(cháng)讀長(cháng)reads(MinION:360,786個(gè)讀,PromethION:451,698個(gè)),20X以上測序深度覆蓋了超過(guò)50%的人類(lèi)基因組區域(圖1B),兩個(gè)數據集均顯示了超過(guò)80%的整體保真度(圖1C),與先前的研究相似。PromethION平臺各項指標稍微好一點(diǎn)。結論:PromethION是用于整個(gè)癌癥基因組測序的有效分析方法。

圖1
在完成對從MinION和PromethION數據的初步評估后,作者對另外4個(gè)肺癌細胞系(A549、REFF-LC-KJ、RELF-LC-MS和PC-14)進(jìn)行了MinION和PromethION測序,分別覆蓋了9.5-18.5X基因組,例如,在RERF-LC-KJ測序中,產(chǎn)生了5,986,875個(gè)reads(總堿基數57,062,227,853 bp,18.5x),Reads*長(cháng)長(cháng)度和N50長(cháng)度分別為922,768 bp和23,442 bp。
補充圖1
為了評估單堿基水平數據質(zhì)量,通過(guò)使用Integrative Genomics Viewer(IGV)手動(dòng)檢查了比對結果,針對相應細胞的已知驅動(dòng)突變,在A(yíng)549中,有11條reads顯示出致癌突變KRAS G12S 點(diǎn)突變(左,圖1D)。在PC-14中,8條reads顯示驅動(dòng)基因NRAS Q61K點(diǎn)突變(右,圖1D)。REFR-LC-KJ和RERF-LC-MS細胞系中沒(méi)有任何眾所周知的驅動(dòng)突變。所有這些結果與以前的報導一致。這些結果共同表明,至少當癌組織純度(癌細胞含量)與培養細胞一樣高時(shí),僅使用長(cháng)讀測序也可以在單堿基水平上進(jìn)行突變檢測,即檢測點(diǎn)突變。
2、大的基因組結構變異檢測
使用長(cháng)讀長(cháng)測序數據,嘗試檢測比點(diǎn)突變大的結構畸變(圖2A)。從LC2/ad的MinION/PromethION數據集中,成功鑒定出12條reads與CCDC6-RET融合基因的junction位點(diǎn)直接重疊,這是該細胞系已知的“癌癥驅動(dòng)突變”(圖2B)。進(jìn)一步嘗試鑒定大的缺失,前人報道抑癌基因CDKN2A基因周?chē)写蟮娜笔?,發(fā)生在LC2/ad,A549和PC-14細胞中。使用這項研究中的MinION/PromethION數據集,我們再次確認了該基因在各細胞中的缺失(圖2C)。此外,每個(gè)CDKN2A缺失的√確連接點(diǎn)在細胞類(lèi)型之間是不同的。
圖2
通過(guò)采用split比對方法來(lái)檢測新的融合基因(圖2A),確定了3種新的重排,通過(guò)Illumina的短讀長(cháng)測序進(jìn)一步證實(shí)了這些重排。LC2/ad中融合基因為NELL1-CCSER1和EFNA5-IKBKB,在RERF-LC-KJ中為UTS2B-GRM4融合基因。每種情況,長(cháng)讀長(cháng)測序均能以單堿基分辨率√確鑒定連接點(diǎn)。
進(jìn)一步嘗試破譯比較困難的MYC基因重排,確定了LC2/ad中MYC基因的拷貝數畸變。估計此擴增覆蓋了中心為MYC基因的大約8Mb基因座。即使使用長(cháng)讀測序,仍然很難完全重建其結構,其中包括復雜的重排模式,在8號染色體上以估計的非整倍性為8擴展到8 Mb(圖2D)。對于MYC區域,嘗試通過(guò)光學(xué)圖譜方法Bionano Saphyr識別正確的結構。即使使用Saphyr,MYC區域的√確結構仍然難以捉摸,盡管該分析的結果支持了跨越8 Mb區域的MYC擴增,具有大約8個(gè)拷貝(圖2E)。
3、鑒定新的致癌結構變異CLCL
在嘗試確定已建立類(lèi)別的上述結構畸變(CNV、插入INS、缺失DEL、倒位INV、易位ITX/CTX)時(shí),意外地發(fā)現了一種新型的局部結構變異(圖3)。這些畸變由拷貝數改變、倒位和缺失的復雜組合組成,似乎不完全屬于上述類(lèi)別,因此將其命名為致癌性局部拷貝數畸變(Cancerous Local Copy-number Lesions,CLCL)。僅基于短讀長(cháng)reads很難識別和表征這些CLCL的√確連接,可能偶爾會(huì )獲得一些提示性信息。
圖3
第一個(gè)例子是在STK11基因座中發(fā)現的。在先前使用Illumina進(jìn)行的肺癌全基因組測序研究中,發(fā)現RERF-LC-KJ細胞中STK11基因區域可能存在局部拷貝數變異,測序深度從內含子1的中間到基因的末端增加。存在短reads的split標簽,這表明該區域可能發(fā)生反轉。盡管在該區域定位了大量的測序reads,但仍無(wú)法重建其√確結構。
作者分析了長(cháng)讀長(cháng)數據以破譯STK11基因位點(diǎn)的畸變(圖3A)。它揭示了如下畸變:第一次重排是從內含子1(chr19:1,216,572;斷點(diǎn)II)開(kāi)始,到基因下游(chr19:1,228,569;斷點(diǎn)IV)。反向序列繼續回到內含子1的中間(chr19:1,216,360;斷點(diǎn)I,其是起始斷點(diǎn)II上游的212個(gè)堿基),該序列返回并跳至內含子3(chr19:1,219,538;斷點(diǎn)III)。后面的序列繼續到基因座的末端。分別以7條和9條PromethION reads代表檢測到的junction位點(diǎn)(斷點(diǎn)II/IV和I/III)。當我們重新檢查Illumina的reads時(shí),在斷點(diǎn)I和II之間以及斷點(diǎn)III和IV之間的兩個(gè)區域(圖3A中的方框區域),測序深度都增加了。作者還使用軟切割(soft-clipped)方法分析短讀長(cháng)數據發(fā)現,使用短讀長(cháng)split標簽很難檢測到兩個(gè)斷點(diǎn)I和III,部分原因是junction位點(diǎn)位于重復區域。
4、其他癌細胞系其他基因CLCL突變
為了更普遍地識別所有肺癌細胞系其他基因座中的CLCL,作者構建了一條新的分析性生物信息學(xué)流程。簡(jiǎn)而言之,利用了來(lái)自比對結果的split比對信息,根據reads位置對比對信息進(jìn)行排序,并提取了候選CLCL。相關(guān)的reads被重組以重建其結構。
在其他細胞系中也成功鑒定出以下數量的CLCL:LC2/ad中有16個(gè),A549中有1個(gè),RERF-LC-KJ中有7個(gè),RELF-LC-MS中有7個(gè),PC-14中有11個(gè)。重要的是,CLCLs甚至出現在關(guān)鍵的癌癥基因中,例如STK11,NF1,SMARCA4和PTEN基因。異常的結構各不相同,并且由于其復雜的結構和受累區域的大小,傳統的基于短讀長(cháng)測序分析的方法不易檢測到它們中的大多數。相對簡(jiǎn)單的一種是在RERF-LC-MS細胞的NF1基因中檢測到的(圖3B),內含子9(chr17:31,200,948)和最后一個(gè)外顯子36的下游區域(chr17:31,278,880;在交界處有6條reads支持)之間的串聯(lián)串聯(lián)重復。在另一種情況下,SMARCA4 CLCL的結構顯示出從內含子1(chr19:10,973,314)到內含子20(chr19:11,022,573;在交界處有8條reads支持;圖3C)。在PC-14中的PTEN結構中發(fā)現了更復雜的情況,該CLCL是倒位和缺失的組合(圖3D)。在這些相對簡(jiǎn)單的情況下,將Illumina短reads重新映射到已發(fā)現的junction位點(diǎn)可驗證重建結構的√確識別。
確實(shí),盡管在先前的研究中部分懷疑了這些突變的存在,但在進(jìn)行這項研究之前,它們的確切結構仍然難以捉摸。作者和其他人以前曾根據這些case的短讀長(cháng)測序數據,懷疑存在大的缺失、移碼缺失和剪接位點(diǎn)突變。然而,通過(guò)基于短讀長(cháng)測序的常規變異檢測,無(wú)法檢測到某些情況,在本研究中,這些情況首先被確定為CLCL(圖3E中黑點(diǎn))。
作者還檢查了CLCL的基因組背景??傆?,有64%(28/44)的CLCL具有至少一個(gè)與長(cháng)散布核元件(LINE)、短散布核元件(SINE)或長(cháng)末端重復序列(LTR)重疊的junction位點(diǎn),分別為13%、24%和4%(12/92、22/92和4/92)(圖3F)。它們的獨特位置可能會(huì )影響通過(guò)短讀長(cháng)測序對CLCL的√確識別。
5、與CLCL相關(guān)的異常轉錄事件
在很多細胞類(lèi)型的許多關(guān)鍵基因中發(fā)現了新的CLCL型畸變后,立即提出的問(wèn)題是它們以何種方式產(chǎn)生轉錄或表觀(guān)基因組后果。全長(cháng)轉錄組測序-使用MinION重新生成并分析了全長(cháng)cDNA測序數據。并利用了以前的Illumina短讀長(cháng)RNA-seq和ChIP-seq數據。在RERF-LC-KJ細胞中,短讀長(cháng)序列數據表明STK11轉錄物在內含子1處異常剪接,并且轉錄躍遷到CLCL結構之前。代表全長(cháng)轉錄本的MinION reads進(jìn)一步指明√確的剪接模式和轉錄終止位點(diǎn)(圖4A)。對于幾乎所有的轉錄本,第一次剪接均發(fā)生在異常位置(來(lái)自chr19:1,216,268),并且轉錄根據CLCL結構發(fā)生(RNA-seq reads涵蓋從chr19:1,216,572至chr19:1,228,569的斷點(diǎn)II-IV)。在下游CLCL區域內也觀(guān)察到一些異常轉錄(中間圖,圖4A)。在STK11基因是野生型的PC-14細胞中未觀(guān)察到這種異常轉錄模式(下圖,圖4A)。
圖4
作者檢查了CLCL周?chē)鷧^域的表觀(guān)基因組標記,以H3K4me3,H3K9/14ac和RNA聚合酶II的ChIP-seq表示。不管是否為攜帶CLCL或野生型STK11基因座細胞系中,染色質(zhì)通常在啟動(dòng)子區域形成活性結構,并且轉錄通常在正確的位置開(kāi)始(圖4B)。然而,僅在具有CLCL的REFR-LC-KJ細胞中,H3K36me3標記在內含子1的中間消失,表明轉錄延伸應恰好在CLCL開(kāi)始的地方被破壞。Illumina RNA-seq數據還支持RNA在內含子1的中間異常剪接,并根據CLCL結構進(jìn)行轉錄。這些異常轉錄本的表達水平測得為2.8 rpkm。沒(méi)有檢測到正常的轉錄本。然而,盡管在某種程度上異常的轉錄本表達低于野生型,但仍保持了較高的表達水平。
我們對其他CLCL進(jìn)行了類(lèi)似的分析,對于PC-14中的PTEN基因(圖4C),CLCL位于外顯子6。結果,該外顯子完全跳躍。因此,所得的轉錄本應移碼,可能導致PTEN基因的功能喪失。根據Illumina RNA-seq數據檢查了包含CLCL的STK11,NF1,SMARCA4和PTEN基因中的RNA表達水平。結果表明,CLCL通??赡軐е禄虮磉_水平降低(圖4D)。但是,在某些情況下,基因表達水平仍然很顯著(zhù),例如RERF-LC-MS細胞中的NF1轉錄本和PC-14細胞中的PTEN轉錄本。
圖4E
為了解決CLCL的生物學(xué)意義,作者研究了受CLCL影響的基因座如何引起蛋白質(zhì)表達水平及其相關(guān)信號通路變化。蛋白質(zhì)印跡WB分析發(fā)現STK11,NF1,SMARCA4和PTEN的蛋白質(zhì)在這些基因中帶有CLCL的細胞中完全丟失了(圖4E)。進(jìn)一步檢查了下游蛋白的激活狀態(tài),在所有檢查的case中均觀(guān)察到了預期的信號通路破壞。磷酸化的AKT(phospho-AKT)相應地激活mTOR信號通路,而PTEN抑制AKT的磷酸化。觀(guān)察到phospho-AKT異常上調,反映了PC-14細胞(PTEN-CLCL)中PTEN的功能喪失。AMPK是在維持細胞動(dòng)態(tài)平衡中起重要作用的基因,AMPK蛋白在其α亞基處的磷酸化被STK11激活。在RERF-LC-KJ細胞(STK11-CLCL)中,其激活受到損害。NF1基因是RAS的負調控因子,位于RAS信號通路下游的磷酸化ERK在RERF-LC-MS細胞(NF1-CLCL)中異常上調。無(wú)論是由于常規畸變還是CLCL,相應基因的蛋白質(zhì)明顯丟失,但其后果仍會(huì )根據情況而有所不同。例如,即使STK11蛋白在RERF-LC-MS細胞(STK11缺失)和RERF-LC-KJ細胞(STK11-CLCL)中類(lèi)似地消失,在RERF-LC-KJ細胞(STK11-CLCL)中磷酸-AMPKα的增強比例也更高。RERF-LC-OK(NF1-缺失)細胞系中NF1蛋白影響幾乎無(wú)法檢測到,而對RERF-LC-MS細胞(NF1-CLCL)的影響卻很明顯。表明,其他途徑有時(shí)可以彌補關(guān)鍵蛋白的缺失。
6、臨床肺癌標本中CLCL突變檢測
為了檢查臨床肺癌肺腺癌病例中是否也存在CLCL,對9名日本肺腺癌患者的手術(shù)標本進(jìn)行了類(lèi)似的PromethION全基因組測序(表3)。表3中顯示了每個(gè)患者所檢測到的驅動(dòng)基因突變。平均每個(gè)case生成了43,953,136,203 bp的序列(深度大于10倍)。對于S10病例,還對正常組織標本進(jìn)行了測序,以消除可能的正常組織變異和源自比對錯誤的可疑CLCL。
再次成功檢測到CLCL,9個(gè)樣本中有6個(gè)在其腫瘤基因組中至少包含一個(gè)CLCL,包括幾個(gè)關(guān)鍵的癌癥基因。例如,在病例S8中,確定了RNF20 CLCL。該患者為女性患者,已被證明具有EGFR外顯子19缺失作為驅動(dòng)突變。但是,其他癌癥突變仍然難以捉摸。RNF20基因的CLCL為內含子2(chr9:101,536,324)和內含子6(chr9:101,544,752)之間的串聯(lián)重復,這很可能導致該基因的功能喪失。RNF20基因編碼具有抑癌功能的E3泛素連接酶,并且經(jīng)常發(fā)生突變,特別是在肺癌中。表3總結了獲得患者致癌作用的分子病因學(xué)指征。需要進(jìn)一步擴展長(cháng)讀長(cháng)測序序列,以更√確地識別CLCL的頻率和CLCL偏好的基因。
7、根據公共短讀長(cháng)測序數據重新評估可能的CLCL
作者嘗試利用預先存在的Illumina短讀長(cháng)測序數據分析CLCL,希望即使從短讀長(cháng)測序數據中也能夠識別出候選CLCL。并且作者對先前的短讀長(cháng)reads如何展示這些CLCL感興趣。
為了從短讀長(cháng)序列識別CLCL,采用軟切割程序GenomonSV(https://github.com/Genomon-Project/GenomonSV)。選擇“split” reads作為“軟切割”reads,以及成對末端reads,它們可能跨越SV的junction位點(diǎn)。作為模型數據集,首先分析了用于上述PromethION測序的5種肺癌細胞系的全基因組短讀長(cháng)測序數據。對于每個(gè)細胞系,在基因區域平均提取182個(gè)“soft-clipped”連接點(diǎn)。將串聯(lián)重復結構定義為短讀長(cháng)測序數據中的假定CLCL。在細胞系中平均有26個(gè)基因受到推定的CLCL的影響。比較從短讀長(cháng)和長(cháng)讀長(cháng)中檢測到的CLCL,在PromethION檢測到的CLCL中,從短讀長(cháng)序列數據中也檢測到72%的基因(圖5A)。但是,由于假陽(yáng)性檢出率普遍較高,因此z確率限制為25%。
之后收集并分析了9個(gè)臨床病例約63X測序深度的全基因組短讀長(cháng)測序數據,分析可能的CLCL,確定了可能受推定的CLCLs影響的9個(gè)基因。如圖5B所示,從短讀長(cháng)數據開(kāi)始檢測到CLCL,估計靈敏度為73%。但是,由于較短的讀長(cháng)reads所固有的各種原因,z確率被限制為14%。
圖5
盡管對于所有細胞系和臨床樣品,使用短讀長(cháng)數據分別估計21%和72%的CLCL檢測z確度和重復檢出率,但將構建的分析流程應用于514個(gè) TCGA肺腺癌(TCGA-LUAD)和97個(gè)日本肺腺癌(Japanese LUAD)樣本全外顯子組測序數據,通過(guò)分別從TCGA-LUAD和日本LUAD病例中進(jìn)行軟切割reads分析,共檢測到269個(gè)和50個(gè)具有串聯(lián)重復結構的連接點(diǎn),這些結構可能對應于CLCL(每個(gè)病例1至29個(gè)基因)??傆嫃?55(30%)TCGA-LUAD和39(40%)日本LUAD病例中提取了候選CLCL(圖5C)。
接下來(lái)作者分析了這些病例中是否攜帶299個(gè)與癌癥*相關(guān)的基因CLCL,檢測到16例(514 + 97例中為2.6%),在17個(gè)癌基因中具有潛在的CLCL(圖5D)。這些病例中有9個(gè)沒(méi)有已知的驅動(dòng)基因突變。例如,TCGA-49-4512(女性,非吸煙者),在EGFR基因的激酶結構域中鑒定出潛在的CLCL。先前曾報道過(guò)這種重復,可能會(huì )導致EGFR異常激活,從而成為該病例的驅動(dòng)突變,應通過(guò)afatinib/阿法替尼等EGFR抑制劑解決該患者的治療目標。在另外2個(gè)病例(男性和吸煙)中檢測到與ERBB2相關(guān)的假定CLCL,似乎在ERBB2基因區和下游基因間或基因區之間出現了異常重復。其他患者在其他重要的抑癌基因(如STK11和PBRM1)中也帶有假定的CLCL,其突變狀態(tài)可用作免疫檢查點(diǎn)抑制劑的假定標記物。對于這些情況,尚不清楚推定的CLCL的√確結構以及功能相關(guān)性,因此,應對它們進(jìn)行詳細的長(cháng)讀長(cháng)測序分析。
小結
本研究中描述了使用PromethION在肺癌基因組中識別和表征結構畸變,揭示了由局部重復、倒位和微缺失的復雜組合組成的獨特結構畸變CLCL,進(jìn)一步分析并發(fā)現,即使在關(guān)鍵的癌癥相關(guān)基因中,這些突變也發(fā)生在體內,這些突變可能闡明了致癌性事件和治療策略仍然難以捉摸的患者的分子病因。這是將PromethION測序用于癌癥基因組學(xué)的研究。顯然,需要對測序方法本身進(jìn)行進(jìn)一步的改進(jìn),并對計算方法進(jìn)行改進(jìn),以達到進(jìn)一步的目標。確實(shí),這項研究提出的問(wèn)題多于答案。從這個(gè)意義上講,這僅僅是首次研究,為更全面地了解癌癥的復雜基因組畸變以及進(jìn)一步深入研究其生物學(xué)鋪平了道路。