百邁客一直秉承“生物科技長(cháng)信,服務(wù)社會(huì ),造福人民”的企業(yè)使命,致力于讓生物科技更快,更好的提高人類(lèi)生活質(zhì)量。通過(guò)整合高通量測序技術(shù)、生物信息技術(shù)與云計算、大數據等新興IT技術(shù),為用戶(hù)開(kāi)啟生物科技服務(wù)2.0新時(shí)代。各種測序的經(jīng)驗也都是十分豐富,今天給大家帶來(lái)一篇通過(guò)全長(cháng)轉錄組研究轉錄本的結構變異影響蛋白翻譯的文章,了解應用的新方向。詳解見(jiàn)下文:
摘要
背景:全長(cháng)轉錄組能夠檢測癌細胞中異常剪接異構體的結構。這些亞型有時(shí)候被翻譯,被人類(lèi)白細胞抗原(HLA)分子呈現,并被識別為新抗原。該研究使用(MinION)構建了一個(gè)非小細胞肺癌中異常剪接的目錄,通過(guò)該目錄可以識別新亞型和潛在的新抗原。
結果:對22組細胞系進(jìn)行全長(cháng)轉錄組測序,共鑒定出2021種新的剪接異構體。其中一些異構體的蛋白質(zhì)表達通過(guò)蛋白質(zhì)組分析進(jìn)行驗證。無(wú)義介導的mRNA衰減因子(NMD)UPF1的降低和剪接因子SF3B1的減少增加了異常轉錄本的比例。NetMHC對每種HLA分子結合的親和力的評估顯示,一些亞型可能產(chǎn)生新抗原候選體,還在7個(gè)非小細胞肺癌標本中發(fā)現了剪接亞型。酶聯(lián)免疫吸附斑點(diǎn)試驗表明,大約一半的候選肽有可能通過(guò)與人類(lèi)白細胞抗原分子的相互作用激活T細胞反應。大約一半的多肽通過(guò)與HLA分子的相互作用具有激活T細胞反應的潛力。最后,作者通過(guò)參考構建的目錄來(lái)估計癌癥基因組圖譜(TCGA)數據庫中的亞型數量,發(fā)現NMD因子的破壞與TCGA-Lung Adenocarcinoma數據集中發(fā)現的剪接亞型數量顯著(zhù)相關(guān)。
結論:結果表明,全長(cháng)轉錄組測序對于√確鑒定癌細胞中異常轉錄本至關(guān)重要。
材料和方法
實(shí)驗材料:22組肺腺癌細胞系(A427、A549、ABC-1、H1299、H1437、H1648、H1650、H1819、H2126、H2228、H2347、H322、II-18、PC-14、PC-3、PC-9、RERF-LC-Ad1、RERF-LC-Ad2、RERF-LC-MS、RERF-LC-OK、RERF-LC-KJ和VMRC-LCD)
實(shí)驗方法:全長(cháng)轉錄組測序、RNA-seq測序
結果
1.肺癌細胞系的全長(cháng)轉錄本
對22個(gè)NSCLC細胞系進(jìn)行了全長(cháng)轉錄組測序,其中肺癌特征基因組表達的突變和轉錄組本被表示。從每個(gè)細胞系中平均產(chǎn)生了350萬(wàn)條reads,平均reads長(cháng)度為1.6 kb,獲得的全長(cháng)cDNA片段通過(guò)Minimap2測序與人類(lèi)基因組比對。所有的剪接位點(diǎn)都通過(guò)二代轉錄組測序確認。將獲得的可變剪接進(jìn)一步與參考序列數據庫(RefSeq)當前的轉錄本模型進(jìn)行比較。在映射到RefSeq轉錄本的reads中,超過(guò)50%的reads成功覆蓋了多達8000個(gè)基因的全長(cháng)轉錄本。對于每個(gè)基因,MinION的reads(RPM)與二代轉錄本reads(TPM)具有很強的相關(guān)性。
文章鑒定了轉錄異構體的完整外顯子-內含子結構,并將其分為以下類(lèi)型:未標記外顯子、外顯子跳躍、互斥外顯子、內含子保留、5’可變外顯子和3’可變外顯子(圖 1a)。因此,文章從所有細胞系中鑒定出3474種非RefSeq亞型,并將它們命名為假定的“異常剪接亞型”,以下簡(jiǎn)稱(chēng)為“亞型”,2021種亞型包含至少一個(gè)在參考序列或基因代碼數據集中沒(méi)有出現的剪接事件(圖1b)。還在單個(gè)全長(cháng)轉錄本上鑒定了這些剪接事件的新組合,這很難通過(guò)短reads測序數據的片段reads檢測到。
Fig. 1
每種非小細胞肺癌細胞系的模式和數量代表特征性異常剪接事件(圖一d)。轉錄本的數量從323到725不等。不同細胞系的轉錄本組成不同。例如,內含子保留和替代的最后一個(gè)外顯子構成了RERF-LC-Ad2中大比例的同種類(lèi)型,而未標記的外顯子和外顯子跳躍是H1819的特征。這些結果表明,即使在細胞系中,異常剪接轉錄本的模式也是多樣的。剪接事件的一個(gè)新的復雜組合轉錄本的例子如圖1e所示。CTSV在A(yíng)BC-1細胞中表達了兩種亞型,其中一種包括發(fā)生在外顯子2和3之間的替代性最后一個(gè)外顯子和內含子保留的組合。
還觀(guān)察到具有多種亞型的基因。例如,HNRNPA2B1顯示了在PC-3細胞的3’UTR內包含選擇性剪接事件的四種亞型(圖1f)。作者總共鑒定了663個(gè)具有多種亞型的基因(圖1g)。這些結果反映了全長(cháng)轉錄組測序在全面檢測新的復雜亞型方面的巨大潛力。
為了驗證計算的準確性,比較流程和TALON軟件檢測到的可變剪接。在計算流程中檢測到的725種轉錄本中有708種(98%)也在TALON中檢測到,其中676種(93%)成功通過(guò)了TALON的過(guò)濾條件(圖1h)。TALON檢測不到的17種亞型由reads糾錯工具校正。雖然僅在TALON中檢測到21,745種亞型,但99%的亞型被作者之前的過(guò)濾條件過(guò)濾掉的reads所覆蓋(歸因于不明確的比對或低表達水平,數據未顯示)。作者的過(guò)濾條件旨在避免假陽(yáng)性檢測,并保留更高表達的轉錄本,這些轉錄本可以翻譯成新抗原;因此,作者的流程提取了比TALON提取的亞型更保守的亞型。
為了確認重復位點(diǎn)導致reads錯位的影響,作者評估了22個(gè)細胞系中檢測到的5508個(gè)剪接節點(diǎn)。作者提在剪接位點(diǎn)周?chē)?0 bp的區域,使用repeatmask搜索重復區域,結果,94.9%的拼接位點(diǎn)沒(méi)有重疊重復序。這一結果表明,新的剪接位點(diǎn)與重復序列并不特別相關(guān)。
2.檢測到的轉錄本
作者進(jìn)一步發(fā)現了新的轉錄本,發(fā)現45%的轉錄本在細胞系中共有,在每個(gè)細胞系獨有1894種轉錄本(圖2a)。共有1354個(gè)基因在兩個(gè)或多個(gè)細胞系中含有異常剪接轉錄本(圖2b)。
為了表明富含同種亞型的基因,作者比較了有或無(wú)的同種亞型基因長(cháng)度、外顯子數量和表達水平。與不含同種亞型的基因相比,含有至少一種同亞型的基因顯示出更短的序列長(cháng)度,并且由較少數量的外顯子組成;然而,發(fā)現含有同種亞型的基因的表達水平明顯升高。作者還發(fā)現,同種亞型的多樣性與基因長(cháng)度和表達水平有關(guān)。具有一種同種亞型的細胞系的基因顯示了具有兩種或多種同種亞型在基因長(cháng)度和表達水平上的顯著(zhù)差異。例如,在VMRC-LCD中,富含同種亞型的基因往往比只有一種同亞型的基因長(cháng)度更短,表達量更高(圖2c–e)。
為了檢驗表達水平和檢測概率的關(guān)系,作者將VMRC-LCD細胞的測序reads再抽樣至1/2、1/5、1/10、1/50和1/100(n= 100)并計算每個(gè)亞型的檢測概率。作者將這些亞型分為三類(lèi),高、中、低,三類(lèi)中的每一類(lèi)如下:(1)基因的TPM(總基因表達),它是根據短reads RNA測序數據;(2)isoform-reads ratio(基因內的轉錄本頻率);(3)isoform-reads。因此,作者發(fā)現三類(lèi)isoform在“TPM”和“isoform-reads ratio”類(lèi)別中顯示出相似的檢測概率,這表明isoform檢測在某種程度上與這些類(lèi)別無(wú)關(guān)。然而,在本研究進(jìn)行的測序深度中,每個(gè)病例似乎都達到了飽和狀態(tài)。平均單個(gè)肺癌細胞中有360000個(gè)mRNA分子。因此,每個(gè)細胞一個(gè)mRNA拷貝相當于3個(gè)TPM。在VMRC-LCD中,檢測到至少一種亞型的基因的*小TPM為6 TPM。這些事實(shí)表明,作者能夠識別細胞內表達水平非常低的亞型。
作者還使用具有至少一種轉錄本靶基因進(jìn)行了基因本體分析,發(fā)現參與翻譯途徑的RNA結合蛋白顯著(zhù)富集。這一結果與先前對MDS臨床標本的研究一致。該報道研究了患有SF3B1、U2AF1和SRSF2突變的患者中的異常剪接事件。一些核糖體蛋白基因和剪接相關(guān)基因的表達通常通過(guò)可變剪接事件來(lái)調控,因此可能容易受到可變剪接的影響。一般來(lái)說(shuō),核糖體蛋白基因比其他基因更短,表達水平更高。這一特征可能導致富含轉錄本的基因具有較短的基因長(cháng)度和較高的表達水平(圖2c–e)。
在細胞系中,未發(fā)現異常剪接異構體數量與EGFR、KRAS或NRAS驅動(dòng)基因突變之間存在顯著(zhù)關(guān)聯(lián)(圖2g)。值得注意的是,作者發(fā)現異常剪接異構體的數量與基因組TMB相關(guān)性較差,而TMB是新抗原的來(lái)源,也是ICI有效性的已知標記之一(r = 0.3,圖2h)。本研究檢測到的異常剪接異構體也可能被翻譯并作為新抗原呈現。

Fig. 2
3.異常剪接異構體的生物學(xué)驗證
接下來(lái),作者研究了癌細胞中異常剪接轉錄本的潛在原因。由于作者能夠將轉錄本作為全長(cháng)轉錄本的一種形式進(jìn)行分析,作者計算了含有PTCs的異常轉錄本,它們可能是NMD的靶點(diǎn)。作者發(fā)現約30%的異常亞型含有PTCs(圖3)。事實(shí)上,當作者檢查VMRC-LCD的情況時(shí),它顯示了高數量的異常剪接異構體,作者發(fā)現這個(gè)細胞系含有一個(gè)剪接位點(diǎn)突變UPF1,這是一個(gè)關(guān)鍵的NMD因子。為了更直接地驗證異常轉錄本積累的原因,作者在UPF1中對A549進(jìn)行了siRNA敲除(圖3b)。作者同樣結合Illumina平臺RNA測序數據分析了獲得的全長(cháng)cDNA MinION reads。正如預期的那樣,UPF1敲除顯著(zhù)增加了nmd靶向異構體的比例(圖3c)。例如,SURF2基因中內含子保留的亞型僅在UPF1敲除細胞中檢測到,盡管該亞型含有PTC并可能被NMD靶向(圖3d)。為了驗證這種異構體在upf1缺失細胞中的特異性表達,作者使用引物進(jìn)行RT-PCR。SURF2外顯子2的5剪接位點(diǎn)對UPF1敲除實(shí)驗的響應增加了兩到三倍(圖3e)。這種增加也被檢測到在PCR產(chǎn)物之間的大小差異。
SF3B1是一種眾所周知的剪接因子,在多種疾病中發(fā)生突變,并導致異常剪接亞型的增加。作者通過(guò)SF3B1敲除評估剪接損傷的影響以及研究剪接因子的畸變是否影響轉錄本的產(chǎn)生。作者發(fā)現外顯子跳躍的比例顯著(zhù)增加(圖3f),例如,PSMD7的外顯子3和6 在敲除后被改變(圖3g)。SF3B1-depleted的A549細胞中,外顯子跳躍亞型的表達PSMD7在中顯著(zhù)增加,相反,RefSeq類(lèi)型減少。為了確認剪接位點(diǎn)近端區域的共有序列,作者收集了僅在SF3B1在A(yíng)549細胞中敲除檢測到的外顯子跳躍異構體。在這項分析中,作者用新的剪接連接的10 bp的區域,并跳過(guò)了外顯子。具有外顯子跳躍亞型的基因在翻譯和泛素-蛋白酶體途徑中顯示出顯著(zhù)的富集,因此,這些因素的中斷可能會(huì )改變至少一些異常剪接亞型,并可能導致它們在肺癌細胞中的積累。
K700E是位于SF3B1 的HEAT-repeat區域常見(jiàn)的突變之一。如先前的研究所示,K700E熱點(diǎn)突變下調內含子保留并上調替代3’剪接位點(diǎn)事件。除了外顯子跳躍,較受影響的是內含子保留。這個(gè)結果和預期一致,因為它被認為會(huì )對SF3B1產(chǎn)生相反的結果。其他3’剪接位點(diǎn)事件沒(méi)有受到顯著(zhù)影響,這并不總是與之前的結果一致,這表明其他細胞環(huán)境也起作用。

Fig. 3
4. 異常轉錄本作為產(chǎn)生新抗原的潛在模板
據報道,腫瘤中積累的異常剪接轉錄本可能是新抗原的來(lái)源。為了研究檢測到的轉錄本是否可以作為新抗原,作者試圖分析由這些異常剪接轉錄本編碼的異常肽的潛在抗原性。在多肽方面,通過(guò)考慮所有可能的 9-mer肽的全長(cháng)轉錄本結構,推導出轉錄本的改變的多肽序列。事實(shí)上,異常剪接轉錄本通過(guò)引起移碼或翻譯的早期終止而頻繁而劇烈地改變蛋白質(zhì)序列。這些新抗原在大多數細胞系中占總潛在新抗原的*大比例(圖4a),異常剪接轉錄本和移碼突變導致了更多新多肽的產(chǎn)生(圖4b)。正如預期的那樣,被NetMHC預測為“強結合物”的新抗原的數量在剪接轉錄本和移碼突變中也更多(圖4c)。在對來(lái)自每種肽的*高NetMHC比較中,來(lái)自那些異常亞型的肽顯示出比通常使用TMB檢測方法鑒定的錯義和內突變的多肽更高的評分分布(圖4d)。
為了從實(shí)驗上驗證異常的轉錄本是否被翻譯成蛋白質(zhì),對11種細胞系(A427、A549、H1650、H2228、II-18、PC-9、RERF-LC-Ad1、RERF-LC-Ad2、RERF-LC-KJ、RERF-LC-MS和VMRC-LCD)采用了使用液相色譜結合串聯(lián)質(zhì)譜(LC/MS/MS)對于多肽識別,作者基于每個(gè)細胞系的MinION數據定制了肽序列數據庫。如前所述,普通轉錄組測序由于其測序能力,顯示出比LC/MS/MS蛋白質(zhì)組學(xué)更高的基因覆蓋率。通過(guò)液相色譜/質(zhì)譜/蛋白質(zhì)組學(xué)檢測的每個(gè)基因的肽數與通過(guò)轉錄組測序數據計算的TPM相關(guān)(r= 0.52,圖4e)而且LC/MS/MS蛋白質(zhì)組學(xué)檢測到的大部分基因也被轉錄組測序覆蓋(圖4f)。作者成功地檢測到7個(gè)翻譯自異常剪接亞型特異性區域的多肽。例如,衍生自外顯子3中具有選擇性5’剪接的轉錄本的多肽KRT7存在于RERF-LC-Ad1(圖4g)。在GENCODE數據庫中沒(méi)有發(fā)現這種轉錄本,但是在ENST00000547613中觀(guān)察到了這種同中型特異性連接,其被認為是處理過(guò)的轉錄本。MinION也證實(shí)了在H1437、H2126和II-18中的表達(表1).此外,這種轉錄本有可能產(chǎn)生幾個(gè)新抗原,這些新抗原是由NetMHC預測的。這些結果表明,一些異常剪接亞型被真正翻譯成肽,并可能在癌癥中產(chǎn)生新抗原中發(fā)揮作用。

Fig. 4
5.肺癌標本中的異常剪接異構體
為了檢查體內癌細胞中是否也存在異常剪接轉錄本,作者接下來(lái)分析了臨床肺癌標本。應用與臨床樣本細胞系分析相同的分析方案,能夠識別每個(gè)患者的異常剪接亞型(圖5a)。作者選擇了在腫瘤樣本中表達水平比非腫瘤樣本高至少兩倍的轉錄本(圖5b)在所有臨床樣本中鑒定出982種富含癌癥的剪接亞型。其中,448種亞型在參考序列或基因代碼。異常亞型的數量和TMB之間沒(méi)有顯著(zhù)的相關(guān)性(圖5c)。作為檢測到的轉錄本的一個(gè)例子,在SMOC2如圖1所示5d和僅在病例3的腫瘤中表達。類(lèi)似于細胞系分析的結果,作者可以識別獨立剪接事件的幾種獨特組合模式,這些模式占這些未標記亞型的14.5%。還確定了保留在癌細胞中的潛在的NMD靶向亞型,這表明NMD機制在相應的癌癥中被破壞。值得注意的是,在病例3和4中,發(fā)現*大數量的潛在NMD靶向亞型在關(guān)鍵NMD因子中存在移碼或無(wú)義突變,UPF3B和SMG8(圖5a)。
與用于分析細胞系數據集的方法類(lèi)似,進(jìn)行了NetMHC分析以鑒定可能是潛在新抗原的多肽。為此,作者使用臨床樣本的基因組測序數據。作者在每個(gè)病例中檢測到101–255個(gè)新抗原候選物(圖5e)。作者發(fā)現,與來(lái)自錯義突變的多肽相比,來(lái)自剪接轉錄本的肽顯示出更高的分布分數(圖5f)。事實(shí)上,在大多數樣品中,它們占了總新抗原候選肽的大部分(圖5e)。這些結果支持了這樣一個(gè)事實(shí),即臨床樣本中的異常剪接事件可以被MinION檢測到,并且比錯義突變更有可能產(chǎn)生更多的新抗原候選肽。
Fig. 5
6.對臨床樣本中異常剪接異構體的評估
為了評估從異常剪接亞型和移碼突變中鑒定的肽的抗原性,作者根據圖6a所示的方案用候選肽免疫HLA-A24轉基因小鼠。作者根據人類(lèi)白細胞抗原-α:24:02的網(wǎng)絡(luò )MHC評分選擇了17種候選肽(表2)。作者通過(guò)BLAST-P證實(shí)了該肽序列與人或小鼠蛋白質(zhì)數據庫中的序列沒(méi)有相似性,最后一次接種疫苗一周后,作者從小鼠中分離出脾細胞,并對分離物進(jìn)行酶聯(lián)免疫吸附斑點(diǎn)(ELISpot)分析。通過(guò)這樣做,作者試圖檢測新抗原特異性脾淋巴細胞反應。酶聯(lián)免疫吸附試驗結果顯示,17個(gè)多肽中有8個(gè)誘導顯著(zhù)高的干擾素-γ產(chǎn)生(n= 2)與PBS組和單獨佐劑組相比(圖6b,c)。這些結果表明,來(lái)自剪接亞型和移碼突變的多肽可以通過(guò)與人類(lèi)白細胞抗原的相互作用激活T細胞反應。
Fig. 6
結論
在這項研究中,作者指出腫瘤中全長(cháng)轉錄組測序對于√確識別被普通轉錄組測序忽略的異常轉錄結構至關(guān)重要。異常剪接亞型顯示出在腫瘤中產(chǎn)生大量新抗原的巨大潛力。從全長(cháng)轉錄組測序中獲得的這些新的轉錄本特征將有助于評估腫瘤免疫治療的結果,當與目前僅使用基因組突變的指標結合使用時(shí),這可能會(huì )提高免疫治療應答預測的準確性。
關(guān)于百邁客
好的測序數據要配上專(zhuān)業(yè)的分析團隊才能讓故事敘述的更加完美,百邁客研發(fā)團隊就是這樣一個(gè)專(zhuān)業(yè)的團隊。