中文名: 通過(guò)全長(cháng)轉錄組對斑馬魚(yú)轉錄組進(jìn)行高分辨率注釋
英文名: High resolution annotation of zebrafish transcriptomeusing long-read sequencing
雜志:Genome Research 2018 09
影響因子:10.101
研究背景
斑馬魚(yú)是一種重要的模式生物,已被廣泛用于胚胎發(fā)育等多方面研究。斑馬魚(yú) 發(fā)育的第一階段完全由母系提供的 mRNA 和蛋白質(zhì)指導,隨著(zhù)胚胎發(fā)育的進(jìn)行,發(fā)育由母 源因子控制轉為由合子基因產(chǎn)物控制。這一過(guò)程中,母源因子逐漸清除,合子基因組激活 (ZGA)并開(kāi)始轉錄。目前通過(guò)轉錄組 RNA-seq 技術(shù)對早期胚胎發(fā)生過(guò)程取得了大量的研究 成果,但是由于短讀長(cháng) RNA-seq 技術(shù)的局限性,對斑馬魚(yú)轉錄組的相關(guān)基因注釋和可變剪切 等的研究有很大的不足。而目前出現的長(cháng)讀長(cháng)的三代全長(cháng)轉錄組可以通過(guò)直接讀取全長(cháng)轉錄 本的序列克服這些不足,以揭示早期斑馬魚(yú)轉錄組的其他新穎性和復雜性,從一個(gè)新的角度 對斑馬魚(yú)轉錄組進(jìn)行大量擴展研究和驗證。
材料方法
1、實(shí)驗材料:選擇斑馬魚(yú)受精卵,通過(guò)形態(tài)學(xué)標準進(jìn)行分期,鑒定胚胎前期(256 細 胞期)和后 ZGA 期(6hpf)。通過(guò)注射 0.2nmol 的 RNA 聚合酶抑制劑α-鵝膏毒素來(lái)處理 1 至 4 個(gè)細胞的胚胎獲得處理組。
2、轉錄組測序:未處理組的胚胎選取胚胎前期和后 ZGA 期胚胎進(jìn)行轉錄組測序,每個(gè) 時(shí)期 3 個(gè)生物學(xué)重復。
3、全長(cháng)轉錄組測序:選取正常的胚胎和 RNA 聚合酶抑制劑α-鵝膏毒素處理的胚胎進(jìn) 行三代全長(cháng)轉錄組測序。
研究結果
1、試驗系統的設計與全長(cháng)轉錄組數據概況
將雜交得到的斑馬魚(yú)胚胎通過(guò)形態(tài)學(xué)標準進(jìn)行分期,將經(jīng)過(guò)α-amanitin 處理以及未經(jīng)處 理的胚胎分別轉錄組和全長(cháng)轉錄組測序。使用 Iso-Seq pipeline 將得到的長(cháng)片段的全長(cháng)轉錄 組數據進(jìn)行聚類(lèi)和組裝得到全長(cháng)轉錄本。為評估全長(cháng)轉錄組數據將得到的轉錄本數據庫 通過(guò) GMAP 與斑馬魚(yú)參考基因組(GRCz10)數據進(jìn)行比對,發(fā)現 18,777 個(gè)轉錄本成功比對,僅有 3.6%的數據無(wú)法比對,而轉錄組數據中至少 20%的數據無(wú)法比對。
將全長(cháng)轉錄組得到的轉錄本通過(guò) Cuffcompare 軟件進(jìn)行注釋分析,發(fā)現 4767 個(gè)轉錄本 (25.4%)與注釋完全匹配;9500 個(gè)轉錄組(50.6%),可能代表新的轉錄本,其中 4205 個(gè) 轉錄本(22.4%)是新轉錄本(NTR),與參考注釋沒(méi)有重疊;5295 個(gè)轉錄本(28.2%)為先 前注釋基因的未發(fā)現轉錄本;2778 個(gè)轉錄本(14.8%)為連續注釋外顯子集合;1732 個(gè)轉 錄物(9.2%)被認為來(lái)源于難以產(chǎn)生轉錄本的區域,暫時(shí)不予考慮。
2、新型轉錄區域的鑒定
為了對新發(fā)現的轉錄本進(jìn)行分析,文章將短讀長(cháng)轉錄組中的數據比對到加入了全長(cháng)轉 錄組的參考基因組數據庫,發(fā)現在未經(jīng)處理和α-amanitin 處理的樣品中通過(guò)全長(cháng)轉錄組發(fā) 現的超過(guò) 2000 個(gè)主要不重疊的新轉錄本中分別有 89%和 86%有轉錄組數據支持。并且發(fā) 現,在高表達的基因中,短讀長(cháng)轉錄組數據的外顯子比對率從從 68%提高到了到 85%。通 過(guò) CPAT 對新發(fā)現轉錄本進(jìn)行編碼潛能預測,在 4205 個(gè)新型轉錄本中,3255 個(gè)序列具有高 編碼潛力的,使用 Pfam 的驗證結果也基本類(lèi)似。利用這些數據我們鑒定到了一個(gè) H2AFX 新 的轉錄本僅在處理后的樣本中出現,HIST2H2BE 基因的新鑒定到的轉錄本僅在未處理的贗本中出現。
3.新轉錄本編碼潛能預測
通過(guò) CPAT 對新發(fā)現轉錄本進(jìn)行編碼潛能預測,在 4205 個(gè)新型轉錄本中,3255 個(gè)序 列具有高編碼潛力的,使用 Pfam 的驗證結果也基本類(lèi)似。利用這些數據我們鑒定到了一個(gè) H2AFX 新的轉錄本僅在處理后的樣本中出現,HIST2H2BE 基因的新鑒定到的轉錄本僅在未處 理的贗本中出現。
對于非蛋白質(zhì)編碼的 NTR,通過(guò) Rfam 數據庫進(jìn)行鑒定和注釋?zhuān)b定了 76 個(gè)與 Rfam 數 據庫相匹配的轉錄本,發(fā)現了一個(gè)與 Rfam 數據庫中的 mir-548 相匹配的轉錄本,該轉錄本 在α-amanitin 處理的樣本中特異表達,推測它主要存在于母源 RNA 中。
在所有新鑒定到轉錄本中,通過(guò)合格的篩選和注釋標準,總共鑒定到了 2278 個(gè)新的具 有蛋白質(zhì)編碼能力的轉錄本,261 種新的非編碼的轉錄本,些新注釋的序列將有助于研究它 們在 ZGA 和早期發(fā)育中的作用。
4.已注釋基因的新轉錄本分析
作者接著(zhù)對全長(cháng)轉錄組對已注釋基因鑒定到的未記錄的轉錄本的可變剪切形式的研究。 由于斑馬魚(yú)參考基因組對可變剪切的注釋較少,文章使用短讀長(cháng)的轉錄組數據對可變剪切位 點(diǎn)進(jìn)行驗證。作者使用 STAR 軟件分析轉錄組數據,預測了 3000 個(gè)可變剪切位點(diǎn),其中 99% 可以與全長(cháng)轉錄本數據吻合。剪接位點(diǎn)的這種近乎完美的一致性支持證明了全長(cháng)轉錄組鑒定 的外顯子 – 內含子邊界的準確性,并強烈支持新檢測到的可變剪接形式的有效性。通過(guò)全 長(cháng)轉錄組共發(fā)現了 2000 種新型可變剪切類(lèi)型,其中已注釋基因的新型可變剪切共 1835 中, 平均每個(gè)基因的可變剪切類(lèi)型提升 50%。
5.新轉錄本的功能鑒定
通過(guò)全長(cháng)轉錄組鑒定到的大量新轉錄本中包括了一種重要 miRNA- miR-430,mir-430 可能是第一個(gè)表達的合子基因,它通過(guò)對所有母源轉錄基因進(jìn)行的特異性沉默和降解將合子 基因的啟動(dòng)和母體程序的消除連接起來(lái)。在以前的研究中,對其功能研究較多,而對于 miR-430 的來(lái)源研究較少。作者鑒定到了一個(gè)新的跨越 9kb 基因組序列的四外顯子轉錄本, 該轉錄本重疊 22 個(gè) mir-430 重復序列,被稱(chēng)為“mega-mir-430”。 在α-amanitin 處理中沒(méi) 有檢測到 mega-mir-430,并通過(guò) qPCR 進(jìn)行了驗證,推斷它來(lái)源于合子基因組。從每個(gè) mega-mir-430 轉錄本產(chǎn)生多個(gè) mir-430 的拷貝,這個(gè)發(fā)現解釋了合子基因激活時(shí) mir-430 高表達的原因。
小結
作者通過(guò)全長(cháng)轉錄組對斑馬魚(yú)的轉錄信息進(jìn)行了更加全面和深入的分析,利用三代全 長(cháng)轉錄組和二代轉錄組大大提高了斑馬魚(yú)轉錄組注釋的分辨率,同時(shí)為分析基因復雜的可變 剪切形式提供了有力的研究工具,證明了全長(cháng)轉錄組對于斑馬魚(yú)合子基因激活的研究的具有 重要推動(dòng)作用。