隨著(zhù)高通量測序技術(shù)的發(fā)展,轉錄組測序已經(jīng)成為研究基因表達調控的主要手段。二代測序技術(shù)通量高,更多的關(guān)注基因表達量,然其局限性在于測序讀長(cháng)短,轉錄本產(chǎn)生拼接錯誤,導致轉錄本結構不完整。生物體內復雜多變的轉錄本是調節基因表達和蛋白質(zhì)多樣性的重要機制,準確鑒定轉錄本結構,是深入研究基因表達調控模式的基礎。
全長(cháng)轉錄組研究可全面快速的獲取有參或無(wú)參物種特定組織或器官在某一狀態(tài)下的全長(cháng)轉錄本信息,構建轉錄本基因集。相較于RNA-seq,基于Nanopore三代測序平臺的轉錄組研究,無(wú)需打斷,直接讀取5’ 端到3’-PolyA的高質(zhì)量完整轉錄本,準確鑒定可變剪接、新基因/新異構體、可變多聚腺苷酸化、融合基因等,完善基因組注釋。此外,Nanopore平臺更擁有Direct RNA測序方式。
那么,使用Direct RNA測序技術(shù),我們能做些什么呢?下面小編帶大家解析一篇新出爐的direc RNA 測序文章
中文題目:使用direct RNA測序技術(shù)對秀麗桿線(xiàn)蟲(chóng)進(jìn)行轉錄組測序
英文題目:The full-length transcriptome of?C. elegans?using direct RNA sequencing
發(fā)表時(shí)間:2019.04.09
發(fā)表期刊:BioRxiv
研究背景
目前絕大多數的轉錄組注釋都是依賴(lài)于cDNA高通量測序固有的短讀長(cháng)測序技術(shù)。線(xiàn)蟲(chóng)的基因組緊湊,注釋良好,細胞譜系穩定,是一種理想的實(shí)驗模型生物。然而,在秀麗桿線(xiàn)蟲(chóng)的轉錄組中,大約有超過(guò)一半的轉錄本缺少全長(cháng)信息的支撐,且依賴(lài)于無(wú)法跨越轉錄本全長(cháng)序列的短reads的預測。同時(shí),利用短讀長(cháng)對polyA和3’UTR進(jìn)行預測,并不能直接鑒定到剪接轉錄本的起始位點(diǎn),且在3’UTR鑒定中,依賴(lài)于將推測的剪接位點(diǎn)分配給最近的重疊或上游基因。相比之下,納米孔測序沒(méi)有理論上的讀取長(cháng)度上限,能夠在單個(gè)分子水平上對轉錄本進(jìn)行一端到另一端的測序。
材料方法
材料:L1、L2、L3、L4、幼年成蟲(chóng)(YA)、成蟲(chóng),雄性線(xiàn)蟲(chóng);每個(gè)時(shí)期兩次技術(shù)重復
方法:20 μg Total RNA,調取約600ng PolyA RNA;GridION平臺,direct RNA sequencing
結果
1、線(xiàn)蟲(chóng)測序數據統計及全長(cháng)轉錄本鑒定
選取線(xiàn)蟲(chóng)發(fā)育的L1、L2、L3、L4、幼年成蟲(chóng)(YA)和成蟲(chóng)時(shí)期,以及雄性成蟲(chóng),其中幼年成蟲(chóng)和成蟲(chóng)雌雄同體,對其進(jìn)行direct RNA測序,每個(gè)時(shí)期兩個(gè)技術(shù)重復。共計獲得5.54M reads,其平均長(cháng)度為739到934 bp,基因組比對率為87.8%。
通過(guò)一系列的篩選標準,最終共計獲得2.9M 全長(cháng)reads。綜合所有階段,最終鑒定到25,944 個(gè)全長(cháng)轉錄本,其中20,987個(gè)轉錄本有唯一的可變剪接形式,16,325個(gè)轉錄本有唯一的3’UTRs ,平均每個(gè)階段鑒定到超過(guò)12,000條全長(cháng)序列。在和線(xiàn)蟲(chóng)數據庫進(jìn)行注釋比對后,有12,613 轉錄本和10,711 個(gè)基因有全長(cháng)數據支持,此外還鑒定到4,234個(gè)新基因和7,404 個(gè)新轉錄本。其中,發(fā)現9,900個(gè)已知可變剪接轉錄本和2,188個(gè)新的可變剪接轉錄本,對應1,349個(gè)基因。在這些新的剪接轉錄本中,有1,283個(gè)轉錄本在注釋的供體和受體剪接位點(diǎn)之間存在新的剪接位點(diǎn),同時(shí)173個(gè)轉錄本還存在新的外顯子。
圖一 全長(cháng)轉錄本測序概述
2、3’UTR鑒定
本文共鑒定到16,325個(gè)唯一的3’UTR轉錄本,在每個(gè)階段均鑒定到超過(guò)10,000 個(gè)3’UTRs。將鑒定到的3’?UTR與已知數據庫進(jìn)行比對,發(fā)現共有82.9% UTRs的重疊。此外,還鑒定到2,304個(gè)新的發(fā)現的3’?UTR。3’?UTR的長(cháng)度會(huì )隨著(zhù)階段的延續,從L1到L4,逐漸變短,在成年線(xiàn)蟲(chóng)中,雄性線(xiàn)蟲(chóng)的3’?UTR要短于雌雄同體的成蟲(chóng),而成蟲(chóng)的 3’?UTR要稍長(cháng)于L4階段的成蟲(chóng),這與前人的報道相反。通過(guò)不同階段多聚腺苷酸化位點(diǎn)統計,發(fā)現在不同階段,其位點(diǎn)不存在顯著(zhù)差異,該結果表明,不同階段3’?UTR的長(cháng)度分布與多聚腺苷化位點(diǎn)無(wú)關(guān)。
?圖二?3’?UTR特征統計
3、PolyA尾預測
研究表明,在黑腹果蠅中,polyA尾的長(cháng)度會(huì )隨著(zhù)發(fā)育階段而呈現出動(dòng)態(tài)變化。而在本文中,通過(guò)對線(xiàn)蟲(chóng)不同時(shí)期polyA長(cháng)度的統計,發(fā)現其變化比較穩定,在幼蟲(chóng)發(fā)育階段,其變化范圍為49nt(L1)到54nt(L2);在成蟲(chóng)發(fā)育階段(幼年成蟲(chóng)、雌雄同體成蟲(chóng)和雄性成蟲(chóng)),其polyA長(cháng)度中位數為58nt,要長(cháng)于幼蟲(chóng)的polyA長(cháng)度(52nt)。該結果表明,在成蟲(chóng)和幼蟲(chóng)之間,polyA的長(cháng)度變化最為顯著(zhù)。將L4階段的polyA長(cháng)度分布與前人研究報道進(jìn)行比較,發(fā)現其長(cháng)度分布非常相似,均在30~40 nt出現峰值,并向較長(cháng)的尾部延伸。
PolyA的長(cháng)度,有可能和3’?UTR區域的polyA剪接位點(diǎn)(AAUAAA)有關(guān)。為了證明該推測,本文對不同polyA剪接位點(diǎn)類(lèi)型(經(jīng)典的、可變的及無(wú)剪接位點(diǎn))的polyA尾進(jìn)行了長(cháng)度統計,發(fā)現不同類(lèi)型間存在顯著(zhù)差異,且3’UTR區域不存在polyA剪接位點(diǎn)的,具有更長(cháng)的polyA尾巴。在3’UTR區域,無(wú)polyA剪接位點(diǎn)的,其polyA長(cháng)度中位數為58 nt,具有可變polyA剪接位點(diǎn)的,長(cháng)度為46 nt;具有經(jīng)典的polyA剪接位點(diǎn)(AAUAAA),其長(cháng)度中位數為48 nt。研究表明,polyA尾的長(cháng)度與基因表達呈現負相關(guān),即高表達的基因具有更短的polyA尾。對本研究數據進(jìn)行統計發(fā)現,在幼蟲(chóng)發(fā)育階段發(fā)現有相似的負相關(guān)關(guān)系。例如,Y37E3.8基因的a轉錄本的表達要顯著(zhù)高于b.1轉錄本,其polyA尾相較于b.1更短。polyA長(cháng)度和基因表達水平的相關(guān)性R2?最高為0.1297。在成蟲(chóng)發(fā)育階段,polyA長(cháng)度和基因表達水平的相關(guān)性并不是很高。該結果表明,基因表達水平和polyA尾長(cháng)度的負相關(guān)性具有階段性。最后,本文研究了polyA長(cháng)度與內含子保留可變剪接事件的相關(guān)性。研究表明,在人類(lèi)細胞系中,polyA尾的長(cháng)度與內含子保留有關(guān)。在本文中,也發(fā)現polyA尾和內含子保留事件呈現正相關(guān)。該結果表明,polyA尾在轉錄后調控存在一種保守機制,即在核轉錄本中,其擁有更長(cháng)的polyA尾,而隨著(zhù)轉移到內質(zhì)網(wǎng)的過(guò)程中,polyA尾會(huì )進(jìn)行脫腺苷化而進(jìn)行轉錄后進(jìn)程。
圖三 PolyA 特征統計
小結
在本研究中,作者更側重于關(guān)注全長(cháng)轉錄本的結構分布,并對其進(jìn)行了詳細描述。從本研究可以看出,使用Nanopore測序平臺進(jìn)行direct RNA測序,借助其長(cháng)讀長(cháng)優(yōu)勢,可準確鑒定轉錄本的結構信息。此外,Nanopore平臺還擁有cDNA測序方式(橄欖果蠅胚胎發(fā)育的動(dòng)態(tài)變化解析),多種建庫方式,可滿(mǎn)足不同的研究需求。
?