文章題目:Utilizing PacBio Iso-Seq for Novel Transcript and Gene Discovery of Abiotic Stress Responses in Oryza sativa L.
中文題目:利用Pacbio Iso-Seq測序技術(shù)發(fā)現水稻非生物脅迫下的新轉錄本和新基因
發(fā)表期刊:International Journal of Molecular Sciences
發(fā)表時(shí)間:2020年10月31日
影響因子:4.556
研究背景
全球氣候變化導致高溫、干旱和夜間高溫等非生物脅迫條件的嚴重程度和頻率增加,這些都造成了作物產(chǎn)量的降低。隨著(zhù)世界人口的增長(cháng),植物育種專(zhuān)家面臨著(zhù)開(kāi)發(fā)高產(chǎn)、優(yōu)質(zhì)、減少環(huán)境污染的新品種的艱巨任務(wù)。水稻是世界上一半以上人口的主要卡路里來(lái)源,特別是對亞洲最貧窮的人來(lái)說(shuō)。世界各地的基因庫中保存著(zhù)23萬(wàn)多份水稻及其野生近緣種的廣泛自然遺傳多樣性的種質(zhì)資源,是一種無(wú)價(jià)的可用于作物改良的重要基因庫。
雖然世界上近80%的水稻種植是基于indica(秈稻亞種)品種,但目前的標準基因組及其注釋來(lái)自粳稻亞種Nipponbare。由于缺乏適當的基因組,不同水稻亞種的研究大多都基于Nipponbare基因組。例如,在3000水稻基因組計劃中將測序序列比對到Nipponbare基因組上,丟棄了不能比對到該參考基因組的序列。這可能會(huì )導致非粳稻亞種特有的遺傳信息的丟失。另外,最近已經(jīng)對其它水稻亞種的栽培品種的基因組進(jìn)行了測序,例如indica(Shuhui498,Zhenshan 97, Minghui 63)、aus(Kasalath,N22),但其完整性和注釋程度仍存在差異。值得注意的是aus亞種是抗病、耐磷酸鹽缺失、耐澇、耐厭氧發(fā)育和抗旱等潛在性狀的寶貴基因來(lái)源。例如,在aus品種基因組中發(fā)現了耐磷酸鹽缺失相關(guān)基因OsPSTOL1、耐澇相關(guān)基因OsSNORKEL1/2和OsSUB1A。值得注意的是,這些基因在粳稻的Nipponbare亞種基因組序列中是不存在的。
在過(guò)去的幾年里,RNA測序(特別是基于illumina的短序列RNA-seq)已經(jīng)成為分析轉錄組的有力工具,用來(lái)識別在非脅迫控制和各種環(huán)境脅迫條件下差異表達的基因。然而,需要基于參考基因組或轉錄組序列對RNA-seq數據進(jìn)行比對和注釋來(lái)確定轉錄水平。在水稻中,參考基因組決定了可以鑒別的差異表達基因和轉錄本亞型。顯然,參考基因組/轉錄組中沒(méi)有的基因的表達信息在分析過(guò)程中會(huì )丟失。這在研究耐脅迫的外來(lái)品種、陸地品種或野生稻種時(shí)尤其相關(guān),因為它們可能含有參考品種Nipponbare不存在的耐受基因。這將嚴重限制識別支持作物改良計劃的新候選基因的可能性。
解決這一問(wèn)題的一個(gè)顯而易見(jiàn)的辦法是對所需的基因組進(jìn)行測序、組裝和注釋。但是,這種方法比較昂貴和耗時(shí)。在這篇文章里,我們探索了一種更有針對性的RNA-Seq序列方法來(lái)測序和重建了三個(gè)不同亞種的水稻品種的部分轉錄本作為參考,Pacific Bioscience(PacBio)屬于提供高通量全長(cháng)轉錄本序列的新一代測序方法。該方法已成功應用于對現有植物轉錄本及注釋的探索和擴展,如高粱、小麥、甘蔗、野生棉花、不同的穗型草、苜蓿等。
取樣材料
樣品取自三個(gè)水稻品種的10個(gè)不同亞種的不同組織部位(表1):
分析結果
1.重構轉錄本
使用PacBio Sequel I測序平臺對每個(gè)品種進(jìn)行SMRT測序,得到15.49~24.51GB的轉錄本數據。用IsoSeq3軟件對原始測序數據進(jìn)行ccs和lima處理,每個(gè)品種SMRT cell分別得到460340~736747條全長(cháng)非嵌合序列(full-length non-chimeric reads簡(jiǎn)稱(chēng)FLNC,包含3 ‘ 引物、5 ‘ 引物以及polyA尾)。全長(cháng)非嵌合經(jīng)過(guò)IsoSeq3聚類(lèi)和polish分別得到37951~54684高質(zhì)量轉錄本(HQ)以及1233 ~2170低質(zhì)量轉錄本(LQ)。先將HQ與NCBI核苷酸數據庫進(jìn)行blastn比對(E<=1e-10),再將上一步為比對上的轉錄本序列與NCBI蛋白數據庫進(jìn)行blastx比對(E<=1e-10),去除未比對上兩個(gè)數據庫的轉錄本序列,最終得到37535~54594條HQ用于后續分析(表2)。
Pacbio RSII平臺聲明使用RNA-seq二代測序數據對轉錄本數據進(jìn)行矯正,可以得到更多的HQ序列,因為L(cháng)Q序列中含有大量的插入和缺失。然而與RSII相比,PacBio Sequel I測序平臺的測序結果更好。為了驗證這一結果,我們用minimap2將未矯正的HQ比對到相應亞種的基因組,結果表明缺失的比例很小,所以進(jìn)一步的分析中沒(méi)有包含LQ序列。
2.轉錄本去冗余
在文庫準備過(guò)程中,會(huì )產(chǎn)生5 ‘ RNA降解產(chǎn)物,并進(jìn)行測序。這些降解產(chǎn)物具有相同的外顯子結構,但缺乏5 ‘序列信息,因此產(chǎn)生與技術(shù)偏差或生物學(xué)背景無(wú)關(guān)的冗余異構體。我們測試了三種不同的去冗余方法,包括cogent、cDNA cupcake和TAMA,其中cDNA cupcake和TAMA需要基于參考基因組,而cogent不需要基于參考基因組。cogent基于pacbio全長(cháng)轉錄本序列重構一個(gè)參考基因組,然后將相同的序列比對到重建的基因組,基于比對結果利用cDNA cupcake算法對轉錄本去冗余。cDNA cupcake和TAMA直接用minimap2軟件和各自的亞種參考基因組進(jìn)行比對?;谶@三種方法,只有很少的轉錄本不能回比到基因組上(表3)??偟膩?lái)說(shuō),這三種去冗余方法均能顯著(zhù)減少異構體的數量,分別為47.6% (cDNA cupcake,Nipponbare)和68.3%(cogent,Dular)。
基于植物中430個(gè)高度保守的同源蛋白利用BUSCO軟件對TAMA算法去冗余前后的HQ進(jìn)行完整性評估(圖一),由于取樣不完全,缺失了54%~27%的重要蛋白,其中Nipponbare參考基因組(IRGSP)只缺失了6種。cDNA cupcake和TAMA的結果相似,而對于cogent,超過(guò)50%的蛋白缺失,最有可能的原因是轉錄本沒(méi)有回比到重建的基因組。
去冗余后轉錄本長(cháng)度中值都有所增長(cháng),長(cháng)度分布和轉錄本長(cháng)度中值與Nipponbare參考基因組相似。統計了去冗余后10個(gè)品種每個(gè)基因相應的轉錄本數量,其中基因只有一個(gè)轉錄本的比例,TAMA最高達到了75%,cDNA cupcake在60%左右,cogent只有50%。同時(shí)計算了Nipponbare參考基因組每個(gè)基因對應的轉錄本數量進(jìn)行比較,該參考基因中基因只有一個(gè)轉錄本的比例達到了85%(圖2)。
來(lái)自同一亞種的不同品種親緣關(guān)系更近,我們使用系統發(fā)育樹(shù)評估亞種之間的遺傳距離。利用去冗余后的轉錄本序列基于Nipponbare參考基因組識別SNPs,使用SNPhylo繪制進(jìn)化樹(shù)(圖3)。SNPhylo提取高質(zhì)量并且具有代表性的SNPs進(jìn)行后續分析,cDNA cupcake算法大約30000個(gè)SNPs,cogent算法大約23200個(gè)SNPs,TAMA算法大約16000個(gè)SNPs。三種方法中,同一亞種的不同品種聚類(lèi)在了一起,cDNA cupcake算法和cogent的聚類(lèi)結果更相似。三種方法均能將aus與另外兩個(gè)亞種區分開(kāi),但cogent和TAMA對indica和japonica種間的區分不如cDNA cupcake明顯。
3.評估重構的轉錄本
基于TAMA算法得到的HQ進(jìn)行轉錄本的評估。由于TAMA只對比對到參考基因組上的轉錄本進(jìn)行去冗余,我們用cogent對沒(méi)比對上參考基因組的轉錄本進(jìn)行去冗余。合并結果后,每個(gè)品種最終得到10511(Dular)~15011(IR64)個(gè)基因,14255(Dular)~20803(Moroberekan)個(gè)轉錄本(表4)。與Nipponbare參考基因組相比,大約三分之一的基因位點(diǎn)和大約一半的轉錄模型被重建。每個(gè)品種每個(gè)基因的平均轉錄數約為1.4~1.5,略高于參考基因組的1.2。中位轉錄本長(cháng)度為986 bp(Dular)~1394 bp(Nipponbare),與Nipponbare參考值1385 bp相似。平均GC含量在50.87%(Dular)~52.76%(IR64),與Nipponbare參考值51.24%相似。利用gffcompare軟件與Nipponbare參考基因組進(jìn)行比較識別新基因與轉錄本。
4.功能注釋
為了深入了解重建轉錄本的生物學(xué)信息,我們進(jìn)行了功能注釋。使用TransDecoder軟件預測開(kāi)放閱讀框(ORFs),包括blast和PFAM,結果表明大約有60%~70%的完整ORFs(包括啟動(dòng)和終止密碼子)。此外還發(fā)現了26%~38%的5 ‘ ORF、很少比例的3 ‘ ORF和中間ORF(既沒(méi)有起始密碼子也沒(méi)有終止密碼子)(圖4)。
使用Trinotate和Mercator4進(jìn)行功能注釋。Mercator4是專(zhuān)門(mén)為植物開(kāi)發(fā)的,它使用了一種簡(jiǎn)單的層次樹(shù)結構,被稱(chēng)為“容器”,用來(lái)描述生物學(xué)概念。主要的生物過(guò)程如光合作用,都是由頂層的容器來(lái)表示的,每個(gè)子容器描述的是一個(gè)更詳細的子過(guò)程。目前本體包括27個(gè)功能類(lèi)別,代表了植物中不同的生物過(guò)程。N22、IR64和Nipponbare三個(gè)品種作為各自亞種的代表與植物中所有水稻基因的分類(lèi)進(jìn)行比較分析,結果顯示三個(gè)品種的注釋結果分布相似(圖5)。超過(guò)28000個(gè)水稻已知基因在Mercator庫中沒(méi)有注釋分類(lèi)信息,因此三個(gè)品種有8000~10000個(gè)轉錄本沒(méi)有分類(lèi)注釋到Mercator庫。
5.品種間共有和特有的轉錄本
為了鑒定品種特異性轉錄本,以N22、IR64和Nipponbare三個(gè)品種的轉錄本作為blast比對庫,其它9個(gè)品種與其進(jìn)行比對(圖6)。識別到N22特有轉錄本652個(gè),IR64特有轉錄本2426個(gè),Nipponbare特有轉錄本349個(gè)。
6.aus特有轉錄本的差異表達分析
aus品種N22特別抗旱和耐熱脅迫,因此我們想知道在這些條件下是否有aus特異轉錄本受到調控。以N22為研究對象,分析干旱和熱脅迫下差異表達的基因。利用從發(fā)育種子中分離的RNA進(jìn)行Illumina測序,將測序數據回比到重構的N22轉錄本。使用DESeq2基于參數FDR<0.1和|log2FC|>=1軟件識別出56個(gè)aus特異的差異表達基因。這56個(gè)差異基因進(jìn)行blast比對,其中46%比對上擬南芥,27%沒(méi)有任何注釋信息,11%僅描述了一個(gè)PFAM域或與其它植物物種的序列同源,而在水稻中僅有5%已知同源基因。
舉個(gè)例子,在高溫和干旱雙重脅迫下顯著(zhù)上調的基因B12288。它在japonica和indica中均有同源基因RAB21,這個(gè)基因受干旱的誘導,其編碼的蛋白屬于LEA脫氫蛋白家族。與水稻其它脫氫蛋白進(jìn)行多序列比對研究(圖7),N22實(shí)際上的基因與野生稻、O. sativa ssp. japonica中其它4種脫氫酶的親緣關(guān)系密切。序列覆蓋率為89.5%,序列同源性86.0%,其中包含脫氫酶高度保守的重復區。相比japonica蛋白,N22蛋白序列與野生稻更接近。
總結
本文主要探討了Pacbio Iso-Seq獲得的轉錄本相比于Nipponbare參考基因組是否可以用于aus等水稻亞種的下游分析。此外通過(guò)這些轉錄本,我們希望發(fā)現水稻非生物脅迫下新的轉錄本和基因。我們的分析表明所有品種都可以鑒定出特異的轉錄本,還確定了aus亞種特異的差異表達基因。Pacbio Iso-Seq這種方法適用于其它沒(méi)有基因組或者基因組質(zhì)量不高的物種,相比對基因組組裝,這種方法更省時(shí)便宜。