文章名稱(chēng):Construction and Annotation of Ascosphaera apis Full-Length Transcriptome Utilizing Nanopore Third-Generation Long-Read Sequencing Technology
發(fā)表期刊:中國農業(yè)科學(xué)
發(fā)表時(shí)間:2020年11月
影響因子:2.302
研究背景
蜜蜂球囊菌(Ascosphaeraapis,簡(jiǎn)稱(chēng)球囊菌)是專(zhuān)性侵染蜜蜂幼蟲(chóng)的致死性真菌病原,引發(fā)的白堊病是長(cháng)期危害養蜂生產(chǎn)的頑疾,不僅可導致蜜蜂幼蟲(chóng)的大量死亡,還能導致成年蜜蜂數量的銳減以及蜂群群勢和蜂產(chǎn)品產(chǎn)量的驟降。目前,球囊菌的基因組注釋信息尚不完善,高質(zhì)量參考轉錄組匱乏,嚴重限制了球囊菌的組學(xué)和分子生物學(xué)研究。
材料和方法
球囊菌菌株由福建農林大學(xué)動(dòng)物科學(xué)學(xué)院(蜂學(xué)學(xué)院)蜜蜂保護實(shí)驗室分離、純化和保存。純化得到的純凈菌絲樣品和孢子樣品經(jīng)液氮速凍后迅速轉移到-80℃超低溫冰箱保存備用。利用納米孔長(cháng)讀段測序技術(shù)對球囊菌的純化菌絲(Aam)和純化孢子(Aas)分別進(jìn)行測序,將高質(zhì)量的三代測序數據混合后用于構建全長(cháng)轉錄組,并通過(guò)比對主流數據庫進(jìn)行功能注釋?zhuān)瑫r(shí)對球囊菌的長(cháng)鏈非編碼RNA(longnon-codingRNA,lncRNA)進(jìn)行鑒定和分析。
結果
1、納米孔測序數據質(zhì)控
球囊菌菌絲和孢子的納米孔測序分別得到6321704和6259727條原始讀段,N50分別達到1094和1157bp,平均長(cháng)度分別為992和1047bp,長(cháng)的長(cháng)度分別為9421和13060bp(表1)。來(lái)源于A(yíng)am和Aas的原始讀段的長(cháng)度分布介于1-10kb以上,其中分布reads數多的長(cháng)度均為1kb(圖1-A、1-B);原始讀段的Q值分布介于Q6-Q15,分布reads數多的質(zhì)量值分別為Q9和Q11(圖1-C、1-D)。

圖1球囊菌菌絲和孢子納米孔長(cháng)讀段測序的原始讀段長(cháng)度和質(zhì)量值分布Fig.1Lengthandqualitydistributionofrawreadsgeneratedfromnanoporelong-readsequencingofA.apismyceliumandspore
2、全長(cháng)轉錄本的鑒定和分析
進(jìn)一步過(guò)濾冗余全長(cháng)有效讀段,分別得到9859和16795條非冗余全長(cháng)轉錄本,N50分別達到1482和1658bp,平均長(cháng)度分別達到1187和1303bp,長(cháng)的長(cháng)度分別為6472和6815bp(表2);上述非冗余全長(cháng)轉錄本的長(cháng)度介于1-7kb,其中分布在1kb的全長(cháng)轉錄本數多。進(jìn)一步對Aam和Aas的非冗余全長(cháng)轉錄本進(jìn)行Venn分析,結果顯示有6512個(gè)非冗余全長(cháng)轉錄本為菌絲和孢子所共有,分別有3347和10283個(gè)非冗余全長(cháng)轉錄本為二者特有(圖2-A)。

圖2球囊菌菌絲和孢子全長(cháng)轉錄本的Venn分析(A)、全長(cháng)轉錄本的Nr數據庫注釋?zhuān)˙)Fig.2Vennanalysisoffull-lengthtranscriptsinA.apismyceliumandspore(A)、Nrdatabaseannotationoffull-lengthtranscripts(B)
3、全長(cháng)轉錄本的數據庫注釋
在球囊菌菌絲和孢子中共鑒定出20142條全長(cháng)轉錄本,數據庫注釋結果顯示,分別有20809、11151、17723、12164、11340和9833全長(cháng)轉錄本可注釋到Nr、KOG、eggNOG、Pfam、GO和KEGG數據庫。注釋全長(cháng)轉錄本數量多的物種是球囊菌、Polytolypahystricis和莢膜組織胞漿菌(Histoplasmacapsulatum)(圖2-B)
4、lncRNA的鑒定及分析
利用CPC、CPAT、CNCI和Pfam4種方法依次鑒定出1906、1682、750和648條lncRNA,四者的交集為648個(gè)(圖3-A);其中基因間區lncRNA(longintergenicRNA,lincRNA)、反義鏈lncRNA(anti-senselncRNA)和正義鏈lncRNA(senselncRNA)的數量分別為480、119和49個(gè)(圖3-B)。

圖 3 球囊菌 lncRNA 的數量(A)和種類(lèi)(B) Fig. 3 Number (A) and type (B) of A. apis lncRNAs
總結
構建和注釋了球囊菌的高質(zhì)量全長(cháng)轉錄組,為探究球囊菌轉錄組的復雜性、完善參考基因組的序列和功能注釋信息以及深入開(kāi)展球囊菌可變剪接體的功能研究提供了關(guān)鍵依據。
深度挖掘數據和拓展
同期作者利用納米孔全長(cháng)轉錄組測序數據對蜜蜂球囊菌(Ascosphaeraapis)和另一蜜蜂真菌病原東方蜜蜂微孢子蟲(chóng)(Nosemaceranae)的現有參考基因組在結構功能注釋上進(jìn)行了較好的完善,同時(shí)也對基因的可變剪接(alternativesplicing,AS)和可變多聚腺苷酸化(alternativepolyadenylation,APA)進(jìn)行解析。通過(guò)gffcompare軟件將全長(cháng)轉錄本與參考基因組注釋的轉錄本進(jìn)行比較,對基因組注釋基因的非編碼區向上游或下游延伸,修正基因的邊界。利用MISA軟件鑒定長(cháng)度在500bp以上的全長(cháng)轉錄本的簡(jiǎn)單重復序列(simplesequencerepeat,SSR)位點(diǎn)信息。使用Blast工具將鑒定到的新基因和新轉錄本比對Nr、KOG、eggNOG、GO和KEGG數據庫,從而獲得功能注釋。通過(guò)Astalavista軟件鑒定基因的AS事件類(lèi)型,統計分析可變剪切的結果。采用TAPISpipeline對基因的APA位點(diǎn)進(jìn)行鑒定,得到APA的位點(diǎn)信息。分別利用CPC、CNCI、CPAT、Pfam4種方法對長(cháng)鏈非編碼RNA(longnon-codingRNA,lncRNA)進(jìn)行預測,取四者的交集作為高可信度的lncRNA。研究結果較好地優(yōu)化了現有的東方蜜蜂微孢子蟲(chóng)和蜜蜂球囊菌參考基因組已注釋基因的結構和功能注釋信息,并補充和注釋了大量參考基因組未注釋的新基因和新轉錄本,同時(shí)也為其他真菌的AS和APA研究提供了有益的思路和方法借鑒。