中文題目:去除血紅蛋白轉錄組后的長(cháng)讀長(cháng)測序完善北極熊轉錄組本注釋
發(fā)表雜志:bioRxiv
評估全血和組織的轉錄組研究常因高度豐富的轉錄本的過(guò)度表達而混淆。這些豐富的轉錄本是有問(wèn)題的,因為它們與稀有RNA轉錄物競爭并阻止其檢測,從而模糊了它們的生物學(xué)重要性。當使用長(cháng)讀長(cháng)進(jìn)行轉錄組分析時(shí),這個(gè)問(wèn)題更加突出,因為與短讀長(cháng)測序相比,它們的數據產(chǎn)出相對較低。因此,基于長(cháng)讀長(cháng)的轉錄組分析對于非模式生物來(lái)說(shuō)性?xún)r(jià)比極地。雖然有現成的試劑盒可用于選定的模式生物,它們能夠消耗大量的(HBA)和(HBB)血紅蛋白轉錄本,但不適用于非模式生物。為了解決這個(gè)問(wèn)題,本研究采用了crispr/cas9基因耗盡法(通過(guò)雜交消耗大量序列)來(lái)進(jìn)行長(cháng)序列的全長(cháng)cDNA測序,本研究稱(chēng)之為L(cháng)ong-DASH。使用具有適當引導RNA的重組Cas9蛋白,在進(jìn)行短期和長(cháng)期測序文庫準備之前,可以在體外耗盡全長(cháng)的血紅蛋白轉錄本?;诖耸褂帽狙芯康呐=蚣{米孔技術(shù)(ONT)為基礎的R2C2長(cháng)讀長(cháng)測序和基于Illumina短讀長(cháng)的Smart-seq2方法并行測序耗盡的全長(cháng)cDNA。為了展示這一點(diǎn),本研究應用本研究的方法從三只北極熊(Ursusmaritimus)的全血樣本中創(chuàng )建了一個(gè)同型水平的轉錄組。使用Long-DASH,本研究成功地消耗了血紅蛋白轉錄體,并產(chǎn)生了深度的Smart-seq2Illumina數據集和380萬(wàn)個(gè)R2C2全長(cháng)cDNAReads。應用Long-DASH和本研究的異構體識別系統,本研究發(fā)現有大約6,000個(gè)高可信度的異構體和一些新的基因。這表明北海熊的基因亞型具有較高的多樣性,目前尚未見(jiàn)報道。這種重復性和直接的方法不僅改進(jìn)了北極熊的轉錄組注釋?zhuān)覍⒆鳛槲磥?lái)研究北極圈19個(gè)北極熊亞種群內轉錄動(dòng)力學(xué)的基礎。
3只北極熊全血樣本(PB3,PB19,PB21)
去除血紅蛋白轉錄本樣本(Crispr/cas9方法);未去除血紅蛋白轉錄本樣本。
nanopore測序,illumina測序
1.基于Long-DASH方法從全長(cháng)cDNA中消化血紅蛋白轉錄本
采用改進(jìn)的Smart-seq2方法逆轉錄和擴增3只北極熊(PB3,PB19,PB21)70ng全血RNA的全長(cháng)cDNA。然后,本研究對血紅蛋白轉錄本進(jìn)行了靶向性的耗竭,方法是針對HBA轉錄本和針對HBB轉錄本的8個(gè)sgRNAs將cas9蛋白與血紅蛋白轉錄本-8sgrn特異的16種導向RNA(SgRNAs)共同孵育成全長(cháng)的cDNA。
在2%瓊脂糖凝膠上觀(guān)察到已去除或未去除的血紅蛋白轉錄本cDNA。實(shí)際上,在任何損耗之前,本研究在瓊脂糖凝膠中觀(guān)察到位于700-800bp的非常強的條帶,這表明存在大量的HBA和HBB血紅蛋白轉錄本(圖2)。經(jīng)過(guò)耗盡,再擴增和大小選擇,全長(cháng)cDNA產(chǎn)物再次可視化顯示假定的血紅蛋白條帶的去除(圖2)。在確認血紅蛋白耗盡之后,這個(gè)cDNA就可以轉換成基于ONT和illumina的文庫,每個(gè)方案都使用相同的cDNA。
2.Long-dash與Smart-seq2文庫制備相容,且不改變cDNA組成
接下來(lái),本研究的目標是驗證Long-DASH是否真正消耗了cDNA池中的血紅蛋白轉錄本,并用Illumina公司的短讀RNA-seq測序平臺驗證。為了說(shuō)明這一點(diǎn),本研究為每個(gè)去除的和未去除cDNA樣本混池準備了獨立的基于Tn5的Smart-seq2文庫。然后,本研究在一個(gè)復合IlluminaHiSeqx2x151bp運行測序Smart-seq2。去除血紅蛋白轉錄組本樣本產(chǎn)生了大約2000萬(wàn)reads,未去除的樣本產(chǎn)生了大約6000萬(wàn)reads。通過(guò)未去除樣本進(jìn)行高深度測序,本研究推斷,在去除樣本和未去除樣本中,非血紅蛋白基因獲得同等的讀取覆蓋率。這使本研究能夠對去除樣本和未去除樣品進(jìn)行并排比較,以確保沒(méi)有偏離目標的影響。
首先,本研究使用基于kmer的方法分析測序結果數據,以估計來(lái)自血紅蛋白轉錄本的讀數。在未耗盡的cDNA池中,48-68%的reads被評分為起源于血紅蛋白轉錄本。在耗盡的樣品中,這種讀數減少到1-4%(圖3A)。
其次,為了證明血紅蛋白轉錄本的減少并沒(méi)有改變cDNA池的其余部分,本研究將reads與北極熊的基因組對齊,并量化了所有之前注釋過(guò)的基因的表達?;虮磉_量化表明,整體基因表達模式之間沒(méi)有明顯扭曲消耗和未消耗的樣本。比較去除樣本和未去除樣本的基因表達值,剔除與血紅蛋白基因位點(diǎn)一致的讀數,三個(gè)北極熊樣本的Pearsonr值為0.97-0.98(圖3B)。如果在分析中包括與血紅蛋白位點(diǎn)對齊的讀數,那么在未去除的樣本中與少數血紅蛋白位點(diǎn)對齊的大量讀數會(huì )扭曲RPM計算并改變整體相關(guān)性(圖3C)??偟膩?lái)說(shuō),這表明去除全長(cháng)cDNA北京百邁客生物科技有限公司的血紅蛋白是成功的,從而釋放了絕大多數的測序讀數來(lái)分析北極熊的其余轉錄組。
3.Long-DASH與全長(cháng)cDNA測序方法兼容
在建立了Long-DASH與短讀RNA-seq測定的相容性之后,本研究研究了是否可以用本研究的R2C2方法從缺失的cDNA產(chǎn)生一個(gè)長(cháng)reads數據集。通過(guò)合并R2C2,本研究可以使用基于ONT長(cháng)reads序列進(jìn)行自我糾正,產(chǎn)生高準確率的全長(cháng)cDNA讀取。
從一只北極熊身上獲得了大約5,000個(gè)R2C2一致讀取的未耗盡cDNA片段,這使本研究能夠比較耗盡和未耗盡樣本之間的血紅蛋白含量和一致讀長(cháng)度分布(圖4)。在未耗盡的樣本中,大多數R2C2讀數是兩個(gè)不同長(cháng)度的,都在700bp左右,很可能代表了該樣本中血紅蛋白轉錄本的79.3%。5個(gè)缺失樣本的讀長(cháng)度分布更均勻,中位血紅蛋白含量為1.2%(0.6%-8.3%)(圖4)。R2c2的血紅蛋白水平高于Smart-seq2基因文庫使用相同的cDNA(1-4%),這可能與R2C2偏向于500-1000bp之間的轉錄本有關(guān)。去除血紅蛋白轉錄本樣品的中位讀長(cháng)度略低于1kb,與迄今公布的cDNA讀長(cháng)度分布一致。這意味著(zhù),盡管由于現場(chǎng)條件的困難和樣品采集與處理之間的滯后時(shí)間,RNA完整性的條件并不理想,但分析的RNA分子基本上是完整的。
4.去除血紅蛋白樣本的全長(cháng)cDNA的R2C2序列可以提煉轉錄組注釋
接下來(lái),本研究從本研究的全長(cháng)cDNA中生成了高度可信的信息,以完善當前可用的北極熊轉錄組注釋。為此,本研究使用之前開(kāi)發(fā)的Mandalorion管道分析了380萬(wàn)個(gè)R2C2一致讀數。本研究使用minimap2將R2C2基因片段與北極熊基因組序列比對。這些排列,連同先前已知的個(gè)別剪接位點(diǎn),然后作為輸入文件到本研究的Mandalorion管道,讀取高可信度的異構體。然后,本研究使用Squanti算法(33)對這5831個(gè)高可信剪接異構體進(jìn)行分類(lèi),該算法確定了實(shí)驗確定的異構體與參考注釋中的基因和異構體之間的關(guān)系(圖5)
5831個(gè)亞型中的1239個(gè)異構體被Mandalorion鑒定為新穎非編目”(NNC),這意味著(zhù)它們與一個(gè)已知基因重疊,但至少包含一個(gè)未注釋的剪接位點(diǎn)。對這個(gè)NNC小組的深入分析發(fā)現,它們總共包含521個(gè)新外顯子。1301個(gè)亞型被歸類(lèi)為”目錄中的小說(shuō)”(novelincatalog,NIC),這意味著(zhù)它們與一個(gè)已知基因重疊,只使用帶注釋的剪接位點(diǎn),但至少有一次作為以前未注釋的剪接位點(diǎn)的一部分。本研究總共觀(guān)察到2540(1239NNC和1301NIC)具有未注釋外顯子構型的新異構體??偟膩?lái)說(shuō),這個(gè)分析極大地提高了本研究對全血北極熊轉錄組的同型水平的知識(圖5)。為了使這些知識能夠直接用于未來(lái)的分析,本研究生成了一個(gè)包含了與r2c2/mandalorion異構體合并的RefSeqmRNA條目的gtf注釋文件。
這些新的等形式和等形式特征如何改進(jìn)了現有的注釋可以在下面的三個(gè)例子中清楚地看到。在RBX1基因中,本研究發(fā)現了10個(gè)包含多個(gè)TSSs和polyA位點(diǎn)的新亞型,其中一些與新的末端第一外顯子或末端外顯子有關(guān)(圖6A)。在GMFG基因中,本研究同樣發(fā)現了包含未注釋的內部外顯子和末端外顯子、內含子保留事件、TSSs和polyA位點(diǎn)的新異構體(圖6B)。最后,本研究發(fā)現了一個(gè)新的基因位點(diǎn),該位點(diǎn)包含兩個(gè)亞型,在北極熊RefSeq信使核糖核酸集中完全缺失。然而,將這兩種異構體與熊貓基因組(35)對齊導致了與CCDC72基因的獨特匹配(圖6C)。
為了更好地理解人類(lèi)和環(huán)境的擾動(dòng)如何影響受威脅或瀕危物種,了解轉錄組動(dòng)態(tài)的變化是至關(guān)重要的。分子水平和細胞水平的波動(dòng)是環(huán)境變化的敏感指標;它們類(lèi)似于血液轉錄組作為確定健康狀況、疾病和暴露于環(huán)境毒物的代理獸醫學(xué)。轉錄組水平的變化也可能是生態(tài)專(zhuān)門(mén)化的有用指標,因此對設計物種管理和保護的策略也是有用。然而,現有的從全血RNA生成轉錄組數據的方法要么是專(zhuān)門(mén)為短讀測序(DASH)設計的,要么是為人類(lèi)樣本設計的,因此缺乏一種成本效益高的方法來(lái)分析非模式生物的同型轉錄組。
使用短序列或長(cháng)序列研究全血轉錄組的任何研究都將大大受益于長(cháng)序列分析法。有效且經(jīng)濟地從全血全長(cháng)cDNA中刪除血紅蛋白轉錄本,然后用短序列或長(cháng)序列進(jìn)行測序。本研究通過(guò)消耗北極熊全血cDNA池中的血紅蛋白來(lái)驗證北京百邁客生物科技有限公司Long-DASH,并生成了Smart-seq2RNA-seq數據和380萬(wàn)個(gè)R2C2全長(cháng)cDNA一致讀數。本研究處理了380萬(wàn)個(gè)完整的R2C2序列,鑒定了近6000個(gè)高可信度的異構體,然后用這些異構體對北極熊全血轉錄組注釋進(jìn)行了提煉和改進(jìn)。
]]>