英文題目:Transcriptome landscape of the developing olive fruit fly embryo delineated by Oxford Nanopore long-read RNA-Seq
中文題目:利用OxfordNanopore長(cháng)讀長(cháng)RNA-Seq對發(fā)育中橄欖果蠅胚胎的轉錄組學(xué)研究
研究背景
橄欖果蠅或橄欖蠅(Bactroceraoleae)是栽培橄欖樹(shù)主要的害蟲(chóng),像所有的昆蟲(chóng)一樣,橄欖蠅會(huì )完全變態(tài)。然而,尚未探索早期胚胎發(fā)育過(guò)程中發(fā)生的轉錄動(dòng)力學(xué),而在沒(méi)有完全注釋的基因組的情況下進(jìn)行詳細的轉錄組學(xué)分析具有挑戰性。收集發(fā)育前6個(gè)小時(shí)每小時(shí)的橄欖蠅胚胎進(jìn)行ONT測序,每個(gè)時(shí)間點(diǎn)獲得3100萬(wàn)reads,與橄欖蠅基因組比對效率在98%,全長(cháng)覆蓋率大于50%,在發(fā)育的前六個(gè)小時(shí)中檢測到68%的預測的基因的表達。鑒定了3553個(gè)新基因和共79,810個(gè)轉錄本,與NCBI預測的轉錄組相比,轉錄組多樣性增加了四倍。胚胎發(fā)育的前六個(gè)小時(shí)的特征在于顯著(zhù)的轉錄組變化,每個(gè)胚胎的轉錄物總數從胚胎發(fā)育的第一小時(shí)到第二小時(shí)降至一半?;跁r(shí)間共表達的基因聚類(lèi),在胚胎發(fā)育的前六個(gè)小時(shí)表達的基因的基因集富集分析顯示參與轉錄和翻譯,大分子生物合成和神經(jīng)發(fā)育的基因高度富集??傊?,cDNA分子的全長(cháng)測序詳細表征同種型復雜性和B.oleae的第一胚胎階段的轉錄動(dòng)力學(xué)。
結果分析
1、目前B.oleae基因組組裝和基因組注釋
橄欖蠅有六對染色體,其中包括一對異色性染色體,雄性為異性性染色體,最初通過(guò)qPCR估計B.oleae基因組大小在322Mb左右。作者之前提交過(guò)一版本基因組,該注釋包含總共13936個(gè)基因和假基因,其中,分別被預測為蛋白質(zhì)編碼13198,非編碼392和假基因346。此外,預測2,759個(gè)基因具有可變剪接。而基因和轉錄本的平均長(cháng)度分別為9,597bp和2,259bp,長(cháng)的基因為497,921bp,而長(cháng)的轉錄本為59,475bp。
2、橄欖蠅的轉錄組測序鑒定出新的基因和亞型
作者獲得了3100萬(wàn)次reads,其中使用Canu對2200萬(wàn)reads(71%)進(jìn)行了錯誤糾正,只關(guān)注全長(cháng)reads,通過(guò)確定為具有5’引物和poly(A)和3’引物的序列全長(cháng)序列。ToFU轉錄組結果包含總共11,883個(gè)基因和79,810個(gè)亞型(表北京百邁客生物科技有限公司1),其中8330個(gè)基因與NCBI注釋基因匹配,而3553個(gè)基因是新的。所有這些都對應于橄欖蠅轉錄組在同種型水平上比當前NCBI注釋的四倍擴增。針對UniprotSwiss-prot數據庫的預測蛋白質(zhì)序列的搜索顯示高比對的是雙翅目,其次是哺乳類(lèi)動(dòng)物(圖1B)。盡管鑒定了3553個(gè)新基因,但預計只有269個(gè)含有開(kāi)放閱讀框。與注釋基因相比,超過(guò)50%的新基因是單外顯子,其中超過(guò)80%的基因是多外顯子并且還包含更高百分比的單同種型基因。且新基因的表達量要低于已注釋基因。在結構上,SQANTI根據其剪接點(diǎn)和基因組坐標將轉錄本分為9類(lèi),分別為FSM,ISM,NIC,NNC,基因組基因,反義,融合,基因間區和基因內含子(圖1E)。
3、RNA-Seq數據的直接標準化優(yōu)于相對標準化
為了獲得轉錄數,在cDNA合成步驟中以每個(gè)時(shí)間點(diǎn)使用的每個(gè)胚胎數的恒定比率添加ERCC內部加標RNA標準。在測序和比對后,通過(guò)2個(gè)步驟實(shí)現標準化,使用Mandalorion對測序深度進(jìn)行相對標準化,得到每10000個(gè)映射讀數的每個(gè)基因讀數的轉錄本豐度(RP10K),我們注意到我們的RNA標準品的相對標準化豐度隨時(shí)間變化,這很可能是由于胚胎中poly(A)RNA含量的變化(圖2A)。在第二步中,我們使用ERCC標準生成的標準曲線(xiàn)將我們的相對計數轉換為每個(gè)胚胎的計數。在這里,我們注意到ERCC標準并沒(méi)有隨著(zhù)時(shí)間點(diǎn)的不同而發(fā)生顯著(zhù)的變化(圖2B)。有趣的是,與相對表達相反,當所有基因的每個(gè)胚胎的轉錄物的數量相加并在時(shí)間點(diǎn)上繪圖時(shí)(圖2C和D),該譜與每個(gè)胚胎產(chǎn)生的cDNA相似(補充圖4A),因此驗證標準化方法。相鄰時(shí)間點(diǎn)北京百邁客生物科技有限公司顯示出比遠距離時(shí)間點(diǎn)更高的基因表達相關(guān)性,其中連續樣本的Spearman相關(guān)性始終等于或高于0.96。
4、胚胎的總mRNA含量和生物學(xué)重復驗證絕對定量
通過(guò)將每個(gè)胚胎的每個(gè)基因的所有轉錄物相加并計算以毫微克計的當量來(lái)計算每個(gè)胚胎的總mRNA(圖3A),總mRNA在1hpo時(shí)從1.2ng/胚胎下降至2hpo時(shí)為0.61ng/胚胎,然后在3hpo時(shí)增加至1.49ng/胚胎,然后在6hpo采樣結束時(shí)降至0.93ng/胚胎,反映了每個(gè)胚胎的總轉錄本(圖2D)。假設2-5%的總RNA是多腺苷酸化的,mRNA水平與我們在每個(gè)胚胎中獲得的總RNA產(chǎn)量一致。
進(jìn)一步尋求確定觀(guān)察到的表達模式是否可以在不同的生物樣品組中重復并使用實(shí)時(shí)定量PCR(qPCR),這是當前用于量化基因表達的標準方法。然而,qPCR基因表達的相對方法需要鑒定內參基因其表達在樣品間保持穩定。使用作者的數據來(lái)確定這些常見(jiàn)內參基因以及GAPDH的表達水平的變化,評估了3個(gè)基因的qPCR表達;SRY,HID和LINGERER,用RPL19和14-3-3zeta作為內參基因,在不同的生物重復樣品組中(跳過(guò)6小時(shí)時(shí)間點(diǎn))。我們觀(guān)察到類(lèi)似的基因表達趨勢(特別是14-3-3zeta與RPL19相比)。為了進(jìn)一步探索表達譜,我使用差異表達的明顯的基因進(jìn)行主成分分析(PCA)和層次聚類(lèi)分析,第一個(gè)主成分將前3個(gè)時(shí)間點(diǎn)與最后3個(gè)時(shí)間點(diǎn)分開(kāi),分層聚類(lèi)進(jìn)一步表明前3個(gè)和后3個(gè)時(shí)間點(diǎn)是分別共同聚類(lèi)的。
5、母體到受精卵轉變表明胚胎mRNA含量發(fā)生了顯著(zhù)變化
線(xiàn)蟲(chóng),昆蟲(chóng),魚(yú)類(lèi),兩棲動(dòng)物和哺乳動(dòng)物在內的許多后生動(dòng)物的發(fā)育胚胎的特征在于顯著(zhù)的轉錄變化,其中之一是胚胎依賴(lài)從母體到受精卵轉錄物的變化。MZT過(guò)程包括兩個(gè)階段,首先是在卵子發(fā)生過(guò)程中清除大部分母本轉錄本和最初加載到卵母細胞中的蛋白質(zhì),然后開(kāi)始受精卵轉錄。在黑腹果蠅中,MZT已被廣泛研究,胚胎依賴(lài)于母體轉錄本和蛋白質(zhì)直至受精后2-3小時(shí)。然而,在MZT期間,在2hpf結束時(shí),母系編碼的蛋白質(zhì)中有多達20%的母系供應的轉錄物不穩定,而另外15%的母本轉錄本通過(guò)化學(xué)編碼的蛋白質(zhì)3hpf不穩定。黑腹果蠅母系不穩定基因富含細胞周期功能,而母系穩定基因則富含家族保持功能,如代謝,翻譯。
使用我們的時(shí)間進(jìn)程數據來(lái)闡明MZT在B.oleae中的作用機制,這個(gè)過(guò)程在我們所知的范圍之前還沒(méi)有被研究過(guò)。我們在檢測跨時(shí)間點(diǎn)的發(fā)育過(guò)程中每個(gè)胚胎的總mRNA含量時(shí)發(fā)現了一個(gè)有趣的現象(圖3A),與1hpo時(shí)相比,2hpo時(shí)每胚胎的總mRNA下降51%,3hpo時(shí)相比2hpo時(shí)增加143%。實(shí)際上,表達基因的數量在1,2和3hpo之間是相似的,使用時(shí)間進(jìn)程的數據,利用GFOLD在連續時(shí)間點(diǎn)之間進(jìn)行差異表達,GFOLD是為沒(méi)有生物重復的樣品設計的,已顯示GFOLDlog2倍數變化與qPCR確定的倍數變化相關(guān)性較好。使用±0.5的Gfold截止值將基因編碼為上調或下調。確定了1496個(gè)基因,這些基因在2hpo時(shí)比1hpo下調。這些基因富含母體降解的轉錄物,在此稱(chēng)為母體降解的基因。實(shí)際上,在1hpo時(shí),母體降解基因的表達水平高于其他基因的表達水平,與其他基因相比,相同基因在2hpo時(shí)表現出相似的表達水平,表明這些基因不穩定至其他基因的基礎水平。
我們對3個(gè)類(lèi)別基因集進(jìn)行富集分析;母體降解基因,受精卵基因和母體穩定/上調基因。母體降解基因也是1hpo中表達高的基因,富含細胞過(guò)程,發(fā)育和新陳代謝(圖6)。母體降解的基因也富含轉錄因子,例如DREF,BEAF-32A,PNR,它們是相應的果蠅同源基因。類(lèi)似母體降解基因,母體穩定/上調基因在翻譯,生物合成過(guò)程,基因表達,代謝過(guò)程等方面得到豐富,反映了快速生長(cháng)胚胎的高代謝活性,DREF轉錄因子也在這些基因中富集。受精卵基因富含特定的組織形成和發(fā)展過(guò)程,包括:后腸發(fā)育,模式規范,消化道形態(tài)發(fā)生等功能。
6、基于時(shí)間表達動(dòng)態(tài)的基因聚類(lèi)
基因表達是一個(gè)嚴格調控的過(guò)程,在胚胎發(fā)育過(guò)程中,基因表達的時(shí)空動(dòng)態(tài)調控對器官的正常發(fā)育至關(guān)重要?;谄鋾r(shí)間表達動(dòng)力學(xué)的基因聚類(lèi)不僅將表達基質(zhì)的復雜性降低為簡(jiǎn)單的基因集,而且還可以鑒定具有與先前所示相似的生物學(xué)功能的基因。實(shí)際上,我們鑒定了在不同時(shí)間點(diǎn)表達達到峰值的基因,證明了高度動(dòng)態(tài)的轉錄本動(dòng)力學(xué),并表明這些基因在確定的發(fā)育期間具有特定的作用(圖7)。我們進(jìn)一步將這些集群分為3組;1)基因在3hpo達到峰值并且通常隨時(shí)間降低,稱(chēng)為早期基因(圖7A),2)基因,其表達維持3-5hpo,稱(chēng)為中間基因(圖7B和C),和3)基因其表達僅在5和/或6hpo時(shí)增加,稱(chēng)為晚期基因(圖7D)。富集顯示,如先前在母體類(lèi)別的基因中所觀(guān)察到的,早期基因和中間基因在細胞過(guò)程和代謝過(guò)程中富集,而晚期基因在專(zhuān)門(mén)的發(fā)育過(guò)程中富集。
7、長(cháng)讀長(cháng)RNA-Seq完善了基因在性別決定途徑中的注釋
雙翅目昆蟲(chóng)的性別決定機制在很大程度上是相同的,在果蠅(Drosophilamelanogaster)中,性別決定機制已被廣泛研究,性致死基因(sxl)作為主要調節因子,根據性染色體與常染色體的比例,調節本身和變異基因(tra)的性別特異性選擇性剪接。tra反過(guò)來(lái)調節性別特異性雙重性別的選擇性剪接(dsx),這是級聯(lián)的最后一個(gè)成員和性別差異發(fā)育的中介。B.oleae同源物已經(jīng)鑒定了sx1,tra和dsx。然而,主要的調控方式仍然難以捉摸。已經(jīng)提出橄欖蠅的性別決定在胚胎發(fā)育的前6小時(shí)內發(fā)生,并且通過(guò)類(lèi)似于黑腹果蠅中的性別決定機制的tra和dsx的可變剪接來(lái)調控。在轉錄組數據中,我們能夠觀(guān)察到tra和dsx的各種可變剪接。使用來(lái)自成年雄性和雌性頭部的數據來(lái)識別性別特異性亞型。在dsx的情況下,與成齡相比,早期發(fā)育階段的亞型復雜性顯著(zhù)不同。在數據中,看到具有不同轉錄起始位點(diǎn)和長(cháng)度較長(cháng)的亞型,因為在發(fā)育的早期胚胎階段存在突出的亞型(圖8),成齡頭部組織中的這些亞型轉移到較短的亞型中,外顯子4存在于雌性中但不存在于雄性中。由于我們無(wú)法在早期胚胎階段檢測到這些性別特異性亞型,我們認為它們的表達在發(fā)育過(guò)程后期開(kāi)始。然而,它們在后期階段的積累代表了在發(fā)育早期階段激活的性別調控系統。北京百邁客生物科技有限公司。
討論
由于受精卵的興趣和令人費解的性質(zhì),胚胎發(fā)育已在模型生物中廣泛研究。然而,在生物中沒(méi)有很好表征,長(cháng)讀長(cháng)RNA-seq有可能揭示迄今未知的基因,完善注釋信息,并擴展亞型多樣性。作者匯集了混合性別橄欖果蠅(Bactroceraoleae)胚胎,這些胚胎在產(chǎn)卵的前6個(gè)小時(shí)后每小時(shí)收集一次。這些時(shí)期的研究很有意義,因為之前對B.oleae的研究表明,在此期間開(kāi)始通過(guò)基因的可變剪接介導的性別決定機制。此外,來(lái)自地中海實(shí)蠅(Ceratitiscapitata)的證據表明,在此期間發(fā)生極細胞(原始生殖細胞)的建立,因此,在此期間闡明轉錄狀態(tài)非常重要。
作者在轉錄組中包括雄性和雌性頭部以擴展轉錄組數據??偟膩?lái)說(shuō),我們的轉錄分析工作提供了豐富的資源來(lái)識別早期發(fā)育基因和轉錄異構體以及一系列廣泛的可變剪接變體。