四川大學(xué)華西第二醫院陳路老師團隊在《Scientific data》(6.444)在線(xiàn)發(fā)表了研究成果。該研究構建了小鼠的長(cháng)期和短期造血干細胞(HSC)和多能祖細胞(MPP)在批量和單細胞水平上的短讀長(cháng)和長(cháng)讀長(cháng)RNA測序數據集,數據結果證明了整合短讀長(cháng)和長(cháng)讀長(cháng)測序可以促進(jìn)已知和未注釋異構體的識別和定量。本文為不同HSC細胞類(lèi)型內轉錄多樣性和異質(zhì)性的全面分析和比較研究提供了基礎。百邁客為該研究提供了ONT三代長(cháng)讀長(cháng)測序服務(wù)。三代測序平臺的轉錄組研究,無(wú)需打斷,直接讀取反轉錄的全長(cháng)cDNA,能夠有效的獲取高質(zhì)量的單個(gè)RNA分子的全部序列,辨別二代測序無(wú)法識別的同源異構體(isoform)、同源基因、超家族基因或等位基因表達的轉錄本。ONT三代測序其優(yōu)點(diǎn)有通量更高、操作過(guò)程更簡(jiǎn)單、成本更低,主要應用在基因組測序、甲基化研究、突變鑒定(SNP檢測)三個(gè)方面。
英文名稱(chēng):Short-read and long-read RNA sequencing of mouse hematopoietic stem cells at bulk and single-cell levels
中文名稱(chēng):在批量和單細胞水平上對小鼠造血干細胞進(jìn)行短讀長(cháng)和長(cháng)讀長(cháng)RNA測序
發(fā)表雜志:Scientific data
影響因子:6.444
發(fā)表時(shí)間:2021年11月
摘 要
造血干細胞(HSC)位于分化層次的頂端。盡管HSC及其直接下游的多能祖細胞(MPP)具有完全的多向分化能力,但只有長(cháng)期(LT-)HSC具有長(cháng)期自我更新的能力。隨著(zhù)單細胞RNA測序和譜系追蹤技術(shù)的發(fā)展,HSC群體內的異質(zhì)性逐漸得到承認。轉錄和轉錄后的調控在控制HSC群體內的分化和自我更新能力方面發(fā)揮著(zhù)重要作用。
在這里本文報告了一個(gè)數據集,該數據集包括小鼠長(cháng)期和短期HSC和MPP在批量和單細胞水平上的短讀長(cháng)和長(cháng)讀長(cháng)RNA測序。數據結果證明了整合短讀長(cháng)和長(cháng)讀長(cháng)測序可以促進(jìn)已知和未注釋異構體的識別和定量。因此,該數據集為不同HSC細胞類(lèi)型內轉錄多樣性和異質(zhì)性的全面和比較研究提供了基礎。
背景介紹
造血始于一群自我更新的造血干細胞 (HSC),它們產(chǎn)生一系列越來(lái)越多的譜系定型祖細胞,最終產(chǎn)生各種類(lèi)型的成熟血細胞。在傳統模型中,長(cháng)期(LT)HCS分化為短期(ST) HSC,隨后分化為多能祖細胞(MPP)。雖然這三個(gè)群體都具有完全的多向分化能力,但它們逐漸失去了自我更新能力。在HSC和MPP群體中都存在異質(zhì)性,具有明顯的譜系偏差。
轉錄和轉錄后的調控在平衡造血干細胞的結構性和低水平周轉、下游分化和造血重建方面都是關(guān)鍵。在多細胞生物中,可變剪接是一種關(guān)鍵的轉錄后調控機制,可以擴大轉錄本的多樣性。越來(lái)越多的研究表明,在造血過(guò)程中,可變剪接模式是必不可少的。例如,在血液祖細胞或巨核細胞和紅細胞譜系中鑒定到的特異性可變剪接事件。研究發(fā)現,關(guān)鍵造血調節因子(如HMGA2)的可變剪接模式影響了造血干細胞的分子鑒定。此外,異常AS是包括白血病等各種癌癥的標志物。
利用短讀長(cháng)下一代測序(NGS)或長(cháng)讀長(cháng)測序(如PacBio和Oxford Nanopore Technologies)的RNA測序,是解讀包括血細胞生成在內的各種生物過(guò)程中的轉錄多樣性和調控機制的強大工具。雖然NGS在表達定量方面更可靠,但是短讀長(cháng)在A(yíng)S事件中只能提供有限的信息。相比之下,長(cháng)讀長(cháng)的測序方法提供了一個(gè)獨特的機會(huì ),可以實(shí)現在提供全長(cháng)信息的基礎上檢測可變剪接異構體。本文使用短讀長(cháng)和長(cháng)讀長(cháng)RNA測序,在批量和單細胞水平上對小鼠HSC和MPP進(jìn)行了全面的轉錄圖譜分析。
材料方法
樣本制備:8-9周的雌性成年C57BL/6 J 小鼠,從股骨和脛骨中分離骨髓細胞。首先使用小鼠造血干細胞分離試劑盒富集造血干細胞和祖細胞(HSPC)。長(cháng)期(LT)和短期(ST)造血干細胞(HSC)和多能祖細胞(MPP)根據其表面標志物進(jìn)行分選。對于單細胞RNA測序(scRNA-seq),將細胞單獨分選到含有裂解緩沖液的8條PCR管中。同時(shí)對于批量RNA-seq,分選100個(gè)細胞(P100)到一個(gè)PCR管中作為生物學(xué)重復。
實(shí)驗方法:按照Smart-seq2實(shí)驗流程構建cDNA 文庫,基于Illumina平臺、Pacbio平臺和Oxford Nanopore Technologies(ONT)(百邁客協(xié)助完成該測序服務(wù))平臺測序。

圖1?實(shí)驗設計及樣本制備流程
技術(shù)驗證
- ?短讀長(cháng) Illumina 測序數據的質(zhì)控
無(wú)論是單細胞(圖2a)還是批量細胞的水平上(圖3a),在不同細胞類(lèi)型的樣本中,每個(gè)堿基的平均質(zhì)量分數分布沒(méi)有顯著(zhù)差異,并且兩個(gè)數據集的reads在整個(gè)基因體上幾乎均勻分布(圖2b, 3b),表明RNA的高度完整性。進(jìn)一步檢查了reads被映射到的基因區域,發(fā)現所有樣本中被映射到外顯子區域的reads明顯增多,而被映射到內含子區域的reads明顯減少(圖2c和圖3c),與之前的報道結果一致。
對于單細胞測序數據,還檢查了映射到線(xiàn)粒體和核糖體基因的reads的比例(圖2d)。每個(gè)細胞的線(xiàn)粒體基因和細胞核糖體基因的中位數百分比為0.29和3.04。MPP檢測到的基因數*高(圖2e),顯著(zhù)高于LT-HSC,而每個(gè)細胞的UMI數在三種細胞類(lèi)型之間具有相似性(圖2f)。UMAP圖表明ST-HSC位于LT-HSC和MPP之間(圖2g)。接下來(lái)分析細胞類(lèi)型之間的差異表達基因。LT-HSC、ST-HSC和MPP中分別有62、63和266個(gè)差異表達基因。此外一些已知的HSC特征基因,包括Mpl、c-Myc、Mllt3、Gata2,在LT-HSC中表達顯著(zhù)增高(圖2h)。

圖2?單細胞短讀長(cháng)測序數據質(zhì)控

圖3?批量細胞的短讀長(cháng)測序數據的質(zhì)控
- 長(cháng)讀長(cháng)測序數據的質(zhì)控和一致性
納米孔(ONT)測序數據的平均長(cháng)度為1024 bp(圖4a)。而PacBio測序數據的平均長(cháng)度為946 bp(圖4)。PacBio測序的質(zhì)量得分高于納米孔測序(圖4b),平均值分別為47.57和10.53。接下來(lái)比較了長(cháng)短讀長(cháng)測序在有無(wú)參考的情況下識別外顯子和轉錄本的√準性。結果發(fā)現,無(wú)論有無(wú)參考,長(cháng)讀長(cháng)測序都能提供相對完整的外顯子鏈,包括轉錄水平上的新外顯子(圖4c,d),而當有參考時(shí),短讀長(cháng)測序在識別外顯子方面有著(zhù)更高的√準性(圖4d)。
為了評估重復之間的一致性,計算了短讀長(cháng)和長(cháng)讀長(cháng)測序之間的基因定量的相關(guān)性。相關(guān)系數均在0.93以上(圖4e),表明重復樣本間具有較高的一致性。此外,PCA顯示短讀長(cháng)和長(cháng)讀長(cháng)測序數據按細胞類(lèi)型進(jìn)行了聚類(lèi)(圖4f)。結果表明,長(cháng)讀長(cháng)測序數據質(zhì)量高,生物重復一致性高。此外,長(cháng)讀長(cháng)測序能夠對新的外顯子和轉錄本進(jìn)行識別和定量。

圖4?批量細胞長(cháng)讀長(cháng)測序數據的質(zhì)控
- 整體可變剪接模式分析
為了研究使用長(cháng)讀長(cháng)數據集的整體可變剪接模式,首先使用SUPPA2識別可變剪接事件和類(lèi)型。有趣的是,在所有細胞類(lèi)型中,常見(jiàn)的選擇性剪接類(lèi)型是保留內含子(RI),其次是外顯子跳躍(SE)和可變3’或5’端剪接位點(diǎn)(圖5a)。接下來(lái)發(fā)現超過(guò)21762個(gè)細胞型特異性的可變剪接事件(圖5b)。SE是三個(gè)細胞類(lèi)型中常見(jiàn)的可變剪接類(lèi)型(圖5c),其次是RI和可變3’或5’端剪接位點(diǎn)。這些結果表明,長(cháng)讀長(cháng)測序有助于識別大量可能在造血過(guò)程中具有潛在功能的細胞特異性或共有的可變剪接事件。

圖5?批量細胞長(cháng)讀長(cháng)測序數據的整體可變剪接分析
- 可變剪接異構體的鑒定和定量
為了進(jìn)一步確認長(cháng)讀長(cháng)在識別可變剪接異構體方面的優(yōu)勢,使用納米孔和PacBio測序數據對三種細胞類(lèi)型中已知的LT-HSC的標志物c-Myc和Gata2(圖2h)的轉錄本進(jìn)行了可視化。接下來(lái)篩選了所有映射到基因c-Myc和Gata2及其注釋的轉錄本上的reads。發(fā)現2915個(gè)reads覆蓋到了c-Myc,且LT-HSC的reads數*多(圖6a)。在納米孔和PacBio測序數據中可視化了全長(cháng)轉錄本的reads,發(fā)現所有注釋的亞型都能被鑒定識別(圖6c)。在c-Myc第一個(gè)外顯子中發(fā)現了一個(gè)5 ‘的可變剪接起始位點(diǎn)。使用短讀長(cháng)測序數據來(lái)定量該基因座的剪接百分比(PSI),發(fā)現較長(cháng)的異構體在所有三種細胞類(lèi)型中具有相似的 PSI(剪接百分比),ST-HSC中包含第一個(gè)外顯子的較長(cháng)異構體的reads占比比較高(圖6 e)。對于Gata2來(lái)說(shuō),發(fā)現覆蓋有595個(gè)reads,在LT-HSC中比其他兩種細胞類(lèi)型多了近20倍的reads數(圖6b)。通過(guò)對比全長(cháng)reads和注釋的轉錄本,發(fā)現在LT-HSC中Ensembl的轉錄本中有一個(gè)未注釋的內含子保留(圖6d)。隨后利用短讀長(cháng)測序數據驗證驗證了這種內含子保留并定量這個(gè)內含子的PSI值,發(fā)現該內含子在LT-HSC中PSI值*高(圖6f)。接下來(lái)展示將長(cháng)讀長(cháng)測序與單細胞RNA-seq結合的數據示例,從長(cháng)讀長(cháng)測序數據中鑒定到了一個(gè)在Mpl中具有24 bp可變剪接區域的可5’剪接位點(diǎn)(A5)?;赟mart-seq2的測序數據發(fā)現這個(gè)剪接事件在不同細胞類(lèi)型中是差異的,其PSI值從LT-HSC,ST-HSC到MPP是依次遞減的(圖6g-j)。使用Smart-seq2數據可以觀(guān)察到單個(gè)細胞間的異質(zhì)性(圖6h),在造血過(guò)程中,所涉及的長(cháng)和短剪接位點(diǎn)(SJ)是被顯著(zhù)下調的(圖6i,j)。這些結果表明,整合短讀長(cháng)和長(cháng)讀長(cháng)測序有助于識別差異表達的異構體。

圖6?長(cháng)讀長(cháng)結合短讀長(cháng)數據識別定量可變剪接異構體
測序數據集說(shuō)明
大批量短讀長(cháng)RNA-seq可在各種組織或細胞樣本中用于√準性的定量基因表達和替代外顯子使用。單細胞RNA測序在揭示細胞類(lèi)型內基因表達的異質(zhì)性方面是強而有力的。全長(cháng)RNA-seq實(shí)驗流程,如Smart-seq2,也可以檢測可變剪接中的異質(zhì)性。然而,使用短讀長(cháng)測序來(lái)組裝轉錄本仍然很困難。
本文的測序數據集為揭示HSC群體中的轉錄本的多樣性提供了獨特的機會(huì )。通過(guò)整合短讀長(cháng)和長(cháng)讀長(cháng)的批量測序數據集,可以更好地識別和定量(新型)可變剪接異構體。而scRNA-seq數據可以進(jìn)一步提供有關(guān)這些轉錄本如何在不同HSC細胞類(lèi)型中變化的信息。此外,該數據集可用于開(kāi)發(fā)統計模型以重建異構體,并能夠進(jìn)一步在很大程度上研究未探索的轉錄后調控,例如單細胞水平的可變剪接和RNA編輯。
如果您對該研究思路感興趣,點(diǎn)擊下方按鈕聯(lián)系我們,我們將免費為您設計文章研究思路