DNA測序技術(shù)在過(guò)去的40年中,經(jīng)歷了巨大的改進(jìn)與變化。早在1977年,首次報道了Sanger和Maxam–Gilbert測序方法,Sanger測序的最大序列長(cháng)度約1 kb。其對DNA總量的要求較高,一般通過(guò)克隆靶標DNA序列并連接載體,進(jìn)而通過(guò)原核細胞大腸桿菌(E. coli)擴增(當時(shí)基因組De novo采用BAC文庫測序方式),其讀長(cháng)短且耗時(shí);NGS(Next-Generation Sequencing )二代測序包含很多技術(shù)平臺,其特征是對大量的DNA分子并行測序,多年來(lái)已有4個(gè)主要的NGS平臺投入商業(yè)使用:羅氏454平臺, Illumina GA/Solexa 平臺, ABI SOLiD平臺和Life Torrent平臺。在過(guò)去的10年中,Illumina因其低成本,高速和高產(chǎn)而成為測序市場(chǎng)的主要供應商,Illumina測序平臺具有廣適性,因此NGS已廣泛用于探索基因組學(xué)的各個(gè)領(lǐng)域,包括腫瘤學(xué),微生物學(xué),環(huán)境基因組學(xué),宏基因組學(xué)及醫學(xué),環(huán)境和農業(yè)研究等,隨時(shí)其廣泛的應用,其劣勢也逐漸的突顯,即:二代測序(Illumina為代表)讀長(cháng)短仍然是生物學(xué)研究的重要瓶頸,這限制了許多生物學(xué)研究的準確性,尤其是在基因組組裝研究中。在片段重復(segmental duplication),結構變異(SV,structural variations)或旁系同源區段分析中使用短讀長(cháng)測序可能會(huì )導致大量假陽(yáng)性。盡管測序技術(shù)和生物信息學(xué)分析在進(jìn)步,但大型基因組的從頭組裝仍然具有挑戰性。自2015年起,以PacBio和Nanopore為代表的長(cháng)讀長(cháng)測序技術(shù)開(kāi)始在動(dòng)植物基因組De novo中初露鋒芒(圖1 A和B)。
圖1 不同測序技術(shù)讀長(cháng),準確性及基因組連續性評估
一、三代長(cháng)讀長(cháng)單分子測序技術(shù)的發(fā)展
?長(cháng)讀長(cháng)單分子測序技術(shù)(Long read single-molecule sequencing technology)又稱(chēng)第三代測序技術(shù)TGS(Third-Generation Sequencing),早在2004年,由美國太平洋生物科學(xué)公司Pacific Biosciences (PacBio)?創(chuàng )立的實(shí)時(shí)(SMRT)測序是較早被廣泛使用的長(cháng)讀測序技術(shù),SMRT測序產(chǎn)生的Reads可達到約200 kb。其提供了技術(shù)上的優(yōu)勢,以鑒定遺傳變異并進(jìn)一步研究其基因功能,同時(shí)作為動(dòng)植物基因組組裝日臻進(jìn)步完善的主要驅動(dòng)力,自2015年,首篇純PacBio三代數據組裝復活草(Nature. 2015)基因組見(jiàn)刊Nature,開(kāi)啟了三代動(dòng)植物基因組De novo的紀元。與Sanger測序和NGS測序類(lèi)似,PacBio測序同樣采用邊合成邊測序的方式,以其中一條DNA鏈為模板,通過(guò)DNA聚合酶合成另外一條鏈(圖2 A和B)。PacBio測序平臺相繼推出RS II,Sequel和Sequel II平臺并投入使用(Table 1)。2005年,英國牛津納米孔技術(shù)公司
圖2 三代PacBio測序原理

圖3 三代Nanopore測序原理
二、三代長(cháng)讀長(cháng)單分子測序技術(shù)PacBio和Nanopore的比較
PacBio和Nanopore具有共同的優(yōu)點(diǎn),即長(cháng)讀長(cháng);同時(shí)也具有共同的缺點(diǎn)即高錯誤率(糾錯前隨機分布的?5–20%堿基錯誤率),隨著(zhù)新測序儀和生物信息學(xué)的不斷發(fā)展,測序平臺的優(yōu)缺點(diǎn)有望發(fā)生改變,無(wú)論是PacBio還是ONT測序平臺都致力于獲得更長(cháng)讀長(cháng)的reads的同時(shí),兼獲高準確的堿基序列信息。

圖4 PacBio與Nanopore測序原理及信號識別原理比較

圖5 PacBio CCS測序原理及準確性評估
Nanopore超長(cháng)讀長(cháng)測序:盡管組裝方法不斷在改進(jìn),且已開(kāi)發(fā)物理圖譜技術(shù)(光學(xué)圖譜),但讀長(cháng)長(cháng)短仍然是高質(zhì)量動(dòng)植物基因組的限制因素。如植物基因組由于高雜合,及其復雜的多倍性和高重復含量,其組裝仍然具有挑戰性,讀長(cháng)必須超過(guò)基因組中的主要重復序列長(cháng)度,及嵌合的長(cháng)末端重復序列(LTR)或單倍型Blocks,其長(cháng)度可能跨越20–200 kb。雖然PacBio是提供Long Reads(>1 kb)的技術(shù),且通常 Reads N50長(cháng)度可大于20 kb,但即便是幾乎完美的15 kb reads可能無(wú)法組裝復雜植物基因組中經(jīng)常出現的嵌合及高度相似的重復序列。而ONT測序平臺大大解決了這一問(wèn)題,與PacBio reads平均長(cháng)度項目(圖6),一小部分ONT reads讀長(cháng)超過(guò)300 kb,同時(shí)PacBio不包含任何大于150 kb的reads。許多復雜的植物基因組具有大于20 kb或更長(cháng)的重復序列,所以即便目前ONT具有一定錯誤率,但其大大促進(jìn)了基因組的組裝,從而顯著(zhù)提高了基因組連續性或完整性。例如:使用ONT測序更新的擬南芥Col-0基因組最終通過(guò)組裝,減少到40個(gè)Contigs,且跨越了染色體臂(端粒到著(zhù)絲粒),同時(shí)解決了前期在TAIR10參考基因組中存在的gaps及組裝錯誤(Jupe et al. 2020)。
圖6 三代Nanopore和PacBio測序讀長(cháng)比較
三、百邁客雙平臺(Nanopore+PacBio)動(dòng)植物基因組De novo研究策略—魚(yú)和熊掌可兼得
“魚(yú),我所欲也,熊掌亦我所欲也;二者不可得兼,舍魚(yú)而取熊掌者也。正如在動(dòng)植物基因組研究中,針對基因組組裝,為了兼顧長(cháng)讀長(cháng)的同時(shí),獲得高準確性的物種基因組密碼信息,在選擇測序技術(shù)選擇(PacBio or Nanopore?)上總會(huì )有魚(yú)和熊掌不可兼得的感覺(jué)。長(cháng)久以來(lái),百邁客一直致力于成為“專(zhuān)業(yè)的基因組組裝專(zhuān)家”,擁有雙平臺的基礎上(2015年首次引進(jìn)PacBio平臺;2017年首次引進(jìn)Nanopore平臺),力求整合雙平臺各自的優(yōu)勢,著(zhù)力于開(kāi)發(fā)各種軟件、算法,為每個(gè)物種提供訂制的“基因組套餐”,即打造高質(zhì)量,高完整性的物種基因組。從本章節起,小編后續會(huì )結合新的技術(shù)策略、測試數據及文章案例,為大家帶來(lái)全新的基因組研究策略,旨在獲得高度連續性基因組的前提下,同時(shí)完成高準確性動(dòng)植物基因組密碼的破譯,即魚(yú)與熊掌可兼得。
首先通過(guò)百邁客三代Nanopore和PacBio平臺相關(guān)物種測序讀長(cháng)(表1)及組裝結果的比較(表2),進(jìn)一步通過(guò)我們的實(shí)際案例來(lái)看一下Nanopore測序平臺在基因組組裝中的優(yōu)勢。

通過(guò)雙平臺實(shí)測數據的比較分析: Nanopore平臺平均讀長(cháng)為28.5 Kb左右,Reads N50平均讀長(cháng) 38Kb左右;PacBio CLR平均讀長(cháng)20 Kb左右,Reads N50平均讀長(cháng) 28Kb左右;CCS平均讀長(cháng)12-15 Kb,Reads N50 16~18Kb,發(fā)現Nanopore比PacBio平臺讀長(cháng)高10 Kb左右,而PacBio CCS模式讀長(cháng)遠低于CLR模式。
同時(shí)通過(guò)PacBio和Nanopore雙平臺測序數據組裝結果的比較發(fā)現,利用PacBio數據進(jìn)行基因組組裝Contig N50一般達到Mb級別,而利用Nanopore數據進(jìn)行基因組組裝,Contig N50指標平均水平基本能再提升2倍或者更高,甚至許多物種能達到幾十Mb(如百邁客利用Nanopore測序平臺組裝的水產(chǎn)動(dòng)物綠鰭馬面鲀基因組,Contig N50高達22 Mb)。

由于Nanopore測序Reads讀長(cháng)長(cháng),PacBio Sequel II HiFi模式測序準確性高達99%以上,為了同時(shí)利用其雙平臺各自的優(yōu)勢,我們擬通過(guò)Nanopore測序數據對某多倍體植物進(jìn)行基因組組裝,同時(shí)通過(guò)低深度PacBio CCS數據進(jìn)行Polish,進(jìn)而對該多倍體植物基因組連續性,完整性及準確性進(jìn)行評估,以獲得高連續性,高準確的基因組密碼信息,測試結果如下:



4.?不同深度CCS 數據Polish后二代數據回比結果

5.?通過(guò)將20?x?CCS數據分別回比到10 x PacBio CCS polish及100 x Nanopore+50 x Illumina Polish后基因組,截取基因組上特性區域,進(jìn)行組裝基因組單堿基準確性的比對與評估,發(fā)現10?x?PacBio CCS polish后的結果提升效果明顯,我們挑選了幾個(gè)實(shí)例如下:
區域1:

PacBio CCS回比結果(10x CCS Polish基因組)

PacBio CCS回比結果(100 x ONT+50 x Illumina Polish基因組)
區域2:
PacBio CCS回比結果(10x CCS Polish基因組)
PacBio CCS回比結果(100x Nanopore+50x Illumina Polish基因組)
上述分析結果中,進(jìn)一步證實(shí)了前期的推測,利用Nanopore超長(cháng)讀長(cháng)的優(yōu)勢,組裝獲得高連續性基因組(Contig N50 約10 Mb),同時(shí)結合PacBio CCS高準確性測序,進(jìn)一步提升基因組中單堿基的準確度,即魚(yú)和熊掌可兼得。高連續性基因組的獲得,對后續功能基因定位,結構變異檢測具有重要的意義;同時(shí)高準確的基因組的獲得,對于超大基因組,多倍體基因組等復雜基因組的LTR的熱點(diǎn)區域的研究更具突破性的意義。除此之外。在很多動(dòng)植物基因組上的確存在高度復雜的區域,即使通過(guò)高深度PacBio?CCS數據依然無(wú)法矯正,這就需要通過(guò)其它相應的技術(shù)及軟件參數整合來(lái)提升基因組的準確性。
四、雙平臺(Nanopore+PacBio)基因組De novo高分文章賞析

在對同源四倍體紫花苜蓿(Medicago sativa?L.)基因研究中,首先利用了70 GB,~22x PacBio CCS數據進(jìn)行基因組組裝,組裝獲得紫花苜?;蚪M大小3154 Mb,Contig N50=459 kb, 然后利用ALLHiC進(jìn)行同源染色體組群的劃分,最后通過(guò)Hi-C互作熱圖、遺傳圖譜共線(xiàn)性、ONT數據回比、BUSCO完整性、轉錄組對基因組完整性等進(jìn)行評估,值得注意的是在ONT數據回比評估中(Table 3),文中篩選了99 GB ONT long reads中的最長(cháng)200條reads(ranged from 95 to 263 Kb)進(jìn)行回比,發(fā)現89%的的reads都能比對到single染色體上,結合其它評估方法,進(jìn)一步說(shuō)明了組裝及染色體位置的準確性。
在小墊柳(Cushion willow)基因組組裝中,首先利用SMARTdenovo對糾錯后的74xONT數據進(jìn)行組裝,然后分別利用125xPacBio數據(two rounds )與Illumina數據(five rounds )進(jìn)行polish,基因組完整性評估后,利用Hi-C將Contig掛載到染色體水平,最終組裝獲得小墊柳基因組大小339.588 Mb,Contig N50=9.522 Mb。?(Table 4)
五、百邁客Nanopore、PacBio平臺動(dòng)植物基因組合作文章總覽(部分)

北京百邁客生物科技有限公司自2015年引入Pacbio測序平臺,2017年初引入Nanopore測序平臺以來(lái),截止到目前百邁客已擁PacBio平臺:RS Ⅱ、PacBio Sequel、PacBio sequel Ⅱ;Nanopore 平臺:PromethION-48、PromethION-β、Nanopore GridION、MinION,擁有主流三代測序儀,尤其針對復雜超大基因組測序,百邁客生物具有三代測序通量,以滿(mǎn)足超大基因組的組裝需求。同時(shí)PacBio和Nanopore兩大主流三代測序平臺各自及組合經(jīng)驗,為老師們提供了可參考且全面優(yōu)質(zhì)的選擇!選擇我們,提供專(zhuān)屬于您基因組套餐!
