眾所周知,要獲得基因組的完整圖片,就必須組裝reads,以目前主要的測序技術(shù)來(lái)看,短讀長(cháng)測序提供了很高的z確性,但僅提供了少量數據片段,從而只能得到不完整的圖片;而傳統的長(cháng)讀長(cháng)測序,可提供更大的圖像,但缺乏z確性,因此很難分辨出真實(shí)的生物學(xué)變異與測序錯誤之間的區別。然而,兼顧長(cháng)讀長(cháng)與高精度的HiFi測序正在改變一切,今天我們就來(lái)聊聊HiFi測序以及百邁客PacBio SequelⅡ平臺HiFi產(chǎn)出情況吧。
一、何為 HiFi測序
HiFi reads(High Fidelity reads)是2019年由PacBio推出的基于環(huán)化共有序列(Circular Consensus Sequencing,CCS)模式產(chǎn)生的既兼顧長(cháng)讀長(cháng)(10-20kb的長(cháng)度)又具有高精度(>99%z確率)的測序結果。
在CCS測序模式下(圖1),酶讀長(cháng)遠大于插入片段長(cháng)度,聚合酶會(huì )繞著(zhù)模板進(jìn)行滾環(huán)測序,插入片段會(huì )被多次測序。單次測序中產(chǎn)生的隨機測序錯誤,通過(guò)環(huán)形測序生成的一系列Subreads來(lái)進(jìn)行自我打磨,通過(guò)算法進(jìn)行自我糾錯校正,最終得到高z確度的HiFi reads。

圖1 HiFi reads是如何生成的
二、SMRTbell文庫的構建流程簡(jiǎn)述
1.SMRTbell文庫的結構
bell即“鈴”的意思,如圖2,構建完成的bell文庫形狀就如同一個(gè)啞鈴。其主要組成部分是:發(fā)卡狀的接頭(Hairpin Adapter)和雙鏈DNA模板(Double Stranded DNA Template)。而文構建完成后、測序前還需要完成bell文庫、Sequencing Primer、DNA Polymerase的混合工作(測序引物退火結合bell文庫,然后引物-bell文庫復合物結合DNA聚合酶)。最終產(chǎn)物如圖3所示。
2.SMRTbell文庫構建流程
以基因組HiFi文庫為例(15-20K文庫)(圖4)。當得到gDNA后,先利用G-tube管或Megaruptor System將基因組片段化至合適大小,而后通過(guò)去除單鏈懸突、損傷修復和末端修復等步驟,得到完整的雙鏈插入片段。接下來(lái),通過(guò)將接頭連接至雙鏈DNA來(lái)創(chuàng )建SMRTbell文庫,從而得到環(huán)狀模板。完成接頭連接后,需要對連接產(chǎn)物進(jìn)行純化,利用酶處理(圖5)來(lái)消化線(xiàn)性或內部損傷環(huán)形DNA分子(游離的Hairpin Adapter、兩端未連接Adapter的DNA模板、已成環(huán)但內部有損傷的DNA模板),酶處理完畢后,一般會(huì )利用Bulepippin或Sage ELF System切膠回收目標大小范圍內的文庫。


圖5 酶處理示意圖
三、HiFi測序的性能
1.使用HiFi Reads 進(jìn)行基因組De Novo組裝的能力
在基因組從頭組裝方面,研究者利用HiFi reads應用FALCON、Canu和wtdbg2算法分別對HG002基因組進(jìn)行了從頭組裝,結果顯示組裝質(zhì)量均較高,contigN50超過(guò)15Mb,并且與HG002標準結果高度一致,吻合率達到99.9983%(Q47.7)[1]。
表1 不同測序技術(shù)及分析流程組裝結果
2.使用HiFi測序檢測人類(lèi)基因組變異的能力
基因組測序中重要的自然是z確率,只有保證較高的z確率,基因組的研究才有價(jià)值。下圖展示了最近的PrecisionFDA 真實(shí)挑戰賽V2的結果(圖6),在單一技術(shù)參賽結果中,使用PacBio HiFi數據(粉紅色)在所有類(lèi)別中,無(wú)論是全基因組范圍(“所有基準區域”),還是在難以映射的區域或是主要的組織相容性復合體(MHC)中均提供了較高的z確性。所有的多技術(shù)參賽結果(橙色)中都使用了PacBio HiFi數據[2]。

圖6 PrecisionFDA Truth Challenge V2結果
另外,由下圖可以看出(圖7),Google DeepVariant使用HiFi數據提交的結果在所有單一技術(shù)檢測全基因組范圍內的變異z確性*高,對SNV√確度和召回率可以達到99.9%,對插入缺失的√確度和召回率可以達到99.4%[2]。

圖7 不同測序技術(shù)及分析流程結果對比
四、百邁客HiFi測序數據展示
百邁客自2019年引進(jìn)PacBio SequelⅡ平臺以來(lái),在HiFi測序方面已經(jīng)積累了大量的經(jīng)驗,在技術(shù)人員的不斷優(yōu)化下,HiFi文庫單cell產(chǎn)出更是有了新的突破,下面跟大家分享一下部分HiFi文庫產(chǎn)出情況(表2)。在統計近1個(gè)月的HiFi cell中,我們單cell平均產(chǎn)出達416Gb。其中,單cell產(chǎn)出達400 Gb以上的占比達68%,同時(shí),單cell的HiFi reads數據量高達32 Gb,占原始產(chǎn)出的比例*高可達7.96%。在讀長(cháng)方面,平均酶讀長(cháng)已超70Kb,HiFi reads長(cháng)達18Kb。
表2 百邁客部分HiFi文庫下機數據產(chǎn)出統計表
HiFi數據由于其長(cháng)讀長(cháng)和高z確性,結合針對HiFi reads開(kāi)發(fā)的組裝軟件,在基因組組裝上有著(zhù)較大優(yōu)勢。一般物種,單套30×CCS數據即可滿(mǎn)足基因組組裝需求,且無(wú)需繁瑣的糾錯過(guò)程,縮短組裝時(shí)間,并能夠識別復雜基因組區域的細微差別,有助于增加基因組組裝的連續性、z確性和完整性。
在基因組組裝方面,HiFi測序正受到眾多科研工作者的青睞,已經(jīng)成為越來(lái)越多研究者的不二之選,百邁客自2015年國內引進(jìn)PacBio三代測序平臺以來(lái),在基因組研究領(lǐng)域已經(jīng)有近百余篇合作文章發(fā)表于世界知名期刊,累計影響因子600+,目前已經(jīng)擁有成熟的從測序到分析的完整HiFi流程,歡迎各位老師前來(lái)咨詢(xún)!
參考文獻
[1]Wenger A M , Peluso P , Rowell W J , et al. Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome[J]. Nature Biotechnology, 2019, 37(11).
[2]PacBio.In precisionFDA Challenge,PacBio HiFi Reads Outperform Both Short Reads and Noisy Long Reads.https://www.pacb.com/blog/precisionfda-challenge/[EB/OL].2020.08.11