特異的SV是與疾病的易感性相關(guān)的,SV的區域通常包含疾病相關(guān)重要基因。許多癌癥基因組有著(zhù)顯著(zhù)的遺傳變異,并且特異的SV被認為能夠通過(guò)破壞基因結構,調節基因表達,創(chuàng )造融合事件或者產(chǎn)生基因拷貝數來(lái)促進(jìn)腫瘤發(fā)展。不知道SV是什么的請到最下面看科普。
據統計,基因組結構變異可能導致的遺傳性疾病已經(jīng)超過(guò)1,000種,對于每個(gè)人來(lái)講其基因組都有至少20,000個(gè)的結構變異,這些變異帶來(lái)的影響或許比SNV或InDel還要大。然而,盡管SV的普遍存在且與癌癥特殊關(guān)聯(lián),但是許多SV分類(lèi)的分子組織及產(chǎn)生機制還不明確。這在很大程度上是由于當前技術(shù)(就是二代測序)無(wú)法發(fā)現具有高特異性的全譜SV。
據報道,短read方法缺乏敏感性,只有10%-70%的SV可以被檢出,卻有高達89%的錯誤發(fā)現率,且不能鑒定復雜嵌套SV帶來(lái)的影響。
三代測序因其讀長(cháng)長(cháng),能夠大幅提升SV的可靠性和分辨率。根據文章的結果和百邁客的實(shí)測數據總結起來(lái),用ONT測SV至少要15X。
具體原因是什么呢?且聽(tīng)小編細細道來(lái)~~
Pacbio和ONT測序的長(cháng)read能夠大幅提升SV檢測的可靠性和分辨率。平均10kb或者更長(cháng)的read可以更準確的比對到重復序列上,這些可能介導SV的形成。長(cháng)read更可能跨過(guò)SV斷點(diǎn)。當然除了優(yōu)勢,長(cháng)read也有新的挑戰,Pacbio測序有10-15%的錯誤率,Oxford Nanopore?測序有5-20%錯誤率。因此急需一種新的SV檢測方法,Sedlazeck F J 等人開(kāi)發(fā)了Sniffles軟件。
根據兩個(gè)人類(lèi)數據集的錯誤情況和read長(cháng)度,作者對兩條人的染色體模擬了50X?Pacbio?和ONT?read 。純粹的統計分析發(fā)現,近10X覆蓋度的數據(平均長(cháng)度10kb)就足夠去推斷所有SV斷點(diǎn)(一瞬間覺(jué)得自己可以省好多錢(qián)有木有),然而對于100bp的短read雙端測序至少要25X覆蓋度。當前這個(gè)統計只是一個(gè)理想情況,比如缺乏了重復和覆蓋度的偏移,因此是低估了所需的覆蓋度的。
理想很豐滿(mǎn)、現實(shí)很骨感!理想情況下用10x覆蓋度測三代read就能檢測出來(lái)所有的結構變異,但是現實(shí)肯定不夠啦~ 作者對真實(shí)的Pacbio 55X數據,和Nanopore 28X數據所檢測到的SV和低深度下所檢測的SV進(jìn)行比較。對于Pacbio數據,15X的時(shí)候對于NA12878和SKBR3樣品的SV能識別到69.64%和67.24%,如果提升到30X時(shí),可分別識別到80.05%和76.63%。SKBR3的識別率相對較低主要因為它是癌癥樣品,有些極端的拷貝擴增。所以癌癥樣品要想識別到更多更準的SV,需要適當提升測序深度。
對于Nanopore的數據,在20X的覆蓋度時(shí)就能達到82.24%的準確率和84.23%的識別率。不過(guò)這可能是因為ONT數據只測了28X。
盡信書(shū)不如無(wú)書(shū),小編本著(zhù)對科研(領(lǐng)導)的認真態(tài)度(“逼迫”),對公司的一正常人的血液進(jìn)行Nanopore?DNA測序(測序深度為40X)識別SV,隨機抽取不同深度下的數據量5X,10X,15X,20X,30X使用相同的參數進(jìn)行SV識別,合并所有樣品的SV,對每個(gè)樣品進(jìn)行強制重新識別SV。以40X數據在支持read數大于10下所檢測出的SV為金標準,判斷低深度下所能檢測出的SV情況,如下表:
注:Genotype列代表不同深度下識別出的和40X SV基因型相同的SV個(gè)數,Genotype ratio為SV占40X SV的比例。?Genotype & depth 為與40X SV基因型相同且read支持數大于10的SV個(gè)數,Genotype & depth Ratio為基因型相同且read支持數大于10的SV比例。
其實(shí)從結果上可以發(fā)現即使只用5X測序深度的數據也能夠識別出很高比例的SV,但是如果考慮到支持的read數,所能識別出的SV比例就瞬間少了很多。其實(shí)也能理解啦,畢竟深度在那里呢~
所以,依小編愚見(jiàn),15X數據的結果相對還是可以的,不過(guò)該測試數據是妥妥的正常人呦,如果癌癥樣品還是建議再多測一些呢~
參考文獻
Sedlazeck F J , Rescheneder P , Smolka M , et al. Accurate detection of complex structural variations using single-molecule sequencing[J]. Nature Methods, 2018.