
b)?GEO Sample (GSM) 樣本ID號
c)?GEO Series (GSE) study的ID號
d)?GEO Dataset (GDS) 數據集的ID號這些數據均可以在ftp(ftp://ftp-trace.ncbi.nih.gov/geo/)進(jìn)行下載。

咱們以下面篇文章為例:
我們在文末找到作者數據上傳地址和GSE的ID
然后在GEO官網(wǎng)輸入GSE115354,
首先我們可以看到是關(guān)于該study的描述信息,包括文章信息、測序物種、實(shí)驗類(lèi)型等等
而我們最關(guān)心的東西在頁(yè)面的下方
如果我們想下載作者標準化后的數據,可以直接在這個(gè)頁(yè)面中Supplementary file中進(jìn)行下載,那如果我想下載原始數據怎么辦呢,不要著(zhù)急,您慢慢往下看。
我們點(diǎn)擊頁(yè)面中Sample對應的GSM的ID,每個(gè)樣本都對一個(gè)GSM,我們以第一個(gè)為例,點(diǎn)擊后進(jìn)入以下界面
然后點(diǎn)擊最下方SRA編號,進(jìn)入下面的頁(yè)面
這里面包含了這個(gè)樣本的基本信息,包括測序平臺、文庫類(lèi)型、數據量等基本信息,然后點(diǎn)擊頁(yè)面右上方的Send to按鈕,選擇File,Format選擇RunInfo,然后點(diǎn)擊Creat file下載一個(gè)csv文件,打開(kāi)文件,可以看到一個(gè)下載鏈接
點(diǎn)擊鏈接就可以直接下載數據了。
下載完成后您可能有些疑問(wèn),我們一般測序數據都輸pair-end的雙端reads,為什么我下載的是一個(gè).sra結尾的數據呢?難道是一個(gè)單端數據嗎?這個(gè)當然不是,SRA為了節省空間,一般上傳的數據都是.sra的壓縮文件,那我們如何將sra文件轉化成常用的雙端數據呢?這里就要用到SRA提供的一個(gè)工具:fastq-dump,
下載網(wǎng)址:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
官方說(shuō)明文檔:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc&f=fastq-dump
當然,這個(gè)軟件需要在Linux系統下進(jìn)行操作,命令行如下:
fastq-dump?*.sra?--split-3
這里的–split-3會(huì )把原來(lái)雙端拆分成兩個(gè)文件,但是原來(lái)單端并不會(huì )保存成兩個(gè)文件。運行完成后就能獲得了您想要的原始數據了。如果您還想學(xué)習更多實(shí)用的高通量測序數據挖掘和分析的知識,歡迎點(diǎn)擊下方按鈕聯(lián)系我們。
