1. 初识SRA数据库:你的测序原始数据宝库
如果你刚接触生物信息学,听到“SRA数据库”这个词可能会觉得有点高大上。别担心,你可以把它想象成一个全球最大的“测序原始数据档案馆”。全世界的研究者做完二代测序(比如用Illumina、Ion Torrent这些机器),都会把最原始的、未经任何分析的测序数据上传到这里。这就像摄影师拍完照片会把RAW格式的原片存起来一样,SRA里存的就是生物数据的“RAW原片”。
这个档案馆的管理方式非常有序,它用一套四级编码系统来归类数据,理解这个结构对你找数据至关重要。最顶层是 Study (研究课题),编码通常以SRP或ERP开头。这相当于一个大的科研项目,比如“探究某种疾病与肠道微生物的关系”。一个Study下面会包含多个 Experiment (实验设计),编码是SRX。这相当于项目里的具体一次实验设计,比如“对健康组和患病组的粪便样本进行宏基因组测序”。每个Experiment又会关联到一个具体的 Sample (样品),编码是SRS,这就是你手里的那个具体的生物样本,比如“来自志愿者A的粪便样本001”。最后,每个样品上机测序会产生一个或多个 Run (测序运行结果),编码是SRR。这是你最终要下载的、最小的数据单元,一个SRR文件就对应测序仪一次运行产出的所有原始序列读长。
所以,当你拿到一个文献里提到的数据编号时,首先要分清它是哪一级。最常见的情况是,文献的补充材料里会直接给出SRR编号,这就是你的“数据身份证号”,拿着它就能去档案馆里精准定位并下载。有时候文献只给了更大的项目编号,比如PRJNA开头的BioProject号,这就需要你先通过这个项目号,找到它下面包含的所有SRR编号,再进行批量下载。这个过程听起来有点绕,但实际操作起来,就像用关键词在图书馆系统里检索一样,有现成的工具可以帮你自动完成,完全不用担心。
2. 方法一:官方利器 SRA Toolkit 的完整攻略
说到在Linux下下载SRA数据,SRA Toolkit 绝对是绕不开的“瑞士军刀”。它是NCBI官方出品的工具集,不仅能下载,还能直接转换数据格式,功能最全也最权威。我刚开始用的时候也觉得配置有点麻烦,但踩过几次坑之后,发现按照一套清晰的流程走下来,其实非常稳定。
2.1 从下载到配置:一步步搭建你的工具环境
首先,我们得把工具请到自己的服务器或电脑上。我强烈建议在你的用户主目录下专门建个文件夹来管理它,这样既整洁又不会污染系统目录。
# 1. 创建专属目录并进入
mkdir -p ~/biotools/sratoolkit
cd ~/biotools/sratoolkit
# 2. 从NCBI官网下载最新版本(请务必去官网核对最新版本号)
# 假设当前最新版是3.0.0,系统是Ubuntu 64位
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/3.0.0/sratoolkit.3.0.0-ubuntu64.tar.gz
# 3. 解压这个压缩包
tar -xzvf sratoolkit.3.0.0-ubuntu64.tar.gz
解压后你会看到一个以版本号命名的文件夹,比如 sratoolkit.3.0.0-ubuntu64。接下来的关键一步是把它添加到系统的环境变量 PATH 里,这样你才能在任何目录下直接调用它的命令。我习惯修改 ~/.bashrc 这个文件(如果你用的是zsh,则是 ~/.zshrc)。
# 4. 将工具路径永久添加到环境变量
echo 'export PATH=$PATH:$HOME/biotools/sratoolkit/sratoolkit.3.0.0-ubuntu64/bin' >> ~/.bashrc
# 5. 让配置立刻生效
source ~/.bashrc
完成这步后,打开一个新的终端窗口,输入 prefetch --version 或 fastq-dump --help 试试,如果能看到版本信息或帮助文档,恭喜你,安装成功了!最后还有一个容易被新手忽略的步骤:运行 vdb-config -i 进行交互式配置。这个命令会弹出一个简单的文本界面,你不需要修改任何东西,直接按键盘上的 x 键保存并退出即可。这个操作会初始化一些必要的配置文件,避免后续下载时报一些奇怪的权限错误。
2.2 核心命令实战:从单个下载到批量处理
工具装好了,我们来实战。最简单的场景是你知道一个SRR编号,比如SRR1553610。
# 下载单个SRA文件到当前目录
prefetch SRR1553610
这条命令会在当前目录下生成一个 SRR1553610 文件夹,里面就是 .sra 格式的数据文件。下载完成后,你需要把它转换成分析软件能读的fastq格式。
# 将.sra文件转换为fastq文件
# --split-files 参数用于拆分双端测序数据(PE),会生成两个文件(_1.fastq和_2.fastq)
# --gzip 参数直接输出压缩的.gz格式,节省大量空间
fastq-dump --split-files --gzip ./SRR1553610/SRR1553610.sra
但科研中更常见的是需要下载一个项目里的几十甚至上百个样本。这时手动一个个输编号就太傻了。假设你从NCBI网站上找到了一个项目的SraAccList.txt文件,里面列出了所有SRR编号,每行一个。批量下载的命令非常简

364

被折叠的 条评论
为什么被折叠?



