ATAC-seq数据分析实战：从原始数据到peak calling全流程解析

原创

于 2026-03-02 07:57:25 发布 · 230 阅读

1. 环境准备与软件安装：搭建你的ATAC-seq分析工作站

做数据分析，第一步永远是把“厨房”收拾好。ATAC-seq分析流程不算短，涉及的软件工具也不少，一个稳定、易管理的环境能让你后续操作事半功倍，避免各种“软件打架”的糟心事。我强烈推荐使用 Conda 来管理所有软件和环境，这就像给你的电脑装了一个“软件集装箱”系统，每个分析项目都可以有自己的独立“集装箱”，里面的软件版本互不干扰，干净又省心。

1.1 Conda安装与配置：你的分析“管家”

首先，我们得把这位“管家”请进门。在Linux系统（比如服务器或WSL2）的终端里，执行下面几条命令就能搞定。这里我用的是清华大学的镜像源，下载速度会快很多。

# 下载Miniconda安装脚本（一个轻量化的Conda发行版）
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh

# 运行安装脚本
bash Miniconda3-latest-Linux-x86_64.sh

安装过程中，会有一个关键提示问你 Do you wish the installer to initialize Miniconda3 by running conda init? [yes|no]。这里一定要输入 yes 并按回车。这个操作会把Conda的启动命令添加到你的 ~/.bashrc 文件里，这样每次打开终端，Conda就能自动激活基础环境。如果这里选错了，你会发现 conda 命令根本找不到，还得手动去配置环境变量，比较麻烦。

安装完成后，需要让刚才的配置生效：

source ~/.bashrc

现在，输入 conda --version，如果能看到版本号，恭喜你，“管家”安装成功。

接下来，为了让“管家”从国内仓库取“软件包”更快，我们需要配置一下镜像源。继续在终端执行：

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda
conda config --set show_channel_urls yes

这几行命令告诉Conda，优先从清华的镜像站下载软件，速度会快上不少。Bioconda这个频道特别重要，它专门收录生物信息学软件，我们后面要用的工具大部分都在这里。

1.2 创建专属分析环境并安装软件

环境隔离是Conda的核心优势。ATAC-seq分析用到的软件，有些依赖Python 2，有些依赖Python 3，混在一起很容易冲突。我们为ATAC-seq专门创建一个环境，把它需要的所有工具都装在这个“集装箱”里。

# 创建一个名为 ATAC 的环境，并指定安装 Python 2.7 和 bwa 软件
conda create -n ATAC -y python=2 bwa

# 激活这个环境（进入这个“集装箱”）
conda activate ATAC

看到命令行提示符前面变成 (ATAC)，就说明你已经成功进入ATAC分析环境了。接下来，我们在这个环境里安装分析流程所需的核心软件。一条命令搞定一批，非常方便：

conda install -y sra-tools trim-galore samtools bedtools
conda install -y macs2 bowtie bowtie2
conda install -y multiqc sambamba homer meme

这里简单介绍一下这些工具的用途：sra-tools 用来下载公共数据库的原始数据；trim-galore 是质控和过滤读段的利器；samtools 和 bedtools 是处理比对文件的“瑞士军刀”；bowtie2 负责将测序读段比对到参考基因组；macs2 是寻找开放染色质区域（peak calling）的主力；multiqc 能汇总所有质控报告；sambamba 处理BAM文件速度飞快；homer 和 meme 用于后续的motif分析。

不过，有个小例外：deeptools 这个强大的可视化工具需要Python 3环境。所以我们单独为它再开一个“集装箱”：

# 退出当前ATAC环境（如果还在里面的话）
conda deactivate

# 创建一个名为 atac_viz 的Python 3环境
conda create --name atac_viz -y python=3.7

# 激活可视化环境
conda activate atac_viz

# 安装 deeptools
conda install -y deeptools

这样，我们就有两个环境了：ATAC（Python 2）用于核心数据处理，atac_viz（Python 3）专门用于绘图。使用时用 conda activate [环境名] 切换即可。

最后，为我们的项目建立一个清晰的目录结构，养成好习惯：

mkdir -p ~/project/atac/
cd ~/project/atac/
mkdir -p {sra,raw,clean,align,peaks,motif,qc,results}

sra 放原始SRA文件，raw 放转换后的fastq，clean 放质控过滤后的数据，align 放比对结果，peaks 放peak calling结果，motif 放 motif 分析结果，qc 放质控报告，results 放最终图表。结构清晰，后面找文件不头疼。