Blastdb

最新推荐文章于 2026-06-06 11:01:29 发布

原创

最新推荐文章于 2026-06-06 11:01:29 发布 · 3.9k 阅读

本文详细介绍了如何在Linux系统下安装并配置BLAST+可执行程序，包括下载最新版本、环境变量设置、数据库构建、查询方式及参数详解。涵盖了BLASTN、BLASTP等五种查询方式，以及makeblastdb数据库创建和blastdbcmd数据库操作命令。适合生物信息学研究者和数据分析师参考。

安装

在ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/中下载最新的BLAST可执行程序

wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.9.0+-x64-linux.tar.gz
mv ncbi-blast-2.9.0+ ~/local/app/ # 移动
cd ~/local/app/                    # 进入本地程序安装路径
mv ncbi-blast-2.2.30+ blast        # 修改目录名

将BLAST+可执行程序所在目录（bin）的绝对路径加入到环境变量$PATH中，方便通过程序名直接调用

export PATH=/db/home/shenwei/local/app/blast/bin:$PATH

source .bashrc

五种查询方式

BLASTN	programs search nucleotide databases using a nucleotide query
BLASTP	programs search protein databases using a protein query
BLASTX	search protein databases using a translated nucleotide query（一条核酸序列会被翻译成可能的六条蛋白）
TBLASTN	search translated nucleotide databases using a protein query
TBLASTX	search translated nucleotide databases using a translated nucleotide query

构建数据库 `makeblastdb`

BLAST数据库分为核酸数据库和氨基酸数据库，可以用makeblastdb创建

makeblastdb -in Arabidopsis_thaliana.TAIR10.dna.toplevel.fa -dbtype nucl -out TAIR10 -parse_seqids

-dbtype：必须，赋值为nucl或者prot，代表是核酸或者氨基酸序列。

-in：非必须，要构建数据库的文件名。

-input_type：非必须，制定输入文件的格式，赋值为asn1_bin、asn1_txt、blastdb、fasta，默认为fasta。

-title：非必须，数据库标题，默认为-in输入文件名（加上不同的后缀）。

-parse_seqids：非必须，对于fasta格式文件，会分析输入序列ID；对于其他格式文件，自动分析。

-hash_idex：非必须（建议有），创建序列的hash。

-out：非必须（建议有），数据库名称，默认为-in输入文件名。

-max_file_sz：，非必须，数据库最大容量，默认为1GB。

-logfile：非必须（建议有），输出建立数据库时的log文件。在批量处理数据时候，可以检查数据库构建是否正确。默认输出到屏幕

结果

生成的数据库中有三个主要的文件——库索引(indices)，序列(sequences)和头(headers)文件。

生成的文件的扩展名分别是：.pin、.psq、.phr（对蛋白质序列）或.nin、.nsq、.nhr（对核酸序列）。而其他的序列识别符和索引则包含在.psi和.psd（或.nsi和.nsd）中。

注意：自己生成的数据库中序列命名有以下三种形式：

a） > gnl|database|identifier

b） > lcl|identifier

c) > identifier

别名

标签

#blastdb

最低0.47元/天解锁文章

Blastdb

安装

五种查询方式

构建数据库 makeblastdb

结果

别名

构建数据库 `makeblastdb`