安装
在ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/中下载最新的BLAST可执行程序
wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.9.0+-x64-linux.tar.gz
mv ncbi-blast-2.9.0+ ~/local/app/ # 移动
cd ~/local/app/ # 进入本地程序安装路径
mv ncbi-blast-2.2.30+ blast # 修改目录名
将BLAST+可执行程序所在目录(bin)的绝对路径加入到环境变量$PATH中,方便通过程序名直接调用
export PATH=/db/home/shenwei/local/app/blast/bin:$PATH
source .bashrc
五种查询方式
| BLASTN | programs search nucleotide databases using a nucleotide query |
| BLASTP | programs search protein databases using a protein query |
| BLASTX | search protein databases using a translated nucleotide query(一条核酸序列会被翻译成可能的六条蛋白) |
| TBLASTN | search translated nucleotide databases using a protein query |
| TBLASTX | search translated nucleotide databases using a translated nucleotide query |
构建数据库 makeblastdb
BLAST数据库分为核酸数据库和氨基酸数据库,可以用makeblastdb创建
makeblastdb -in Arabidopsis_thaliana.TAIR10.dna.toplevel.fa -dbtype nucl -out TAIR10 -parse_seqids
-dbtype:必须,赋值为nucl或者prot,代表是核酸或者氨基酸序列。
-in:非必须,要构建数据库的文件名。
-input_type:非必须,制定输入文件的格式,赋值为asn1_bin、asn1_txt、blastdb、fasta,默认为fasta。
-title:非必须,数据库标题,默认为-in输入文件名(加上不同的后缀)。
-parse_seqids:非必须,对于fasta格式文件,会分析输入序列ID;对于其他格式文件,自动分析。
-hash_idex:非必须(建议有),创建序列的hash。
-out:非必须(建议有),数据库名称,默认为-in输入文件名。
-max_file_sz:,非必须,数据库最大容量,默认为1GB。
-logfile:非必须(建议有),输出建立数据库时的log文件。在批量处理数据时候,可以检查数据库构建是否正确。默认输出到屏幕
结果
生成的数据库中有三个主要的文件——库索引(indices),序列(sequences)和头(headers)文件。
生成的文件的扩展名分别是:.pin、.psq、.phr(对蛋白质序列)或.nin、.nsq、.nhr(对核酸序列)。而其他的序列识别符和索引则包含在.psi和.psd(或.nsi和.nsd)中。
注意:自己生成的数据库中序列命名有以下三种形式:
a) > gnl|database|identifier
b) > lcl|identifier
c) > identifier

本文详细介绍了如何在Linux系统下安装并配置BLAST+可执行程序,包括下载最新版本、环境变量设置、数据库构建、查询方式及参数详解。涵盖了BLASTN、BLASTP等五种查询方式,以及makeblastdb数据库创建和blastdbcmd数据库操作命令。适合生物信息学研究者和数据分析师参考。
8656

被折叠的 条评论
为什么被折叠?



