Blastdb

本文详细介绍了如何在Linux系统下安装并配置BLAST+可执行程序,包括下载最新版本、环境变量设置、数据库构建、查询方式及参数详解。涵盖了BLASTN、BLASTP等五种查询方式,以及makeblastdb数据库创建和blastdbcmd数据库操作命令。适合生物信息学研究者和数据分析师参考。

安装

ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/中下载最新的BLAST可执行程序

wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.9.0+-x64-linux.tar.gz
mv ncbi-blast-2.9.0+ ~/local/app/ # 移动
cd ~/local/app/                    # 进入本地程序安装路径
mv ncbi-blast-2.2.30+ blast        # 修改目录名

将BLAST+可执行程序所在目录(bin)的绝对路径加入到环境变量$PATH中,方便通过程序名直接调用

export PATH=/db/home/shenwei/local/app/blast/bin:$PATH

source .bashrc

五种查询方式

BLASTN programs search nucleotide databases using a nucleotide query
BLASTP programs search protein databases using a protein query
BLASTX search protein databases using a translated nucleotide query(一条核酸序列会被翻译成可能的六条蛋白)
TBLASTN search translated nucleotide databases using a protein query
TBLASTX search translated nucleotide databases using a translated nucleotide query

构建数据库 makeblastdb

BLAST数据库分为核酸数据库和氨基酸数据库,可以用makeblastdb创建

makeblastdb -in Arabidopsis_thaliana.TAIR10.dna.toplevel.fa -dbtype nucl -out TAIR10 -parse_seqids

-dbtype必须,赋值为nucl或者prot,代表是核酸或者氨基酸序列。

-in非必须,要构建数据库的文件名。

-input_type:非必须,制定输入文件的格式,赋值为asn1_bin、asn1_txt、blastdb、fasta,默认为fasta。

-title:非必须,数据库标题,默认为-in输入文件名(加上不同的后缀)。

-parse_seqids:非必须,对于fasta格式文件,会分析输入序列ID;对于其他格式文件,自动分析。

-hash_idex:非必须(建议有),创建序列的hash。

-out:非必须(建议有),数据库名称,默认为-in输入文件名。

-max_file_sz:,非必须,数据库最大容量,默认为1GB。

-logfile:非必须(建议有),输出建立数据库时的log文件。在批量处理数据时候,可以检查数据库构建是否正确。默认输出到屏幕

结果

生成的数据库中有三个主要的文件——库索引(indices),序列(sequences)和头(headers)文件。

生成的文件的扩展名分别是:.pin、.psq、.phr(对蛋白质序列)或.nin、.nsq、.nhr(对核酸序列)。而其他的序列识别符和索引则包含在.psi和.psd(或.nsi和.nsd)中。

注意:自己生成的数据库中序列命名有以下三种形式:

a) > gnl|database|identifier

b) > lcl|identifier

c)  > identifier

别名

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值