数据库网址 | 做生信分析不知道去哪找数据?14个常用数据库一次说清楚

乔粒科研工坊 · 以解牛之法析生信,观微雀之形览科研。

做生信分析,找数据是第一步,但公共数据库数量庞大、类型繁多,刚入门时很容易犯迷糊。这篇文章按功能把常用数据库分了几个大类,每类挑重点的简单介绍,附上网址,方便查阅。

一、 常用数据库分类汇总

大类代表数据库核心用途
核酸序列GenBank、RefSeq、SRA、miRBase存储DNA/RNA序列及注释
基因组Ensembl、UCSC、GENCODE基因组浏览与注释
基因表达GEO、TCGA、GTEx、ArrayExpress表达谱数据挖掘
蛋白质UniProt、PDB、AlphaFold、InterPro蛋白序列、结构与功能
互作与通路STRING、KEGG、ReactomePPI网络与通路富集
疾病与变异ClinVar、dbSNP、GeneCards、DisGeNet变异注释与疾病基因
药物与化合物PubChem、DrugBank、ChEMBL药物靶点与化合物信息
国内资源CNCB-NGDC多组学综合数据

二、选择依据

不同分析需求对应不同数据库

1.明确分析目的

  • 找序列 → GenBank、RefSeq
  • 找表达数据 → GEO(通用)、TCGA(癌症)
  • 找蛋白信息 → UniProt
  • 找通路 → KEGG
  • 找蛋白互作 → STRING
  • 找疾病基因 → GeneCards、DisGeNet

2.确认数据格式需求

  • 原始测序数据(FASTQ)→ SRA
  • 处理后表达矩阵 → GEO、TCGA(GDC Portal)
  • 基因注释文件(GTF/GFF)→ Ensembl、GENCODE
  • 变异数据(VCF)→ ClinVar、dbSNP、1000 Genomes

3.是否需要在线可视化

  • 基因组浏览 → UCSC Genome Browser、Ensembl
  • 肿瘤突变可视化 → cBioPortal
  • 蛋白结构查看 → PDB、AlphaFold DB

三、各数据库简要介绍

🧬 1.核酸序列数据库

这类数据库是存储DNA和RNA原始序列及其注释的基础资源。

GenBank:全球最大的基因序列数据库,由NCBI维护,收录所有公开的DNA序列,是序列比对的默认来源。
网址:https://www.ncbi.nlm.nih.gov/genbank

EMBL-EBI / ENA:欧洲维护的核酸序列数据库,与GenBank数据实时同步,三方(NCBI、EMBL、DDBJ)组成国际核酸序列数据库联盟。
网址:https://www.ebi.ac.uk/ena

RefSeq:NCBI提供的经过人工校验的非冗余参考序列数据库,基因组比对和基因注释的首选。
网址:https://www.ncbi.nlm.nih.gov/refseq

miRBase:存储所有物种microRNA序列和注释的专用数据库,做miRNA分析绕不开它。
网址:https://www.mirbase.org

SRA:存储高通量测序原始数据的最大公共数据库,下载FASTQ文件的主要来源。
网址:https://www.ncbi.nlm.nih.gov/sra

🧬2. 基因组数据库

存储完整基因组序列、基因结构及注释信息。

Ensembl:由EBI和Sanger研究所共同维护,提供脊椎动物等模式生物基因组的可视化浏览和注释,GTF/GFF注释文件大多从这里下载。
网址:https://www.ensembl.org

UCSC Genome Browser:功能强大的基因组可视化平台,支持多种track叠加查看基因注释、变异位点、保守性、ENCODE数据等。
网址:https://genome.ucsc.edu

GENCODE:提供人类和小鼠基因组高质量基因注释的权威数据库,ENCODE项目的配套注释来源。
网址:https://www.gencodegenes.org

📈3. 基因表达数据库

GEO:全球最大的基因表达数据仓库,收录芯片和RNA-seq数据,格式统一,R语言的GEOquery包可直接下载,入门友好。
网址:https://www.ncbi.nlm.nih.gov/geo

ArrayExpress:EBI维护的功能基因组学数据库,与GEO功能类似,可以作为GEO的补充来源。
网址:https://www.ebi.ac.uk/arrayexpress

TCGA:癌症多组学数据的"金标准"数据库,涵盖33种癌症的基因组、转录组、表观组和临床数据,肿瘤方向研究者的核心数据源。
网址:https://portal.gdc.cancer.gov

GTEx:提供基因在人体54个正常组织中表达情况的数据,是做"正常vs疾病"比较时的重要对照来源。
网址:https://gtexportal.org

Expression Atlas:提供基因在多种物种、不同条件和组织中的差异表达信息,适合快速查询某基因的表达概况。
网址:https://www.ebi.ac.uk/gxa

🧪4. 蛋白质数据库

UniProt:全球最权威的蛋白质序列与功能知识库,核心子库Swiss-Prot为人工校验的高质量数据库,查蛋白功能、结构域、翻译后修饰的首选。
网址:https://www.uniprot.org

PDB:全球唯一的大分子三维结构实验数据存储库,做蛋白结构分析绕不开它。
网址:https://www.rcsb.org

AlphaFold DB:DeepMind开发的基于AI预测的蛋白质结构数据库,覆盖范围远超实验解析的结构数量。
网址:https://alphafold.ebi.ac.uk

InterPro:蛋白质家族、结构域和功能位点的分类系统,做蛋白功能注释时比较常用。
网址:https://www.ebi.ac.uk/interpro

🔗 5.蛋白质互作与通路数据库

STRING:最常用的蛋白-蛋白互作(PPI)数据库,整合了实验验证、计算预测和文献挖掘等多种来源,输入基因列表即可生成互作网络。
网址:https://string-db.org

KEGG:最核心的通路数据库之一,提供手工绘制的代谢、信号转导等通路图,功能富集分析的标配。部分高级功能需付费。
网址:https://www.kegg.jp

Reactome:开放获取、人工注释和同行评审的生物通路数据库,KEGG的优质替代选择,且完全免费。
网址:https://reactome.org

BioCyc:收集了数千个生物体的代谢通路和基因组信息,做代谢通路分析时可以参考。
网址:https://biocyc.org

🩺6. 疾病与变异数据库

ClinVar:收录人类变异与其临床意义(致病性等)关联的数据库,变异解读的重要参考。
网址:https://www.ncbi.nlm.nih.gov/clinvar

dbSNP:NCBI维护的SNP及其他小规模变异数据库,查变异位点基本信息的基础来源。
网址:https://www.ncbi.nlm.nih.gov/snp

GeneCards:提供人类基因的基因组、遗传、临床和功能等综合信息的数据库,查某个基因的"一站式"信息很方便。
网址:https://www.genecards.org

DisGeNet:整合了基因-疾病关联的数据库,做疾病相关基因挖掘时比较有用。
网址:https://www.disgenet.org

Open Targets:用于识别和优先排序与疾病相关的潜在药物靶点基因的平台,偏转化研究方向。
网址:https://www.opentargets.org

1000 Genomes:提供了全球2504个个体的遗传变异参考图谱,群体遗传学分析的基础数据集。
网址:https://www.internationalgenome.org

💊 7.药物与化合物数据库

PubChem:NCBI维护的化合物分子数据库,包含化合物结构、生物学活性和临床信息。
网址:https://pubchem.ncbi.nlm.nih.gov

DrugBank:提供详细的药物、药物靶点和药物相互作用信息的综合数据库,做药物重定位或靶点分析时比较常用。
网址:https://go.drugbank.com

ChEMBL:收录大量具有生物活性的药物样分子的化学和基因组信息数据库,EBI维护。
网址:https://www.ebi.ac.uk/chembl

8. 国内数据库

CNCB-NGDC:国家生物信息中心建立的多组学综合数据平台,已上线118个专业数据库,覆盖基因组、变异组、转录组、表观组等,是国内生信数据资源的重要补充。
网址:https://www.cncb.ac.cn

实际分析中,通常需要组合使用多个数据库。比如从GEO下载表达数据,得到差异基因列表后,用clusterProfiler调用GO和KEGG做功能富集,再用STRING构建蛋白互作网络,最后用Cytoscape可视化。

建议把本篇文章收藏起来当索引,需要搜索数据的时候可以对着分类表找对应数据库,可以省不少我们翻找的时间。

乔粒科研工坊 · 以解牛之法析生信,观微雀之形览科研

今天的数据库分享就到这里啦,欢迎批评指正!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值