跳转至

GO注释下载数据库来源: 1. GO官网 格式是GAF. 只有几种动物和模式生物 2. EBI的GOA项目下载 只有几种常见动物和模式生物,格式是GAF. 3. NCBI的基因ftp数据库 包含gene2go,gene2ensembl,gene2pubmed等,每天或每周更新,包含所有物种的信息 4. Bioconductor的Annotationhub数据库 直接搜索自己所研究的物种的拉丁学名,即可找到对应的sqlite文件。此数据库来源于3.NCBI的基因数据库,选择的时候,尽量使用最新版本的。也可以自己从3.NCBI的数据库下载,之后本地构建最新版本的sqlite文件。 例如:玉米是org.Zea_mays.eg.sqlite
sqlite文件主要用于R语言中做富集分析使用,例如:clusterProfiler可以使用这个数据库。下载的服务器(国外)是s3.amazonaws.com,默认15kb/s,需要自行加速下载。 1和2基本是相同的,3和4是相同的。4来源于3.

uniref100,uniref90,uniref50是蛋白质数据库 uniref100是包含所有的已经验证的蛋白质的序列 UniRef90基于UniRef100构建,而UniRef50基于UniRef90构建. UniRef90和UniRef50分别使数据库大小减少了约58%和79%,从而显着加快了序列相似性搜索. 下载地址 uniref100 uniref90 uniref50

数据下载工具axel

命令行常用的wget和curl是单线程下载,速度非常慢。 axel -n 24 ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/uniref90.fasta.gz 使用24个下载线程,下载速度大大提高。

回到页面顶部