登录  注册 退出

密码子图书馆

您现在的位置是: 首页 > 生信讲堂 > 生物数据库

生物数据库

Pfam在线注释以及本地化全攻略

欢乐豆 2021-11-04 14:58:55生物数据库
Pfam(http://pfam.xfam.org/)是一个被广泛使用的蛋白家族结构域数据库,其依赖于多序列比对和隐马尔可夫模型(HMMs)鉴定一个或多个蛋白质功能结构域。结构域的不同组合方式产生的蛋白质在自然界中各种不同。因此蛋白结构域的鉴别对分析

Pfam(http://pfam.xfam.org/)是一个被广泛使用的蛋白家族结构域数据库,其依赖于多序列比对和隐马尔可夫模型(HMMs)鉴定一个或多个蛋白质功能结构域。结构域的不同组合方式产生的蛋白质在自然界中各种不同。因此蛋白结构域的鉴别对分析蛋白质的功能来说尤其重要。

Pfam在线注释以及本地化全攻略(图1)


Pfam数据库概述

Pfam数据库中,提供了以下3个不同层级蛋白质家族信息。

1family

每个familyPF编号唯一标识,family可以分为以下5种类型:

Pfam在线注释以及本地化全攻略(图2)

2clans

对多个family进行相似性聚类,将具有相似的三维结构或者相同motiffamily归为一个clan,每个clanCL编号标识。

3proteones

物种的蛋白质组信息说明。查询蛋白质结构域,蛋白质结构域超级家族,物种蛋白质组信息。


Pfam在线注释以及本地化全攻略(图3)


在线注释

Pfam提供了在线分析入口,导航栏中选择SEARCH

1、Sequence

以一条蛋白质序列为例,查找这条蛋白质序列上的结构域,可以用Sequence入口查找:点击->Sequence->输入序列->Submit。

Pfam在线注释以及本地化全攻略(图4)

得到这条蛋白序列上的结构域信息,以及Pfam-A数据库比对上序列,如下:

Pfam在线注释以及本地化全攻略(图5)

2、Batch search

如果获得一个物种的基因蛋白或核酸序列,可以通过Batch search对整个物种的蛋白结构域进行注释。点击->Batch search->选择文件->输入有效邮箱->Submit。注释结果以邮件的形式发送。

Pfam在线注释以及本地化全攻略(图6)

3、Keyword

Keyword提供了通过关键词查找,例如输入关键词:apoptosis(细胞凋亡)。

Pfam在线注释以及本地化全攻略(图7)

得到细胞凋亡相关注释结果。

Pfam在线注释以及本地化全攻略(图8)


Pfam在线注释以及本地化全攻略(图9)


4、Taxonomy

通过输入species names或者序列名称,查找蛋白结构域,例如输入Caenorhabditis 

5、其他

Domain architecture search是通过PfamAlyzer程序构建序列结构域。

Jump to是通过输入Pfam ID查找。


Pfam本地化配置

1、数据库和软件下载

√ PfamScan.pl工具(ftp://ftp.ebi.ac.uk/pub/databases/Pfam/Tools/PfamScan.tar.gz) 

√ 蛋白结构域数据库(ftp://ftp.sanger.ac.uk/pub/databases/Pfam/current_release/),按照说明小编下载的数据如下:

       Pfam-A.hmm.gz

       Pfam-A.hmm.dat.gz  

       Pfam-B.hmm.gz     

       Pfam-B.hmm.dat.gz  

       active_site.dat.gz

注意:Pfam-A为高质量,手工确定的蛋白结构域数据,Pfam-B为基于Pfam-A数据库自动注释得到的蛋白结构域数据库.

√ HMMER3(http://www.hmmer.org/download.html)

√ Anaconda3(https://repo.anaconda.com/archive/Anaconda3-2019.10-Linux-x86_64.sh)

2、安装

Anaconda3安装

sh Anaconda3-2019.10-Linux-x86_64.sh -b -p $HOME/anaconda3
Pfam在线注释以及本地化全攻略(图10)

左右滑动查看

Pfam在线注释以及本地化全攻略(图11)

修改环境变量

export PATH=$HOME/anaconda3/bin:$PATH
Pfam在线注释以及本地化全攻略(图10)

左右滑动查看

Pfam在线注释以及本地化全攻略(图11)
export PERL5LIB="$HOME/PfamScan:$PERL5LIB"
Pfam在线注释以及本地化全攻略(图10)

左右滑动查看

Pfam在线注释以及本地化全攻略(图11)

HMMER3的安装

conda install -c bioconda hmmer=3.1b2
Pfam在线注释以及本地化全攻略(图10)

左右滑动查看

Pfam在线注释以及本地化全攻略(图11)

Moose的安装 

cpan Moose#注意该软件建议用root账号安装
Pfam在线注释以及本地化全攻略(图10)

左右滑动查看

Pfam在线注释以及本地化全攻略(图11)

3、数据库使用

数据库建索引

hmmpress Pfam-A.hmm
Pfam在线注释以及本地化全攻略(图10)

左右滑动查看

Pfam在线注释以及本地化全攻略(图11)

数据库使用

perl $HOME/PfamScan/pfam_scan.pl -fasta xx.faa -dir $HOME/PfamScan/db -outfile xx.pfam.xls -clan_overlap -as -cpu 16 -e_seq 1e-5 -e_dom 1e-5
Pfam在线注释以及本地化全攻略(图10)

左右滑动查看

Pfam在线注释以及本地化全攻略(图11)

参数说明:

-dir  Pfam_data_dir包含Pfam数据库文件的目录[必须]

-fasta fasta_file 包含序列的输入文件名,必须为蛋白序列 [必须]

-outfile output_file 输出文件名 [不指定则输出在命令行中]

-e_seq 序列E-value阈值 [不指定则使用默认阈值]

-e_dom 结构域E-value阈值 [不指定则使用默认阈值]

-b_seq 序列bit score阈值 [不指定则使用默认阈值]

-b_dom 结构域bit score阈值[不指定则使用默认阈值]

-clan_overlap 允许不同上级分类的序列重叠 [默认关闭]

-align 在结果中显示比对片段 [默认关闭]

-as 预测Pfam-A数据库匹配的active sites[默认关闭]

-cpu 并行分析的CPU数目 [默认全部]

-translate [mode] 将输入序列视为DNA,并在搜索前使用6框翻译的方法进行转换。如果翻译模式[mode]被指定,则必须为"all"或者"orf"。"all"表示完整翻译,包括终止子并且不产生单独的ORFs;"orf"表示只翻译和报告长度大于20ORFs。[默认关闭]

输出结果

Pfam在线注释以及本地化全攻略(图24)输出结果说明:

(1) seq_id:蛋白序列编号

(2) alignment start:蛋白序列比对的起始位置

(3) alignment end:蛋白序列比对的终止位置

(4) envelope start:蛋白序列结构域的起始位置

(5) envelope end:蛋白序列结构域的终止位置

(6) hmm acc:比对到pfam结构域的ID

(7) hmm name:pfam结构域名称

(8) type:pfam结构域类型

(9) hmm start:比对到结构域的起始位置

(10) hmm end:比对到结构域的终止位置

(11) hmm length:pfam结构域的长度

(12) bit score:比对打分分值

(13) E-value:比对的E

(14) Significance:比对序列的显著性

(15) Clan:蛋白结构域超级家族名称

(16) predicted_active_site_residues:比对的序列是否位于酶的活性部位

参考文献

The Pfam protein families database. Nucleic Acids Research, 2014.


文献来源:基因凌距离