带简并碱基的短序列比对工具seedtop

2010-05-03 18:30 · anny

blast是机器猫的口袋,里面的工具五花八门,却不能乱用。 可能你对blastx、blastn、blastp都很了解,却不太会注意到还有个seedtop。 前三种工具可用于较长序列的比对,可以容忍简并碱基的存在,把他们一律当成“N”来处理; 也可用于短

blast是机器猫的口袋,里面的工具五花八门,却不能乱用。

可能你对blastx、blastn、blastp都很了解,却不太会注意到还有个seedtop。

 

前三种工具可用于较长序列的比对,可以容忍简并碱基的存在,把他们一律当成“N”来处理;

也可用于短序列 比对,但不允许有模糊的简并碱基存在。

 

如果你想从输入序列中找到哪些序列包含目标结构域motif以及所在的位置,或找出哪些motif出现在这些序列中,就要通过结构域与该序列进行比对来实现。

通常结构域是短的,并且带有简并碱基,例如AACNNNNNNRTAYG ,这时就可以用seedtop来进行序列比对。

 

它就在本地化blast包里面,用法如下:

1.结构域输入格式:

 ID motif1

 PA [LIVMF]-G-E-x-[GAS]-[LIVM]-x(5,11)-R-[STAQ]-A-x-[LIVMA]-x-[STACV].



ID motif2

PA [LIVM]-[VIC]-x-{H}-G-[DENQTA]-x-[GAC]-{L}-x-[LIVMFY](4)-x(2)-G.

2.数据库格式化

用formatdb将fasta格式的数据库格式化

3.命令

seedtop -k pattern.txt -d refseq_protein -p patternp -o db.out

4.输出结果

seqno=892602    gi|33859524|ref|NP_034048.1|

ID  Cyclic nucleotide-binding domain signature 1

PA  [LIVM]-[VIC]-x-{H}-G-[DENQTA]-x-[GAC]-{L}-x-[LIVMFY](4)-x(2)-G

HI (449 450) (452 454) (456 457) (459 462) (465 465)

seqno=892873    gi|51470807|ref|XP_290552.4|

ID  Cyclic nucleotide-binding domain signature 1

PA  [LIVM]-[VIC]-x-{H}-G-[DENQTA]-x-[GAC]-{L}-x-[LIVMFY](4)-x(2)-G

HI (374 375) (377 379) (381 382) (384 387) (390 390)

具体用法解释参考资料:

BLAST Program Selection Guide

Search for Sequence Patterns Using seedtop

 

附:

国际纯化学和应用化学联合会碱基符号

Deoxyadenine    A

Deoxycytosine    C

Deoxyguanidine    G

DeoxyThymidine    T

Deoxyuracil    U

Deoxyinosine    I

A+C+G    V

A+T+G    D

T+C+G    B

A+T+C    H

A+T    W

C+G    S

T+G    K

A+C    M

C+T    Y

A+G    R

A+G+C+T    N

 

关键词: