blast是机器猫的口袋,里面的工具五花八门,却不能乱用。
可能你对blastx、blastn、blastp都很了解,却不太会注意到还有个seedtop。
前三种工具可用于较长序列的比对,可以容忍简并碱基的存在,把他们一律当成“N”来处理;
也可用于短序列 比对,但不允许有模糊的简并碱基存在。
如果你想从输入序列中找到哪些序列包含目标结构域motif以及所在的位置,或找出哪些motif出现在这些序列中,就要通过结构域与该序列进行比对来实现。
通常结构域是短的,并且带有简并碱基,例如AACNNNNNNRTAYG ,这时就可以用seedtop来进行序列比对。
它就在本地化blast包里面,用法如下:
1.结构域输入格式:
ID motif1
PA [LIVMF]-G-E-x-[GAS]-[LIVM]-x(5,11)-R-[STAQ]-A-x-[LIVMA]-x-[STACV].
ID motif2
PA [LIVM]-[VIC]-x-{H}-G-[DENQTA]-x-[GAC]-{L}-x-[LIVMFY](4)-x(2)-G.
2.数据库格式化
用formatdb将fasta格式的数据库格式化
3.命令
seedtop -k pattern.txt -d refseq_protein -p patternp -o db.out
4.输出结果
seqno=892602 gi|33859524|ref|NP_034048.1|
ID Cyclic nucleotide-binding domain signature 1
PA [LIVM]-[VIC]-x-{H}-G-[DENQTA]-x-[GAC]-{L}-x-[LIVMFY](4)-x(2)-G
HI (449 450) (452 454) (456 457) (459 462) (465 465)
seqno=892873 gi|51470807|ref|XP_290552.4|
ID Cyclic nucleotide-binding domain signature 1
PA [LIVM]-[VIC]-x-{H}-G-[DENQTA]-x-[GAC]-{L}-x-[LIVMFY](4)-x(2)-G
HI (374 375) (377 379) (381 382) (384 387) (390 390)
具体用法解释参考资料:
BLAST Program Selection Guide
Search for Sequence Patterns Using seedtop
附:
国际纯化学和应用化学联合会碱基符号
Deoxyadenine A
Deoxycytosine C
Deoxyguanidine G
DeoxyThymidine T
Deoxyuracil U
Deoxyinosine I
A+C+G V
A+T+G D
T+C+G B
A+T+C H
A+T W
C+G S
T+G K
A+C M
C+T Y
A+G R
A+G+C+T N