针对DNA、RNA以及蛋白质序列,我们需要对其进行序列相似性搜索,来研究分析不同序列在结构和功能上相同与差异
相似性【similarity】/一致性【identity】 <==> 双序列比对( Pairwise sequence Alignment )
同源性【homology】 <==> 多序列比对 (Multiple Sequence Alignment)
旁系同源【paralogs】:同祖同种不同功直系同源【orthologs】:同祖不同种同功
序列之间的相似性越高 => 序列为同源序列的可能性越高但同源序列不一定相似(趋异进化),相似序列不一定同源(趋同进化)
双序列比对:
全局比对 / 局部比对
局部比对:寻找最优匹配的 子序列
最佳比对查找方法:动态规划算法(Dynamic programming)
Needleman-Wunsch Algorithm(for Global Alignment )
Smith-Waterman Algorithm(for Local Alignment)
常用工具:BLAST FASTA
BLAST:
Blastn:核酸检索核酸库Blastp:蛋白质检索蛋白质库Blastx:核酸(先翻译6ORFs)检索蛋白质库tblastn:蛋白质检索核酸库(先翻译)tblastx:核酸(先翻译)检索核酸库(先翻译)PSI-BLAST:远亲蛋白bl2seq:two seq
FASTA:
FASTA <=> Blastn;BlastpFASTX <=> BlastxTFASTAX <=> tblastn
蛋白质计分矩阵
PAM ( accepted point mutations )
BLOSUM ( blocks substitution matrix )
多序列比对
精确法 (Exact)/ 高维动态规划算法 (DP): 慢,耗内存 , 序列极少时才可行渐进法 (Progressive methods): CLUSTALW( 树形比对 )、 星形比对迭代法 (Iterative methods): non-stochastic: MAFFT, MUSCLE; stochastic:GA, SA, HMM一致法 (Consistency-based methods): T-Coffee基序法 (Motif finding)/ 轮廓分析法 Profile analysis)