种群结构——系统进化树的构建

最近杂事真的很满,终于有时间更新了。。。。

通过上一篇文章的介绍,已经清楚了进化树的基本概念,那么如何获得可信的进化树呢?

对于群体遗传分析,通常基于群体SNPs位点数据构建系统发育树。所以,接下来我主要以SNPs数据为例,介绍一下进化树的构建方法。

序列比对->;选树方法-& gt;计算最佳替代模型->;系统发育树的建立->;进化树美化

常见的序列比对软件有Clustal和Muscle。

Clustal不仅有自己独立的软件(各种操作系统支持),还经常集成到一些常用软件中,如Bioedit和MEGA。

Muscle还支持多种操作系统。

两个软件的引用频率都很高,没有绝对的谁好谁坏,哪个方便就用哪个。

1,基于距离的方法距离方法:

基于距离的方法:首先通过物种间的比较,按照一定的假设(进化距离模型)推导出分类群间的进化距离,构建一个进化距离矩阵。进化树的构建是基于这个矩阵中的进化距离关系。

2.基于字符的方法特征方法:

基于特征的方法:不计算序列之间的距离,而是将序列中的不同位点视为独立的特征,并根据这些特征构建树。

型号选择的依据如下:

UPGMA方法已经用的比较少了。一般来说,如果型号合适,ML的效果更好。对于相关序列,有些人喜欢MP,因为它使用的假设最少。MP一般不用于远序列,此时一般用NJ或ML。对于相似度较低的序列,NJ中常出现长枝吸引(LBA),有时会严重干扰进化树的构建。贝叶斯方法太慢了。关于各种方法构建分子系统树的准确性,有综述(Hall BG,2005)认为贝叶斯方法最好,其次是ML和MP。事实上,如果序列相似度高,所有的方法都会得到很好的结果,模型之间的差异也不大。但是,NJ是现在文章中广泛使用的ML模型。

在系统发育分析中,最大似然法(ML)和贝叶斯法(BI)是两种对备选模型非常敏感的算法。因此,在用ML法或BI法重建系统发育树之前,备选模型的选择是一个必不可少的过程。

关于Win操作系统下jModelTest的使用,请参考这篇文章:举例说明核苷酸替换模型的选择——张洪磊的jModeltest。

关于PROTECT的用法,请参考这篇文章:使用PROTECT选择最佳氨基酸替换模型。

我自己基本上用的是Linux版的jModelTest,用起来极其简单。这些命令如下所示:

参数描述:

-d:输入文件。立正!这个软件需要输入一个文件。phy格式,不是。fasta格式。

-f:包括基本频率不相等的型号

-g:包括不同地点和类别数量的费率变化模型

-i:包括具有比例不变站点的模型

-s:替代方案的数量

-v:进行模型平均和参数重要性

-a:估计每个有效标准的模型平均系统发育

——BIC:计算贝叶斯信息准则

-AIC:计算赤池信息标准

在结果的底部,有一个如图的列表,是得分最高的车型。

计算出最佳模型后,我们就开始做出成绩。对于ML树的构建,我们推荐你使用新一代的RAXML-RAXML-NG。

RAxML一直是ML树构建的经典工具,由来自德国海德堡理论研究所的Alexandros Stamatakis开发。近年来,它的江湖地位也受到了其他软件的挑战,尤其是IQ-Tree。周等人的文章《使用智能系统发育数据集评估基于快速最大似然的系统发育程序》系统地比较了RAxML、IQ-TREE、FastTree和Phyml的实际效果和性能,其中一个结论是IQTREE在准确性上略胜一筹。

最近发布了RAxML的升级版raxml-ng!

与上一代产品相比,raxml-ng具有以下优势:

话不多说,直接成绩:

参数描述:

- all:执行一体化分析(ML树搜索+非参数引导)

- msa:用于后续序列文件

-模型:直接输入上一步生成的最佳模型。

- bs-trees:检查树的健壮性,进行bootstrap测试,进行1000 bootstrap采样。

-线程:给定的线程

运行后的结果如下图所示,其中。bestTree就是我们想要的树文件,导入树可视化工具就行了(我一般用MEGA和iTOL),下次再写如何美化进化树。

做进化分析的工作者可能会有一种感觉,很多分析要等好几天,尤其是成果(做过的人都知道其中的痛苦),有时候突然加一个样本又得从头再来。所以,强大的服务器是必备的工具。比如上面提到的SNP进化树,我做的只是相似物种,而且基因组很小(9M),有4万个SNP位点。如果我要用我的软件MEGA调用我电脑的8核CPU,自研值1000可能会跑到毕业。

从一个生物出身的我,抄袭了那点可怜的计算机知识,我们课题组买服务器的时候我做了很多功课。当然主要还是听了公司技术人员的建议,通过我非常非常长期的测试,多次使用常用的生物信息学分析软件(主要从事寄生虫基因组、宿主转录组、16S宏基因组等的研究,).最后我找到了一个性价比很高的服务器配置,具体配置如下:

真心感谢凤味的技术兄弟姐妹们回答各种低级问题。有什么需要可以联系他们的技术,感觉挺靠谱的。官方网站:凤味科技。

把他们的标志放在上面以示感谢。

本文是我的学习笔记,希望对大家有所帮助。本文参考了大量的网络文章,文章的来源列在了全文的最后。

参考:

阅读一篇文章中的进化树

利用ProtTest选择最佳氨基酸替代模型

RAxML-ng,新一代的RAxML进化树构建