本文来自作者[admin]投稿,不代表东辰文化立场,如若转载,请注明出处:http://www.mzwhys.cn/zlan/202506-2607.html
从B10K财团的数据库中收集了禽家族的家庭水平系统基因组数据。其中包括63,430个均匀间隔的基因座基因座,每个基因座的长度为1 kb ,以及15,093个直系同源基因的编码区域 。对于每种数据类型,我们选择了每个鸟类家族的代表,可为其提供最大的核苷酸完整性 ,提供218个采样尖端的样本。家庭中的其他样本被排除在于最大程度地减少可能误导家庭水平推论的节点密度效应。为了对预期同义词(DS)和非同义(DN)取代的分支长度进行可靠的估计,我们过滤了编码区域,以排除密码子,其中三个位置中的任何一个中的任何一个超过50%的分类单位都超过50% ,而最常见的氨基酸则在不到50%的纳税纳中出现 。在每个地区,我们还排除了不到30%的核苷酸可用的分类单元。在此步骤之后剩余剩余分类单元少的地区被排除在进一步的分析之外,生成了一个最终数据集 ,该数据集具有63,174个基因间和14,849个编码区。
为了推断每个基因组区域的进化速率,我们在固定树拓扑上使用了分支长度的系统发育估计值。我们强迫每个区域的树拓扑符合B10K财团报告的家庭水平关系,使用从多物种合并下从基因间区域推论的物种树 。使用IQ-Tree(v2.1.2)58中GTR+F+R57家族的最佳拟合模型估算了来自基因间区域的系统发育分支长度。编码区用于推断DN和DS分支长度。我们首先使用PAML中的最大似然使用模型HKY+γ和F3×4分别用于核苷酸和密码子取代的DN和DS估计DN和DS的距离矩阵 。对于每个基因 ,使用Erable60将最大似然DN和DS距离矩阵转换为物种树中的分支长度。
我们使用ClockStarx29在每个物种树枝的每个基因座中提取分支长度,然后使用家庭级时树估计值转换为速率(补充数据5)。为了避免由于分子数据中缺乏信号而增加误差,我们排除了每个位点估计长度小于5×10-6取代的分支 。ClockStarx也可以进行每个基因座具有自由拓扑的分析 ,但导致了大量数据损失,包括大部分在深部分支处的基因,就像在古老的系统中所期望的那样 ,具有大量不完整的谱系分类和复杂的系统发育误差。这些分析没有进一步考虑。使用强制拓扑结构的分析必须承认,尽管数据可能显示出以这种方式汇总基因树时的进化率变化模式,但这些模式可能是由于在具有不一致拓扑的基因树附近分支上发生的过程引起的 。40。尽管如此,从全基因组数据推断出的物种树为任何给定基因座所遵循的进化史提供了合理的假设。
为了探索特定物种特征是否解释了分子率 ,我们从一系列数据库和原始文献中收集了特征数据(有关每个变量的描述,请参见补充数据1) 。我们总共收集了23种特征,这些特征在鸟类种类之间进行了完整或几乎完整的采样 ,包括5种生活和人口统计学特征(离合器的大小,寿命,寿命 ,产生的长度,丰度和发育模式,从非洲性到早熟) ,7个形态学特征(喙,喙尺寸,尾巴长度 ,尾巴长度,尾巴,尾巴,尾巴 ,尾巴,尾巴,尾巴 ,尾巴),尾巴,尾巴 ,尾巴,尾巴,尾巴 ,尾巴,尾巴,尾巴 ,尾巴,尾巴,5个,5个 ,5个形态学特征,5个形态特征,尾巴 ,尾巴,尾巴,尾巴 ,尾巴,5个习惯,5个习惯 ,5个。营养水平,迁移和主要生活方式),4个地理特征(绝对质心纬度 ,纬度跨度,质心经度和范围规模)和2个环境特征(平均年温度和年度降水)。发育模式的变量来自以前的工作61,是第一个主要成分,它解释了一组可能区分偏生和早体性物种的特征中差异的60%。我们将喙大小计算为喙长 ,宽度和高度的第一个主要成分,解释了89%的方差 。使用系统发育插定添加了机翼长度和发育模式的缺失值,假设在rphylopars62中实现了布朗运动模型的特征演化模型。跨变量 ,家庭平均值和模式分别用于连续和离散的特征。连续变量被验证以遵循对数缩放 。这导致我们进行大多数变量的自然对数转换,但温度和经度除外。
随后的回归分析使用针对基因组采样的单个物种的性状值进行了两种特质数据处理,或在相应家族中所有物种中取平均值。提供了两种分析的结果(补充数据3) 。对家庭平均值的重点反映了这样一个事实 ,即分子速率的估计值对应于采样的个体与共同祖先与其姐妹家族之间的进化路径的平均值相对应,遵循有关进化率的现有文献63。这种方法解决了估计进化速率时内部节点的潜在影响,但没有明确考虑分子变化对多样化事件的影响64,65。与该信号一致 ,使用家庭平均特征数据来解释分子速率的模型,导致总体回归R2值比使用采样物种的性状数据更高 。
贝叶斯和频繁的回归用于评估分子进化率是否通过采样的特征来解释。我们将每个家族平均速率的估计值(在所有DN,DS ,ω和基因间区域)定义为响应变量。使用贝叶斯混合效应线性建模框架,参数推断是通过软件包BRMS68中实现的NO u-Turn Sampler66,67进行的 。通过使用贝叶斯模型,我们能够比通过常见的框架更充分地包括收缩之前的收缩和减轻有限样本量。此外,该框架自然会通过可靠的间隔(而不是p值)围绕重要系数周围的不确定性。使用对数转换的分子速率估计值 ,我们假设高斯的可能性,
然后假定线性预测μ具有混合效应结构。固定效果包括收集的19个连续特征中的每一个,形成了一个矩阵 ,其中包含X中的截距 。我们通过将其标准偏差的居中和缩放率归为标准化的协变量69。然后将随机效应包括在三个分类变量中包括:栖息地(U1,I),营养水平(U2 ,I)和主要的生活方式(U3,i),以独立标准偏差参数为高斯随机效应:
系统发育效应被捕获为多元高斯随机效应:
其中 ,σ是从我们固定时间树中的方差 - 交流矩阵,假设特征进化的布朗运动模型,然后在分析过程中通过系统发育对性状对性状的影响进行缩放 ,使用参数。为了添加缩放参数的后验收敛,将原始σ矩阵缩放到相关矩阵与1个最新共同血统的时间 。因此,最终的线性预测指标为::
选择了先验的分布,以确保将参数收缩至零 ,从而假设固定效应和随机效应对响应变量没有影响。
使用Markov链蒙特卡洛(Monte Carlo)进行参数采样,每个链条进行104次迭代。通过RHAT统计70以及Markov Chain Monte Carlo Trace评估了后部收敛到固定分布 。
为了补充贝叶斯回归分析,我们实施了频繁的对应物 ,仅解释了两种方法之间一致的结果。使用Pagel的Pagel的Lambda模型沿系统发育71实施,将每个分子速率作为响应和包括特征变量作为协变量的模型进行,并以系统发育回归的形式实现。在频繁分析中 ,由于少数因子水平的不平衡,使参数优化复杂化,因此不包括营养水平的变量 。使用快速最大的最大样本祖先的重建 ,在Phytools73中实现的快速最大可能的祖先重建,对性状数据的分布进行了可视化。在Phangorn74的支持下处理系统发育数据。
还以基因速率水平测试了解释进化速率的变量 。对于每个基因,我们计算了每种类型的速率(DN ,DS,ω和基因间区域)的平均值和所有家族中的GC比例。然后,我们将沿染色体的位置计算为距每个染色体末端的比例距离。距离为0的基因最接近染色体结尾,而距离为1的基因表示最接近染色体中间的基因。贝叶斯和频繁的多个回归用于评估是否通过GC含量 ,基因长度和基因位置来解释每种分子速率类型 。我们还将这些变量之间的双向相互作用包括在这些模型中。为了解决模型错误指定对这些分析的可能效果,我们使用了IQ-Tree2(参考文献76)实现的均匀性的匹配对测试,以及参数回归来评估FIT77和基本构图非平稳性的良好性78,79 ,如PhyloMAD80中所实现。我们将每个测试中的结果统计数据添加为协变量,并且没有发现其中任何一个都对结果产生了重大影响 。我们报告了包括边际对称性测试的模型的结果,因为协变量可能会考虑可能的系统发育模型错误指定 ,并使所有模型错误指定指标可在线提供(补充数据2)。
随机森林为比较分析提供了替代方案,同时捕获可能的相互作用和非线性。我们研究了在随机森林框架中特征作为预测因素的重要性得分 。我们包括了500棵树林,这些森林随机选择了五倍的交叉验证 ,并进行了五个迭代用于超参数调整,并将根平方误差作为回归性能的度量(补充数据6),如Caret81所实现。尽管随机森林可以从线性回归所显示的森林中捕获其他预测性联系 ,但它们并不纳入由系统发育相关性引起的样品中的非独立性,因此它们也可以引入偏见。
我们测试了每个染色体的平均分子速率是否不同于基因组基因组的平均预期 。为此,我们进行了每个染色体的排列,涉及与染色体相同大小相同的1,000个基因座的随机绘制。我们对每个染色体进行了这种置换 ,并计算了相对于排列分布的平均经验染色体速率的z评分。
我们进行了速率分解分析,以识别主导分子速率变化的谱系和基因 。这是在ClockStarx29中独立的(DN,DS ,ω和基因间区域)的Clockstarx29完成。为了允许在检查基因间区域时的计算效率,我们分析了三个随机样品,分别为10,000个基因座 ,并确认每个样品的结果是一致的。分解的基本方法在矩阵中收集速率估计值,该矩阵的行代表基因座,列代表了物种树估计中的完整谱系(分支)。然后 ,将这种数据结构分解,以使用主成分分析来识别变异的主轴 。该软件执行数据矩阵的置换,并使用两个测试统计ψ和φ82汇总了每个组件处的特征值。这些统计数据以及每个主要成分上的谱系载荷允许测试每个主成分和谱系载荷是否贡献了比随机样品在整个数据82(α= 0.01)中的预期更大的变化。这种方法下的主要假设是物种树是准确的 ,并且在很大程度上与基因树一致 。由于这种假设通常是由于系统发育误差和基因树的不一致而违反的,因此该方法下的所有推论都涉及所讨论的分支或来自类似系统发育树的相邻分支,实际上可能发生了替代。83。
我们探讨了对速率轴差异的谱系贡献是否与我们全面的任何特征有关,因此主要组成部分可能是由家庭的生态或生活历史所驱动的 。为此 ,我们首先在每个主要成分上提取了家族(终端分支)的负载,这些组件显着解释了速率的变化。然后,我们开始进行简单和多个系统发育回归 ,在其中测试了特征以解释用于全基因组率指标的主成分负载。
然后,我们探讨了主要成分是否与任何特定的代谢途径或基因功能相关联 。我们在主要成分处提取了20%的基因座,最大值和最小值显着解释了速率的变化。我们使用基因集富集分析来评估基因产物代谢功能的任何过度代表 ,在每个显着速率轴上具有极高和低率的基因座。每个过度分析的分析等效于一个单方面的Fisher对另一个set84内一组基因的不成比例存在的精确检验 。使用最佳的BLASTN Match85推断基因身份,并用作使用ClusterProfiler86测试KEGG术语的输入。使用PathView87可视化和解释途径中的基因。Bonferroni校正用于重要术语的P值。
使用二项式测试评估了20%的显着速率轴极端(主要速率成分)中染色体的过度占代表性 。因此,零假设是一个伯努利实验88 ,其中,在给定染色体中的基因座的比例预计在每个轴的最大20%和最小基因座中相等。为每个染色体和每个重要的主成分进行了此测试,使用主成分内的错误发现率校正了P值。
有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得 。
赞 (1)
评论列表(4条)
我是东辰文化的签约作者“admin”!
希望本篇文章《进化率分解揭示的禽基因组变化驱动因素》能对你有所帮助!
本站[东辰文化]内容主要涵盖:生活百科,小常识,生活小窍门,知识分享
本文概览: 从B10K财团的数据库中收集了禽家族的家庭水平系统基因组数据。其中包括63,430个均匀间隔的基因座基因座,每个基因座的长度为1 kb,以及15,093个直系同源基因的编码...