进化率分解揭示的禽基因组变化驱动因素

  从B10K财团的数据库中收集了禽家族的家庭水平系统基因组数据。其中包括63,430个均匀间隔的基因座基因座,每个基因座的长度为1 kb ,以及15,093个直系同源基因的编码区域 。对于每种数据类型,我们选择了每个鸟类家族的代表,可为其提供最大的核苷酸完整性 ,提供218个采样尖端的样本。家庭中的其他样本被排除在于最大程度地减少可能误导家庭水平推论的节点密度效应。为了对预期同义词(DS)和非同义(DN)取代的分支长度进行可靠的估计 ,我们过滤了编码区域,以排除密码子,其中三个位置中的任何一个中的任何一个超过50%的分类单位都超过50% ,而最常见的氨基酸则在不到50%的纳税纳中出现 。在每个地区,我们还排除了不到30%的核苷酸可用的分类单元 。在此步骤之后剩余剩余分类单元少的地区被排除在进一步的分析之外,生成了一个最终数据集 ,该数据集具有63,174个基因间和14,849个编码区。   为了推断每个基因组区域的进化速率,我们在固定树拓扑上使用了分支长度的系统发育估计值。我们强迫每个区域的树拓扑符合B10K财团报告的家庭水平关系,使用从多物种合并下从基因间区域推论的物种树 。使用IQ-Tree(v2.1.2)58中GTR+F+R57家族的最佳拟合模型估算了来自基因间区域的系统发育分支长度。编码区用于推断DN和DS分支长度。我们首先使用PAML中的最大似然使用模型HKY+γ和F3×4分别用于核苷酸和密码子取代的DN和DS估计DN和DS的距离矩阵 。对于每个基因 ,使用Erable60将最大似然DN和DS距离矩阵转换为物种树中的分支长度。   我们使用ClockStarx29在每个物种树枝的每个基因座中提取分支长度,然后使用家庭级时树估计值转换为速率(补充数据5)。为了避免由于分子数据中缺乏信号而增加误差,我们排除了每个位点估计长度小于5×10-6取代的分支 。ClockStarx也可以进行每个基因座具有自由拓扑的分析 ,但导致了大量数据损失,包括大部分在深部分支处的基因,就像在古老的系统中所期望的那样 ,具有大量不完整的谱系分类和复杂的系统发育误差。这些分析没有进一步考虑。使用强制拓扑结构的分析必须承认 ,尽管数据可能显示出以这种方式汇总基因树时的进化率变化模式,但这些模式可能是由于在具有不一致拓扑的基因树附近分支上发生的过程引起的 。40。尽管如此,从全基因组数据推断出的物种树为任何给定基因座所遵循的进化史提供了合理的假设。   为了探索特定物种特征是否解释了分子率 ,我们从一系列数据库和原始文献中收集了特征数据(有关每个变量的描述,请参见补充数据1) 。我们总共收集了23种特征,这些特征在鸟类种类之间进行了完整或几乎完整的采样 ,包括5种生活和人口统计学特征(离合器的大小,寿命,寿命 ,产生的长度,丰度和发育模式,从非洲性到早熟) ,7个形态学特征(喙,喙尺寸,尾巴长度 ,尾巴长度 ,尾巴,尾巴,尾巴 ,尾巴,尾巴,尾巴 ,尾巴),尾巴,尾巴 ,尾巴,尾巴,尾巴 ,尾巴,尾巴,尾巴 ,尾巴 ,尾巴,5个,5个 ,5个形态学特征,5个形态特征,尾巴 ,尾巴,尾巴,尾巴 ,尾巴,5个习惯,5个习惯 ,5个 。营养水平,迁移和主要生活方式),4个地理特征(绝对质心纬度 ,纬度跨度 ,质心经度和范围规模)和2个环境特征(平均年温度和年度降水)。发育模式的变量来自以前的工作61,是第一个主要成分,它解释了一组可能区分偏生和早体性物种的特征中差异的60%。我们将喙大小计算为喙长 ,宽度和高度的第一个主要成分,解释了89%的方差 。使用系统发育插定添加了机翼长度和发育模式的缺失值,假设在rphylopars62中实现了布朗运动模型的特征演化模型。跨变量 ,家庭平均值和模式分别用于连续和离散的特征。连续变量被验证以遵循对数缩放 。这导致我们进行大多数变量的自然对数转换,但温度和经度除外。   随后的回归分析使用针对基因组采样的单个物种的性状值进行了两种特质数据处理,或在相应家族中所有物种中取平均值。提供了两种分析的结果(补充数据3) 。对家庭平均值的重点反映了这样一个事实 ,即分子速率的估计值对应于采样的个体与共同祖先与其姐妹家族之间的进化路径的平均值相对应,遵循有关进化率的现有文献63。这种方法解决了估计进化速率时内部节点的潜在影响,但没有明确考虑分子变化对多样化事件的影响64,65。与该信号一致 ,使用家庭平均特征数据来解释分子速率的模型,导致总体回归R2值比使用采样物种的性状数据更高 。   贝叶斯和频繁的回归用于评估分子进化率是否通过采样的特征来解释。我们将每个家族平均速率的估计值(在所有DN,DS ,ω和基因间区域)定义为响应变量。使用贝叶斯混合效应线性建模框架 ,参数推断是通过软件包BRMS68中实现的NO u-Turn Sampler66,67进行的 。通过使用贝叶斯模型,我们能够比通过常见的框架更充分地包括收缩之前的收缩和减轻有限样本量 。此外,该框架自然会通过可靠的间隔(而不是p值)围绕重要系数周围的不确定性。使用对数转换的分子速率估计值 ,我们假设高斯的可能性,   然后假定线性预测μ具有混合效应结构。固定效果包括收集的19个连续特征中的每一个,形成了一个矩阵 ,其中包含X中的截距 。我们通过将其标准偏差的居中和缩放率归为标准化的协变量69。然后将随机效应包括在三个分类变量中包括:栖息地(U1,I),营养水平(U2 ,I)和主要的生活方式(U3,i),以独立标准偏差参数为高斯随机效应:   系统发育效应被捕获为多元高斯随机效应:   其中 ,σ是从我们固定时间树中的方差 - 交流矩阵,假设特征进化的布朗运动模型,然后在分析过程中通过系统发育对性状对性状的影响进行缩放 ,使用参数。为了添加缩放参数的后验收敛 ,将原始σ矩阵缩放到相关矩阵与1个最新共同血统的时间 。因此,最终的线性预测指标为::   选择了先验的分布,以确保将参数收缩至零 ,从而假设固定效应和随机效应对响应变量没有影响。   使用Markov链蒙特卡洛(Monte Carlo)进行参数采样,每个链条进行104次迭代。通过RHAT统计70以及Markov Chain Monte Carlo Trace评估了后部收敛到固定分布 。   为了补充贝叶斯回归分析,我们实施了频繁的对应物 ,仅解释了两种方法之间一致的结果。使用Pagel的Pagel的Lambda模型沿系统发育71实施,将每个分子速率作为响应和包括特征变量作为协变量的模型进行,并以系统发育回归的形式实现。在频繁分析中 ,由于少数因子水平的不平衡,使参数优化复杂化,因此不包括营养水平的变量 。使用快速最大的最大样本祖先的重建 ,在Phytools73中实现的快速最大可能的祖先重建,对性状数据的分布进行了可视化。在Phangorn74的支持下处理系统发育数据。   还以基因速率水平测试了解释进化速率的变量 。对于每个基因,我们计算了每种类型的速率(DN ,DS ,ω和基因间区域)的平均值和所有家族中的GC比例 。然后,我们将沿染色体的位置计算为距每个染色体末端的比例距离。距离为0的基因最接近染色体结尾,而距离为1的基因表示最接近染色体中间的基因。贝叶斯和频繁的多个回归用于评估是否通过GC含量 ,基因长度和基因位置来解释每种分子速率类型 。我们还将这些变量之间的双向相互作用包括在这些模型中。为了解决模型错误指定对这些分析的可能效果,我们使用了IQ-Tree2(参考文献76)实现的均匀性的匹配对测试,以及参数回归来评估FIT77和基本构图非平稳性的良好性78,79 ,如PhyloMAD80中所实现。我们将每个测试中的结果统计数据添加为协变量,并且没有发现其中任何一个都对结果产生了重大影响 。我们报告了包括边际对称性测试的模型的结果,因为协变量可能会考虑可能的系统发育模型错误指定 ,并使所有模型错误指定指标可在线提供(补充数据2)。   随机森林为比较分析提供了替代方案,同时捕获可能的相互作用和非线性。我们研究了在随机森林框架中特征作为预测因素的重要性得分 。我们包括了500棵树林,这些森林随机选择了五倍的交叉验证 ,并进行了五个迭代用于超参数调整,并将根平方误差作为回归性能的度量(补充数据6),如Caret81所实现。尽管随机森林可以从线性回归所显示的森林中捕获其他预测性联系 ,但它们并不纳入由系统发育相关性引起的样品中的非独立性 ,因此它们也可以引入偏见。   我们测试了每个染色体的平均分子速率是否不同于基因组基因组的平均预期 。为此,我们进行了每个染色体的排列,涉及与染色体相同大小相同的1,000个基因座的随机绘制。我们对每个染色体进行了这种置换 ,并计算了相对于排列分布的平均经验染色体速率的z评分。   我们进行了速率分解分析,以识别主导分子速率变化的谱系和基因 。这是在ClockStarx29中独立的(DN,DS ,ω和基因间区域)的Clockstarx29完成 。为了允许在检查基因间区域时的计算效率,我们分析了三个随机样品,分别为10,000个基因座 ,并确认每个样品的结果是一致的。分解的基本方法在矩阵中收集速率估计值,该矩阵的行代表基因座,列代表了物种树估计中的完整谱系(分支)。然后 ,将这种数据结构分解,以使用主成分分析来识别变异的主轴 。该软件执行数据矩阵的置换,并使用两个测试统计ψ和φ82汇总了每个组件处的特征值。这些统计数据以及每个主要成分上的谱系载荷允许测试每个主成分和谱系载荷是否贡献了比随机样品在整个数据82(α= 0.01)中的预期更大的变化。这种方法下的主要假设是物种树是准确的 ,并且在很大程度上与基因树一致 。由于这种假设通常是由于系统发育误差和基因树的不一致而违反的 ,因此该方法下的所有推论都涉及所讨论的分支或来自类似系统发育树的相邻分支,实际上可能发生了替代。83。   我们探讨了对速率轴差异的谱系贡献是否与我们全面的任何特征有关,因此主要组成部分可能是由家庭的生态或生活历史所驱动的 。为此 ,我们首先在每个主要成分上提取了家族(终端分支)的负载,这些组件显着解释了速率的变化。然后,我们开始进行简单和多个系统发育回归 ,在其中测试了特征以解释用于全基因组率指标的主成分负载。   然后,我们探讨了主要成分是否与任何特定的代谢途径或基因功能相关联 。我们在主要成分处提取了20%的基因座,最大值和最小值显着解释了速率的变化。我们使用基因集富集分析来评估基因产物代谢功能的任何过度代表 ,在每个显着速率轴上具有极高和低率的基因座。每个过度分析的分析等效于一个单方面的Fisher对另一个set84内一组基因的不成比例存在的精确检验 。使用最佳的BLASTN Match85推断基因身份,并用作使用ClusterProfiler86测试KEGG术语的输入 。使用PathView87可视化和解释途径中的基因。Bonferroni校正用于重要术语的P值。   使用二项式测试评估了20%的显着速率轴极端(主要速率成分)中染色体的过度占代表性 。因此,零假设是一个伯努利实验88 ,其中,在给定染色体中的基因座的比例预计在每个轴的最大20%和最小基因座中相等。为每个染色体和每个重要的主成分进行了此测试,使用主成分内的错误发现率校正了P值。   有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得 。

本文来自作者[admin]投稿,不代表东辰文化立场,如若转载,请注明出处:http://www.mzwhys.cn/zlan/202506-2607.html

(1)

文章推荐

  • 在世界第一,发现了第二个病毒附有的病毒

    在一个世界上,科学家观察到了一个病毒锁在另一个。 使用显微镜以惊人的细节捕获相互作用,该显微镜在其主题上发射电子束。该发现揭示了这两种不同的病毒如何被归类为“噬菌体”,并且可能已经共同发展。 “从未有人见过噬菌体或任何其他病毒附着在另一种病毒上”,主要研究作者木薯脱瓦尔略巴尔的摩县马里兰州

    2025年06月09日
    140
  • 在查尔斯三世加冕典礼上使用了800年历史的“命运之石”中发现的隐藏符号和“异常”

    当查尔斯三世国王于5月6日在伦敦加冕时,加冕典礼将涉及《命运之石》,这是一个至少800年历史的苏格兰雕刻座椅。尽管历史悠久,但科学家最近才发现,石头上从未有过记录的符号和其他异常。 这些异常—铜合金污渍和石膏灰泥的遗迹—暗示历史街区,也称为Scone的石头,其历史上未知的

    2025年06月09日
    12
  • Basecamp评论

      世界上最著名的项目管理平台之一是BaseCamp。其目的是通过改善沟通和组织来帮助企业和团队提高生产率。但是,Basecamp实现这一目标的有效性如何?  该项目管理软件在编程世界中具有良好的往绩记录。RubyonRails是在Basecamp的母公司建造的,该公司也称为Baseca

    2025年06月13日
    14
  • 漫游时尚机器人不断忙于在衣服上做零工

    服装错过了最后一步吗?尝试Rovables:穿在衣服上的袖珍机器人。该机器人由马萨诸塞州技术学院和斯坦福大学的团队开发,看起来像是微型汽车,带有定制设计的电路板。借助将织物夹住的磁性轮,它们可以在伸展运动中自由上下漫游45分钟,然后停在适当的位置,作为胸针或手镯。纽约普拉特学院副教授丽贝卡·佩尔斯·

    2025年06月16日
    11
  • 新抗原疫苗在肾细胞癌中产生抗肿瘤免疫力

      靶向新抗原的PCV已有很大的希望,但是仍然存在癌症疫苗的固有挑战,包括抗原选择,有效的T细胞启动并克服了免疫抑制性肿瘤微环境29。在这项对高风险,切除的RCC的前瞻性试验中,在手术切除后40.2个月的中位随访和PCV启动后的34.7个月后,没有患者经历了RCC的复发。我们的研究揭示了几个值得注意

    2025年06月18日
    12
  • 昆虫迁移和通过飞行的分散系统的基础

      感谢您访问Nature.com。您使用的是浏览器版本对CSS的支持有限。获得  最佳体验,我们建议您使用更多最新的浏览器(或关闭兼容模式  InternetExplorer)。同时,为了确保继续支持,我们正在展示网站,没有样式  和JavaScript。

    2025年06月18日
    8
  • 怎么找研究生院咨询电话(怎么找研究生院咨询电话号码)

    重庆大学研究生院或者教务处电话?重庆大学研究生院或教务处的电话是65102754。以下是相关解释:重庆大学是一所位于重庆市的知名高校,其研究生院和教务处是学校的重要部门之一。对于许多需要咨询学校相关政策、课程安排、研究生招生等信息的学生和考生来说,知道这两个部门的联系电话至关重要。教务处教务科的电

    2025年06月19日
    6
  • 【2023黄金最终将暴跌,2030年黄金价格最高】

    2023年黄金价格会下跌吗?年黄金价格不一定会下跌。黄金价格的走势受到多种复杂因素的影响,具体如下:全球经济形势:全球经济状况是影响黄金价格的重要因素之一。如果全球经济形势不稳定,金融市场出现波动,投资者可能会增加对黄金这一避险资产的需求,从而推高黄金价格。不会,2023年黄金价格不太可能跌到每克

    2025年06月19日
    5
  • 三门精装修房屋出租(三门精装修房屋出租多少钱)

    房子装修风水禁忌,房子装修的时候需要注意哪些1、命中忌水者家中不可放鱼缸:根据居住者五行喜忌放置物品。遮雨棚垂檐避免箭形:尽量作弧形,不要作成尖的形状。炉灶摆放:不可对着后阳台门或厨房门,可在门上装布帘阻隔。家中明镜:不要任意安装,以免破坏室内磁场,若需安装,也以一面墙为宜,并用帘子遮掩。以上就是

    2025年06月20日
    4
  • 成都疾控发布重要提示/成都疾控中心发布重要提醒

    十二月17号咸阳去成都的航班需要隔离不?1、不骑,那边很多检查出来呈阳性的回来这边肯定是要隔离的。2、需要隔离的哟!首先看是上海哪个区,如果是低风险地区,回成都只需要持健康码绿码、行程码绿码和48小时内核酸阴性报告就可以了。如果是中高风险地区人员,首先需要隔离,然后做三天两次的核酸检测,呈阴性的就

    2025年06月20日
    2

发表回复

本站作者后才能评论

评论列表(4条)

  • admin
    admin 2025年06月20日

    我是东辰文化的签约作者“admin”!

  • admin
    admin 2025年06月20日

    希望本篇文章《进化率分解揭示的禽基因组变化驱动因素》能对你有所帮助!

  • admin
    admin 2025年06月20日

    本站[东辰文化]内容主要涵盖:生活百科,小常识,生活小窍门,知识分享

  • admin
    admin 2025年06月20日

    本文概览:  从B10K财团的数据库中收集了禽家族的家庭水平系统基因组数据。其中包括63,430个均匀间隔的基因座基因座,每个基因座的长度为1 kb,以及15,093个直系同源基因的编码...

    联系我们

    邮件:东辰文化@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们