本文来自作者[admin]投稿,不代表东辰文化立场,如若转载,请注明出处:http://www.mzwhys.cn/wiki/202506-2625.html
对于个人的每个完整组装 ,我们给了该组件一个缩写名称,具有以下规则:sineage/genusspecies/nyse#.sembly# 。第一个字母在小写中标识了特定的谱系:M,哺乳动物;B,鸟;R ,爬行动物;A,两栖动物;F,Telest鱼;和S ,鲨鱼和其他软骨鱼。接下来的三个字母(首先是CAP)识别物种科学属名称;接下来的三个字母(首先是上限)标识了特定的物种名称。在最后一个位置是基因组标识符,其中整数(1 、2、3,…)代表同一物种的不同个体 ,而小数(1.1、1.2、1.3,…)代表同一个体的不同组件。例如,策划的安娜的蜂鸟(Calypte Anna)大会的首次提交为BCALANN1.1 ,同一个人的更新组件是BCALANN1.2 。当两个或多个物种的缩写谱系或属和物种名称相同时,我们替换了随后的字母(第四,第五 ,第五等)或物种名称,直到可以区分它们为止。我们为所有71,657种脊椎动物(http://vgpdb.snu.ac.kr/splist/; https:/https://id.tol.tol.sanger.ac.ac.uk/)创建了缩写名称。
高质量基因组组件的产生要求我们获得高质量的细胞或组织,这些细胞或组织将产生高读测序技术(CLR和ONT)和光学映射(Bionano)的高分子重量(HMW)DNA 。因此,我们获得了各种组织的新鲜样品(补充表8)。根据补充表8中列出的各个人员和机构获得的各个动物护理和使用委员会的许可的批准协议获得了所有样本。样本的其他详细信息都在其各自的生物样品页面上(https:///wwwwwwww.ncbi.ncbi.nlm.nlm.nlm.nih.gov/biosplame; cockestion; cockestion in Consplestion in Conspledtion in Consection in Consection 8) 。所有经过测试的组织类型都产生了足够的DNA来进行测序和组装 ,但是我们发现血液最适合于对红色血细胞核的物种(即鸟类和爬行动物),脾脏或培养的细胞最适合哺乳动物。对不同组织类型的分析将在其他地方(准备)进行。
对于组织,根据制造商的指南 ,使用Bionano动物组织DNA分离纤维组织方案提取HMW DNA(CATNO 。RE-013-10;文档编号30071)。总共将25–30 mg固定在2%甲醛中,并使用Qiagen Tissueuptor或手动组织破坏均质。对于成核的血液,将27-54μL与Bionano Prep血液和细胞培养DNA分离试剂盒(CATNO 。RE-130-10)的适应方案(Bionano ,个人通讯)一起使用。将裂解物嵌入琼脂糖塞中,并用蛋白酶K和RNaseA处理。然后通过用1×TE滴透析纯化塞子。使用脉冲场凝胶电泳(PFGE)(Pippin Puls,Sage Science ,Beverly,MA)或FEMTO脉冲仪器(Agilent)评估DNA质量 。PFGE表明,我们在〜100至〜500 kb的长度之间分离了超高分子量的DNA。
对于某些样品 ,我们对HMW GDNA进行了苯酚 - 氯仿提取物。将快速的组织粉碎成具有砂浆的细粉,并在液态氮中粉末 。The powdered tissue was lysed overnight at 55 °C in high-salt tissue lysis buffer (400 mM NaCl, 20 mM Tris base (pH 8.0), 30 mM EDTA (pH 8.0), 0.5% SDS, 100 μg/ml Proteinase K), and powdered lung tissue was lysed overnight in Qiagen G2 lysis buffer (cat no. 1014636, Qiagen,德国希尔登)在55°C下含有100μg/ml蛋白酶K。通过在37°C下以50μg/ml RNase A孵育1小时,将RNA除去RNA。用两种平衡为pH 8.0的苯酚 - 氯仿-IAA洗涤HMW GDNA,然后用两次洗涤氯仿-IAA洗涤 ,并在冰冷的100%乙醇中沉淀 。丝状HMW gDNA要么用牧羊人钩子置,要么通过离心收集。将HMW GDNA用70%乙醇洗涤两次,在室温下干燥20分钟 ,并在TE中洗脱。对于用于PACBIO CLR和10xG文库的Flier Cichlid Muscle GDNA样品,通过将1/10(V/V)0.3 M乙酸钠添加到提取的基因组DNA,小心地混合并在室温下以10,000克旋转来沉淀糖原 。PFGE表明 ,DNA分子长度在50至300 kb之间,通常比用琼脂糖插头获得的大小低,但足以使CLR的长期测序和链接的读取数据类型。
我们还按照制造商的指南 ,使用了Qiagen magAttract HMW DNA试剂盒(CATNo。67563)和翠鸟细胞和组织DNA试剂盒(Thermo Scientific; CatNo 。97030196)。这些方案产生的HMW DNA范围为30至50 kb。基因组尖端(Qiagen)试剂盒也用于基于组织的HMW DNA提取。
用Megaruptor设备(Diaganode,Belgium)将从琼脂糖插头获得的DNA剪切至〜40 kb碎片尺寸,并使用Covaris G-Tubes(520079)或针刺剪切 。使用SMRTBELL模板准备套件1.0 -SPV3(No.100-991-900)或Smrtbell Express模板准备套件V1(编号101-357-000)制备PACBIO大插入文库。根据DNA质量和提取方法 ,使用Sage Bluepippin(美国Sage Science,USA)在12至25 kb之间进行了尺寸选择。这些文库在RSII或续集I仪器上进行了测序,使用续集结合试剂盒和测序板版本2.0和2.1具有10-H电影时间(补充表9) 。
琼脂糖插头的未脱落的HMW DNA用于在10x基因组铬平台上生成链接的读取库(基因组图书馆套件套件和凝胶珠套件V2 PN-12258,Genome Chip Kit V2 PN-12257 ,i7 Multindlex套件PN-PN-12262)关注该制造商。我们在Illumina Novaseq S4 150-BP PE车道上对10倍文库进行了〜60倍的覆盖范围。
使用Bionano Prepeling标签NLR(文档编号30024)和DLS协议(文档编号编号30206),使用两种不同的划痕酶(BSPQI和BSSSI)或直接标记酶(DLE1)标记了琼脂糖插头的无膜超-HMW DNA 。然后将标记的样品成像在bionano irys或Bionano saphyr仪器上成像。对于所有物种,我们的目标是每个标签至少100倍(补充表9)。
使用Arima基因组学 ,燕尾基因组学或肌肉,血液或其他带有体内交联的肌肉,血液或其他组织上的相位库(补充表9)生成染色质相互作用(HI-C)文库 ,并在Illumina Instruments上进行测序 。Arima-HIC制剂是使用使用两种酶(P/N:A510008)的Arima-HIC试剂盒(https://arimagenomics.com/)进行的。然后将所得的Arima-HIC近端结扎的DNA剪切,使用Spri珠剪切,大约200-600 bp ,并使用链霉亲蛋白珠富含生物素标记的接近粘结型DNA。从这些片段中,使用KAPA Hyper Prep套件(P/N:KK8504)生成了与Illumina兼容的库 。将所得的库放大并用Spri珠纯化。最终图书馆的质量与QPCR和Bioanalyzer检查,然后在制造商的协议之后以〜60倍的覆盖范围在Illumina Hiseq X上进行测序。使用单酶(DPNII)接近连接方法 ,通过燕尾尾巴进行了燕尾式-HIC制剂。使用Proximo HI-C文库单酶反应通过相基因组学制作相对的图表 。
在进行任何组件之前,每个样品中所有数据类型的所有基因组数据均用于筛选潜在的离群库,离群测序运行或通过测量序列相似性来筛选MASH73的意外物种污染(补充图4)。当运行MASH时,我们使用21-Mers生成草图大小为10,000的草图 ,并在每个测序运行中进行比较,然后在测序集之间评估差异。
这些估计是使用基于K-MER的方法进行的,该方法应用于从10xG链接的测序库中获得的Illumina简短读数 。在ACCAFF10X74预处理过程中修剪条形码后 ,使用Meryl23收集了规范的31-MER计数。通过产生的31-Mer直方图,使用Genomescope71来估计单倍体基因组长度,重复含量和杂合性。棘手的滑板链接读取数据失败的质量控制失败 ,我们怀疑这是由于基因组的高重复含量(54.1%)的复杂性序列较低 。因此,后来从Illumina全基因组测序读取中收集了K-Mers。从一种替代方法中估算了通道牛的基因组大小和重复含量,该方法着眼于长期读取重叠覆盖和WindowMasker75的模式 ,因为来自基因组距离的估计基因组大小几乎使已知的单倍体基因组大小翻了一番(1.29 GB vers versus versus versus versus versus versus versus versus versus versus versus versus versus versus versus versus versus versus vess vess vers vers),重复范围为28.0%vers 58.0%或相关性。
为了开发VGP标准管道,我们比较了各种脚手架 ,间隙填充和抛光工具 。除非另有说明,否则使用默认选项。详细的软件版本在补充表2中列出。
Falcon76和Falcon-Unzip17(Smrtanalysis 3.0.0)用于生成使用CLR的重叠群 。CANU77 1.5+67用于生成合并的PACBIO CLR和牛津纳米孔组件。为了用链接的读数进行基准脚手架,我们使用了ACKAFF10X74 2.0。对于仅链接的读取组件,使用了超新星278。对于光学图 ,最初使用BSPQI和BSSSI最初以及后来开发了该技术时使用BSPQI和BSSSI,在Bionano Solve v3.2.1软件中使用了两酶混合脚手架 。为了在脚手架中进行基准测试HI-C,Salsa 2.279用于图1A中的脚手架结果 ,并从ARIMA基因组生成HI-C读数。使用燕尾基因组学和相基因组学提供的组件对HI-C库进行了其他比较(补充表3)。我们使用了来自Arima基因组学的HI-C,因为它具有最少的PCR重复项,并且在比较时进行了短和长相互作用的更好覆盖率(补充图1) 。在补充表3中提供了来自Hirise ,Proximo HIC,3D-DNA80和Arima Hi-C的组装统计数据。我们得出的结论是,所有HI-C脚手架算法的性能都相似。我们决定使用莎莎酱 ,因为Hirise和Proximo HIC并非开放访问,而3D-DNA在Dnanexus平台上的计算价格昂贵 。对于简短的读取组件,除超新星和Nrgene组件外 ,组件GCA_000699085.116用于基准测试,该基准是由Illumina配对端,多个Mate-pair库和Soapdenovo81组装程序生成的。Nrgene大会由该公司提供Denovo Magic。
我们使用参数运行pbjelly,以避免没有任何读取支持 ,避免贪婪的间隙封闭 。对于保守的填充序列,我们将阶段中的不同参数与无限制进行了比较。我们发现,封闭的差距数量类似于填充的箭头76(补充表4) ,并选择不运行pbjelly82以供将来的组装。
使用Longranger83 2.1.3和Pilon84 1.21进行选项(补充表5)进行Illumina抛光基准测试 。后来,对于VGP管道,我们使用FreeBayes85作为PILON84对于具有更新的Longranger 2.2.2的大型基因组而言不可扩展。
使用基于映射的方法测量了基础级别的精度 ,然后使用基于K-MER的方法进行测量。23。为了确定抛光的回合数量,我们使用了imlumina配对末端读数 。
将策划的蜂鸟组件映射到具有Mashmap286的目标组件上,并使用5 kb的CLR组件段和1 kb的SR组件映射到目标组件 ,以补偿较短的重叠群的大小,因为将小比段尺寸小的重叠群排除在对齐中。使用下面“策划”部分中使用的gasembly_comparison.pl鉴定了错误连接和错过的连接的数量(补充方法,补充图5)。
所有17个基因组均与VGP管道(扩展数据图2A)组装 ,以进行基准目的,其中一些未经灌输 。苍白的长矛鼻子蝙蝠,大马蹄蝙蝠,加拿大lynx ,柏拉图,男性和雌性斑马雀,卡卡普ō ,kākāpō,安娜的蜂鸟,古德的索恩斯克里布尔龟 ,flier cichlid,cichlid infer cichlid和blunt-snouted的杂物组件是使用VGP Pipeline 1.0和1.6和Credied culiged and Curcied and Curcied and Cycered and Curcied and Cycrive and Cycried。使用并行开发的类似过程生成了精选和提交的两衬里的Caecilian锯齿形鳗鱼,曲奇 ,爬鲈,河道Blenny,Eastern Happy和Thorny Skate组件(补充注释2)。制作了两个提交的雌性斑马雀的策划版本 ,一个使用标准VGP管道,另一个使用VGP三重奏管道,以便其他人可以进行比较分析 。
对于PACBIO数据,使用Falcon76和Falcon-Unzip17从子读产生重叠群 ,并带有一轮箭头抛光(Smrtanalysis 5.1.0.26412)。最小读取长度为2 kb或截止截止时间,其读取的时间比截止时间更长,包括50倍覆盖范围 ,以较长的范围。为了计算读取覆盖范围,我们使用了http://www.genomesize.com/时使用的估计基因组大小,或者在等待10xG测序的文献(补充表11)中使用K-MER估算基因组大小 。除了计算重叠之外 ,Falcon和Falcon-Unzip的运行默认参数。使用daligner参数计算原始读取重叠,以更好地反映PACBIO续集I和II早期的较高错误率。用daligner参数计算出预易读(预组装读取)重叠,该参数旨在为猎鹰步骤塌陷单倍型 ,以更好地解开杂合速率高的解压缩基因组 。Falcon-Unzip既输出伪单型型,又输出一组代表次级等位基因的替代单倍型。我们将这些输出称为主要重叠群集(C1)和备用重叠群集(C2)。
尽管设置了FalCon76参数以解决高达10%的单倍型差异,但仍会发生异型假重复。Falcon-Unzip17还错误地保留了主要重叠群中的一些次级等位基因 ,这些等位基因显示为假重复 。为了减少这些错误的重复,我们首先运行purge_haplotigs13(VGP V1.0管道),然后在重叠仪形成后稍后(VGP V1.5管道)。为了做前者,在初级重叠群(C1)上运行purge_haplotigs ,并将鉴定的单倍杆菌映射到带有mashmap286的脚手架的初级组件中以拆卸。在后者中,鉴定出的单倍肽从主要重叠群(C1)移动到替代的单蛋白酶集(P2) 。其余的主要重叠群称为P1;与C2结合的P2称为Q2。后来,在VGP v1.6管道中 ,我们用purge_dups14替换了purge_haplotigs,这是由几位作者开发的一个新程序,以响应purge_haplotigs ,否则在重叠边界上没有删除部分错误重复。净化还可以去除过度的低覆盖(垃圾)和高覆盖(重复)重叠群 。为了计算清除虚假重复的存在和总体成功,我们使用了K-MER方法(补充方法,补充图6)。
链接的10倍基因组学读取与主要重叠群(P1)对齐 ,并使用accaff10x74 v2.0-2.1从条形码中计算出邻接矩阵。进行了两轮脚手架 。第一轮使用参数运行,第二轮则具有参数。在连接的重叠群之间插入了100 bp的差距(用'n代表)。由此产生的主要脚手架套件命名为S1 。
使用Bionano管道以非型型组装模式生成Bionano CMAP,并用于进一步用Bionano Solve v3.2.187脚手架S1组件。我们从一个单酶nick图(BSPQI)开始 ,然后是两酶nick映射(BSPQI和BSSSI),然后使用后来的数据类型的可用时进行DLE-1单酶非核心方法(补充表9)。根据软件估计,脚手架间隙的大小。由此产生的脚手架套件命名为S2 。
使用Arima基因组映射管道88,将HI-C读数与S2支架对齐。简而言之 ,读取对的两端使用带有参数的BWA-MEM89独立映射,并在映射质量<10时过滤。从限制位点开始修剪包含限制酶位点的嵌合读数,仅留下5'端 。然后将过滤后的单读对准重新加入 ,作为配对读取对齐。然后将处理后的比对与Salsa279进行脚手架,该萨尔萨279分析了所有对重叠群之间的HI-C相互作用的归一化频率,以确定每个末端的可能排序和方向。我们使用参数允许Salsa2打破潜在的错误组装重叠群 ,并进行五个脚手架的迭代 。经过策展的反馈后,开发了后来的莎莎酱,这更保守地决定了迭代次数(v2.1) ,并积极地在MIS-组件(v2.2)中破裂,并竞选Goode的Thornscrub Tortoise和两个衬里的Caecilian加拿大Lynx。使用Arima和Dovetail和相基因组HI-C数据的参数指定用于生成每个库的限制酶。由此产生的Hi-C脚手架组件被命名为S3 。
为了在两种单倍型中具有最小的对齐偏差的底座,我们将替代的单倍型套件(v1.0中的C2或v1.5-1.6中的c2或Q2)与脚手架的主组(S3)和组装的线粒体基因组(V1.6中的mitovgp)相连。然后 ,我们使用pacbio clr读数进行了另一轮抛光(Smrtanalysis 5.1.0.26412),与pbalign和pbalign和共识抛光对齐。尽管本考虑的所有基因组的这一轮抛光导致较高的QV,但我们注意到它对覆盖范围截止参数特别敏感() 。这是因为箭头从映射的读取中产生从头共识,而无需明确考虑参考序列。后来 ,我们发现第二轮箭头抛光有时会降低某些物种的QV准确性。经过调查,此问题可以追溯到选项,这需要至少5次读取才能达成共识。如此低的最低要求可能会导致低覆盖区域的抛光不平衡 。为了避免这种行为 ,我们建议将接近一半序列覆盖范围(例如,使用60×用于组装时30×)并在向前移动之前检查QV。
对于组合组合尺寸大于4 GB的基因组,我们使用了带有参数而不是Blasr91的MiniMAP290来克服参考指数尺寸限制。
通过链接的读数进行了另外两轮的碱基对抛光 。将读取与Longranger Align 2.2.2对齐 ,该读取符合条形码感知对齐的月桂树83。从对齐方式中,使用默认选项调用FreeBayes83 V1.2.0调用纯合不匹配(变体)。与BCFTOOLS共识92的共识 。
除了使用父母数据外,三重奏管道的设计类似于标准管道(扩展数据图3B)。当有家长基因组可用时 ,儿童的CLR读数将被纳入母体和父亲的单倍型,并使用Triocanu20分别作为单倍型特异性重叠群(Haplotigs)组装。简而言之,使用父母Illumina WGS读取父母的Meryl23收集了父母特定的标记K-Mers 。这些标记被过滤 ,并用于bin孩子的CLR读取。鉴于观察到的标记,分配了单倍型,并通过每个单倍型中的总标记进行标准化。使用Purge_Dups14(v1.6),随后的清除 ,脚手架和抛光步骤也同样更新 。我们通过排除具有任何特定于父母的标记的读取对来扩展到链接的读取和HI-C读数。BINNED HI-C读数用于脚手架其单倍型组件,并通过使用标准抛光方法从观察到单倍型切换的bined链接读数进行抛光。在策展期间,选择具有较高QV和/或连续性的单倍型组件之一作为代表性单倍型。从未选择的单倍型中的异质性性染色体添加到了代表组件中 。但是 ,在策划了几个三重奏时,我们发现在共同的父母同质性染色体(即X或Z)之间的差异较低的区域中,一小部分后代CLR数据被错误地分配给错误的单倍型。这种错误的对准导致在父亲(哺乳动物)或母体(鸟类)单倍型中的重复 ,低覆盖的后代X或Z组装,需要在策展期间去除。我们正在努力提高解决该问题的分类精度的方法 。
特别是对于雌性斑马鳍,在CANU组装程序中自动化的binning作为Triocanu1.7生成重叠群 ,因此如原始的三键式纸张20(补充方法)所述应用了手动嵌入过程。使用BINNED读取为每个单倍型组装重叠群,不包括未分类的读数。将重叠群用两轮箭头抛光使用bined读取,并在没有净化的情况下进行V1.0管道后脚手架 。使用Bionano(S4)和Hi-C进行其他脚手架。根据同一个体(S5)的主要支架组装重命名 ,其性别染色体在父亲组装中分组为Z,在与Z染色体同步后,来自策展的男性Zebra Zebra Finch VGP组装的Z染色体后,在母体组装中将其分组为W。通过绘制两个单倍型 ,使用链接的读数应用了两轮SR抛光 。发现单倍型开关后,使用BINNED链接的读数(补充方法)应用了其他抛光。
与其他最近的方法93,94相似,我们开发了一个参考引导的MT组装管道。通过将整个读取设置映射到特定物种的现有参考序列或使用BLASR密切相关的物种的现有参考序列 ,可以确定在原始CLR数据中的MT读取 。使用CANU V1.8将过滤后的mtDNA CLR组装到单个重叠群中,并使用CLR将箭头和FreeBayes V1.0.2与BCFTools v1.9一起抛光,并使用10xG数据的简短读数(扩展数据图3C)。对重叠群的末端的重叠序列进行了修剪 ,其余的重叠群序列循环。MitoVGP管道可在https://github.com/vgp/vgp-sembly/tree/master/master/mitovgp上找到。在其他位置上发布了有关组装管道和新发现的新发现的更详细的协议描述33 。
VGP基因组组件管道会产生高质量的组件,但是迄今为止,没有自动化的方法没有错误的产生 ,尤其是在脚手架阶段。为了最大程度地减少其余算法缺陷的影响,我们对所有组件进行了严格的手动策划。All data generated for a species in this study and other publicly available data (for example, genetic maps, gene sets and genome assemblies of the same or closely related species) were collated, aligned to the primary assembly and analysed in gEVAL95 (https://vgp-geval.sanger.ac.uk/index.html), visualizing discordances in a feature browser and issue lists.同时,将HI-C数据映射到初级组件 ,并使用JuiceBox96和/或Higlass97进行可视化 。借助这些数据,基因组策展人确定了错误的加入,错过的连接和其他异常,并相应地纠正了初级组件。没有可用数据类型的明确证据没有任何更改;例如 ,除非受到Bionano地图,长阅读数据或基因比对,否则不会进行HI-C建议的联接。在对异质性性别进行测序时 ,我们根据一半覆盖率,与其他物种的性染色体的同源性一致性以及性别染色体特异性基因的同源性一致性确定了性别染色体 。
一系列搜索用于识别生成的组件中的潜在污染物。
1)Megablast98搜索与常见污染物数据库(ftp://ftp.ncbi.nlm.nih.gov/pub/kitts/contam_in_euks.fa.gz),需要E≤1×10-4 ,报告的报告匹配度为≥198%,并匹配50-99999999994%bp,bp ,或≥90%,匹配长度200 bp或更高。
2)vecscreen(https://www.ncbi.nlm.nih.gov/tools/vecscreen/)搜索与Adapter序列数据库(ftp://ftp.ncbi.nlmm.nlm.nih.gov/pbi.nih.gov/pub/kitts/kitts/kitts/adapts/adapts/adapts/adapts/adapts/adapts/adaptors_scree_scree_scree_screenemennegenneen_euke_euke_euke_euke_euke_euke_euke_euke_euka)
3)使用WindowMasker75进行软掩模重复序列后,来自RefSeq的染色体级组件的Megablast搜索需要E≤1×10-4 ,匹配分数≥100和序列身份≥98%;匹配高度保守的RDNA的区域被忽略 。
必须对结果进行手动检查,以区分污染与保护和/或水平基因转移。适配器序列被掩盖;除去其他污染物序列。还检查了组件是否在脚手架的末端进行了NS的运行,该运行是作为迭代脚手架工艺的伪影创建的,当发现它们被修剪时 。
通过大型搜索对需要E≤1×10-4的已知细胞器基因组数据库 ,序列身份≥90%和匹配长度≥500的数据库检测到这些。该数据库可在ftp://ftp.ncbi.nlm.nih.gov/blast/db/fasta/mito.nt.gz和ftp://ftp://ftp.ncbi.nlm.nih.gov/refseq/refseq/release/release/plastid/plastid/plastid/jengenomic.fna.gz.gz。仅假定完全由细胞器序列组成的脚手架是细胞器基因组,并由单独的细胞器组装管道的基因组取代。保留了嵌入核序列中的细胞器匹配 。
使用Purge_haplotigs13在脚手架和抛光后运行(Anna的Hummingbird,Kākāpō ,雄性Zebra Finch,女Zebra Finch,Platypus ,Platypus,Pale Pale Platypus,Pale Pale-Spear-Shosed Bat和更大的马蹄棒)或在C1上 ,在C1上或在C1上,在can candecoveLian cancanca cancadeen和cancadae cancancade,cancadae cancadeian cancadax cancance ,cancadax lyeian cancadeen,使用purge_haplotigs13确定了保留的虚假重复。荆棘cr龟)。随后的手动策展确定了列出的组件以及未用purge_haplotigs(东方快乐,攀登鲈鱼,锯齿形鳗鱼)处理的其他单倍型重复 。所使用的证据包括读取覆盖范围 ,序列自我比较,成绩单比对,Bionano地图对齐和HI-C 2D地图 ,都证实了一个等位基因的多余性质。已识别的单倍型重复从主要组装转移到替代组件。
为了将脚手架作为染色体注释,我们使用了HI-C的证据以及遗传连锁或鱼核型映射(如果有) 。对于HI-C证据,当果汁箱或鸡尾酒中有明显的对角线时 ,我们认为脚手架是一个完整的染色体(尽管有间隙),而没有其他大型脚手架,并且没有其他可以连接到同一脚手架的大脚手架;如果存在并且没有明确的连接 ,我们将其命名为该染色体的未含量的脚手架。当我们找不到完整染色体的证据时,我们将其名称保留下来。我们将所有证据验证的支架命名为染色体,直到具有这些特征的最小HI-C框单元分辨率 。当有针对给定物种或一组物种的已建立的染色体术语时 ,我们使用已建立的术语,除非我们的新组装揭示了较旧的组装中的错误,例如脚手架/染色体融合,嵌入 ,重排和非染色体名称。对于没有建立的染色体术语的物种,我们将脚手架命名为1 、2、3…,以脚手架大小的降序。对于性染色体 ,我们将字母X和Y用于哺乳动物,Z和W用于鸟类 。
如果可用于密切相关的物种高质量的染色体基因组,则进行了比较基因组分析。使用MASHMAP286与。使用https://github.com/jdamas13/assembly_comparison的自定义脚本确定了染色体差异的数量。这导致了每个基因组组装侧面假定的杂异象或谱系特异性基因组重排的〜60至〜450个区域的鉴定 。为了确定哪些是真正的错误填料 ,将确定的差异传达给了策展人团队进行手动验证(请参见上文)。
为了确定剩余的任何可能的连接,将每个策划的禽和哺乳动物组装分别与斑马雀(Taegut2)或人(HG38)基因组进行比较。Pairwise alignments between each of the VGP assemblies and the clade reference were generated with LastZ99 (version 1.04) using the following parameters: C = 0 E = 30 H = 2000 K = 3000 L = 2200 O = 400. The pairwise alignments were converted into the UCSC ‘chain’ and ‘net’ formats with axtChain (parameters: ) followed by chainAntiRepeat, chainSort, chainPreNet, chainNet和NetSyntenic,所有默认参数100 。使用MAF2Synteny101在100、300和500-kb的分辨率下定义成对同步块。使用临时统计方法检测并对进化断点区域进行了分类。102 。该分析确定了每个组装的2至90个基因组区域 ,这些区域可能是杂材,谱系特定的染色体重排或特定特异性的染色体重排(人类中的116,在Zebra Finch中为116)。确定每个标记区域的根本原因将需要进一步验证。所有比对均可在Evolution Highway比较染色体浏览器(http://eh-demo.ncsa.illinois.edu/vgp/)上可视化 。
在补充方法中描述了本研究中使用的NCBI和ENEMBL注释管道。
其他类型的评估方法 ,包括BUSCO运行,错误加入和错过的识别,可靠的块,折叠重复序列 ,端粒,RNA-SEQ和ATAC-SEQ映射以及错误的基因重复。没有使用统计方法来预先确定样本量,实验不是随机的 ,并且在实验和结果评估过程中,研究人员并未对小组视而不见 。
有关研究设计的更多信息可在与本文有关的自然研究报告摘要中获得。
赞 (1)
评论列表(4条)
我是东辰文化的签约作者“admin”!
希望本篇文章《建立所有脊椎动物的完整和无误基因组组件》能对你有所帮助!
本站[东辰文化]内容主要涵盖:生活百科,小常识,生活小窍门,知识分享
本文概览: 对于个人的每个完整组装,我们给了该组件一个缩写名称,具有以下规则:sineage/genusspecies/nyse#.sembly#。第一个字母在小写中标识了特定的谱系:...