本文来自作者[admin]投稿,不代表东辰文化立场,如若转载,请注明出处:http://www.mzwhys.cn/cshi/202506-1805.html
没有使用统计方法来预先确定样本量。实验不是随机的。在实验和结果评估中,研究人员并未对分配视而不见 。
大麦基因组测序仅依赖于使用高通量下一代测序的88,731个BAC克隆的shot弹枪测序22。这包括15,661个所谓的基因BAC克隆,主要由过度探针杂交用于转录基因的存在和指纹 ,以定义大麦基因空间的最小瓷砖路径。这些基因空间最小瓷砖路径克隆被Illumina短阅读技术测序为组合池,在质量修整后vol的读取之后,使用Velvet版本1.2.09组装 ,如前所述13 。从代表大麦基因组的物理图16的物理图中选择了其余73,070个BAC。在四个测序中心之一中,对分配给不同大麦染色体的最低瓷砖路径克隆进行了测序,该中心依靠高度多重的配对端和伴侣测序库 ,使用Roche 454钛或Illumina Miseq,Hiseq2000和Hiseq2000和Hiseq2500平台(补充仪式和补充)。简而言之,根据使用的BAC特异性条形码序列标签进行测序读数 ,并与测序中心特异性组装管道组装在一起 。根据先前所述的程序52,53,在Roche 454钛平台上测序的BAC克隆与MIRA51组装。Illumina HiSeq2000 paired-end sequencing data (2 × 100 nucleotides) of BAC clones were assembled either with CLC Assembly Cell version 4.0.6 beta (http://www.clcbio.com/products/clc-assembly-cell/) set to default parameters12, SOAPdenovo version 2.01 (ref. 54) or the ABySS assembler (version1.5.1)55。使用序列BAC组件的序列重叠群使用大于500个碱基对(BP)的序列重叠群使用MATE-PAIR测序信息进行支架,或者是由BAC DNA衍生的8 kbp插入序列插入序列测序库或从2 kbp的2 kBP产生的 ,或 5 KBP或10 KBP基因组DNA衍生的伴侣库 。这是通过使用BWA MEM版本0.7.4(参考文献56)的默认参数来实现的,然后使用SSPACE版本3.0 Standard57,或使用Soapaligner/Soap2版本2.21和使用Soapdenovo54 caffolder版本2.01,然后使用SSPACE SSPACE SPACE单个BAC进行脚手架。
如参考文献中提出的那样 ,为基于BAC序列的基因组组装生成物理脚手架信息。21,HI-C和束缚构象捕获(TCC)测序数据是通过调整先前发表的程序(补充注释2),从温室生长的大麦花盆的7天叶组织产生 。简而言之 ,对于HI-C,将新鲜收获的叶子切成2厘米片,并在补充了2%甲醛的核分离缓冲液中浸润。通过添加甘氨酸和额外的真空浸润来停止交联。将固定组织冷冻在液氮中 ,然后将其磨碎至粉末,然后再在核分离缓冲液中重新悬浮以获得核的悬浮液。如前所述58,用400个单位的印度单位消化了约107个纯化的核 。通过使用填充反应20与生物素14-DCTP和klenow酶一起孵育 ,可以将消化的染色质标记,从而导致钝的修复DNA链。由于T4 DNA聚合酶的外切酶活性,然后除去了非绑扎DNA末端的生物素-14-DCTP ,然后进行苯酚 - 氯仿提取并清洗了沉淀的DNA,如所述20。作为HI-C的替代方案,TCC协议也适用于大麦 。如上所述,从大麦叶组织中制备了核 ,然后使用EZLINK iodoacetyl-Peg2-生物素将生物素化,然后将分离的染色质生物素化。用SDS中和样品,用透析透析 ,将DNA消化,然后使用链霉亲和素涂层的磁珠固定在低表面覆盖范围内19。开放的DNA末端用klenow酶标记为生物素14-DCTP,并钝性地标记 通过使用蛋白酶K19逆转甲醛交叉链接 ,从磁珠中收集了标记的DNA产物 。通过使用外切核酸酶III19去除非绑扎DNA末端的生物素14-DCTP。通过使用Covaris S220设备施加超声,将HI-C和TCC产物机械剪切到200-300 bp的片段大小,然后使用Ampure XP珠子进行大小分级。在150至300 bp之间的DNA片段经过钝端修复和A尾 ,然后通过生物素 - 链霉亲和素介导的下拉58进行纯化 。将Illumina配对末端适配器分别连接到HI-C和TCC产物,然后将PCR扩增,PCR产品汇总并用Ampure XP珠纯化 ,然后通过QPCR定量HI-C/TCC库以用于Illumina HISEQ2500 PE100 Sequencing20。
基因组序列组件的远距离支架是由Bionano基因组图促进的,该基因组基因组图由荧光标记的高分子质量DNA从流动染色体上获得的高分子质量DNA产生。从3.5×106纯化的染色体(整个基因组)中,大麦品种Morex基本上遵循已发表的程序60,61制备高分子质量DNA 。如前所述61,将纯化的染色体嵌入琼脂糖微型杂志中 ,以在用蛋白酶K处理之前,在用蛋白酶K处理之前达到100万个染色体的浓度。61。如前所述59,使用TAQ聚合酶掺入荧光DUTP核苷酸类似物 ,将DNA在NT.BSPQI划痕位点(GCTCTTC)标记。在191个周期中,在IRYS平台(Bionano基因组学)上分析了标记的DNA,产生了超过150 kb的243 GB数据 。根据单个DNA分子的标签位置 ,通过对所有单分子和图形建筑物的成对比较进行了从头组装。大型基因组的参数集用于使用IRYSVIEW软件组装。在成对组件期间,使用了10-9的P值阈值,10-10用于扩展和改进步骤 ,而10-14用于合并重叠群 。获得了4.3 GB的全基因组图(扩展数据表1)。
代表七个大麦染色体的伪分子的构建遵循了迭代,主要是自动化的程序,涉及以下主要数据集的整合:(1)87,075个独特 ,成功测序和组装的BAC克隆的序列组件;(2)BAC组装信息来自大麦的全基因组物理图16;(3)571,814 BAC克隆的最终序列7;(4)一个密集的连锁图,将遗传位置分配给了791,177个重叠群,该重叠群是大麦品种MOREX17的全基因组shot弹枪组装;(5)HI-C/TCC序列信息;(6)大麦品种Morex的基因组的光学图。该过程的示意图概述在其他地方介绍22 。在第一步中,通过应用“严格”或“允许 ”的对准标准22并与高密度遗传图信息结合 ,与MegaBlast63之间的单个BAC组件之间的重叠次数。在此初步分析的基础上,通过使用R软件包Igraph64构建了BAC重叠图,考虑到随后的迭代步骤中上述附加数据集。构建重叠图首先集中在单个物理地图重叠群(FP重叠群)内的“严格”搜索标准下获得的重叠 ,然后随后在独立的FP重叠群之间也是如此 。随后,在检查支持重叠信息的其他数据集提供的累积证据时,评估了根据“允许”标准获得的重叠22。通过将重叠图与HI-C /TCC Data22整合在一起 ,可以实现所得序列支架的排序和方向。在构建假分子之前,我们(1)确定了非冗余序列中不完整或缺少的基因,但由(a)BAC序列表示 ,这些基因已被排除在非冗余序列的构造中,或(b)morex wgs重叠群和(2)和(2) 对污染物序列进行了最终扫描 。然后构建了一个包含每个大麦染色体(“伪分子 ”)的单个fasta文件,并构建了一个额外的条目 ,将所有未锚定在染色体上的序列组合的序列结合了22。
如其他Whate22所述,对HI-C/TCC读取和分配给限制片段的映射。简而言之,RAW读取被Castadapt65修剪。用BWA MEM(版本0.7.12)66映射了修剪的HI-C读数映射到大麦假分子序列 。使用NovoSort(http://www.novocroft.com/products/novosort/)进行重复的删除和分类。将映射的读取分配给使用BedTools67的限制片段,并用自定义尴尬脚本制成 ,并导入R(https://www.r-project.org/)。HI-C链接的原始计数在1 MB箱中聚集,并使用HICNORM68分别归一化,以分别进行染色体内和染色体接触 。使用标准R函数绘制接触概率矩阵69。主成分分析用R函数PRCOMP()在1 MB片段之间的对数转换标准化的HI-C链路计数上进行。
We fitted the linear model log10(nl) ~ log10(dist) + abs(cen_dist1 – cen_dist2) + arm1:arm2 + apos1:apos1 using the R function lm().在这里 ,NL是两个1 MB垃圾箱之间的归一化链接,DIST是它们在线性基因组,CEN_DIST1和CEN_DIST2中的距离 ,是基因座,ARM1和ARM2的相对距离,是基因座的相对距离 ,是基因座的染色体ARM分配 。基因座1位于中心粒或端粒附近,如果基因座1驻留在间质区域)。将MOREX×BARKE F1杂种的TCC读取为代表父母基因组的合成参考。通过插入通过将Barke WGS读取到Morex参考组件与BWA MEM66读取并使用Samtools70调用变体的SNP并通过将SAMTOOLS70调用的SNP来创建一个In In In In inico Barke组件 。然后使用GATK71的FastAalternateRefenceMaker插入SNP。然后将杂种的TCC读数如上所述映射到合成参考。仅考虑了独特的读取对 。HI-C链路计数在染色体的水平上被表。
如前72所述,使用拟南芥型端粒和大麦共粒特异性[agggag] 5重复探针73 ,用H. vulgare Nuclei进行了荧光原位杂交。
大麦参考序列组装的自动基因注释是基于提供独立基因证据信息的四个数据集(补充注释3)。其中包括(1)RNA测序(RNA-Seq)数据;(2)来自大麦7,rice74,B 。distachyon75和S. bicolor76的参考蛋白预测;(3)发表的大麦全长互补DNA(FL-CDNA)序列77;(4)新生成的大麦pacbio iso-seq数据。先前发表的7和新生成的RNA-seq数据集源自16个不同的组织,每个组织都有3种生物学重复 ,包括7种营养,6种花序,两个发育中的谷物和一个发芽的谷物组织。RNA-seq库在Illumina Hiseq2000上以配对端2×100核苷酸(PE100)模式(补充注释3)进行了测序 。为了通常使用PACBIO RS II系统和DNA测序化学4.0版4.0版2(补充注释3) ,通过ISO-SEQ方法生成了富集的全长转录本信息的替代剪接形式的识别,尤其是对替代剪接形式的识别。基于RNA-Seq的转录本结构,基于参考的基因模型预测 ,来自ISO-SEQ比对的结构信息以及来自FLCDNA序列比对的结构信息,将使用CuffCompare78聚集到共识转录集中(补充注释3)。根据基因组组装中的各个坐标,将预测的转录序列自动提取到单个FastA文件中 。通过应用TransDecoder(https://transdecoder.github.io)获得了推定的开放式阅读框和相应的肽序列 ,包括PFAM结构域的预测,也获得了有关每个转录物的预测替代肽的报告(补充注3)。根据BLASTP79比较所有预测的肽与包含A. thaliana80,Maize47 ,B。distachyon75,Rice75和S. bicolor76的综合蛋白数据库的BLASTP79比较,选择了单一的最佳翻译 。使用AHRD管道(https://github.com/groupschoof/ahrd)生成了所有潜在基因的功能描述(“可读描述”),以每个基因基因座的一个代表性蛋白序列。然后将基因候选物分类为高和低信任基因 ,并进一步细分为九类,每种基因都由不同水平的基因证据支持(补充注释3)。高信心蛋白编码基因要么与参考蛋白显示出显着的序列同源性,要么与预测功能相关 。低信任基因的特征是(1)没有或唯一的弱序列同源性来参考蛋白质 ,并且没有预测的功能,(2)它们是转座子的候选者,或者(3)它们缺乏最小长度的开放阅读框架(补充注释3)。使用BUSCO Pipeline23评估了基因空间表示的完整性(扩展数据图2B)。
窗口大小为4 MB和0.8 MB的滑动窗口方法用于显示不同基因组成分的分布以及沿染色体沿着GC含量或重组率等其他特征的分布。用python函数scipy.signal.gaussian(图1a; p1 = 10; p1 = 15 ,p2 = 3,p2 = 3 = 3) 。基因组隔室的边界(图1)在补充表4.4中给出。
通过使用VMATCH(http://www.vmatch.de)对pgsb transposon library81的redat_9.7_triticeae部分进行了同源搜索(http://www.vmatch.de),检测到转座元素。使用以下参数设置:身份≥70% ,最小击球长度为75 bp,种子长度为12 bp(确切的命令线:-d -p -l 75 -sidentity 70 -sendities 70 -seedlength 12 -exdrop 5) 。通过优先级别的较高分数匹配,然后缩短(覆盖范围<90%和≥50bp的休息长度)或删除得分较低的重叠 ,从而对VMATCH输出进行了冗余命中的过滤。
The identification of full-length LTR retrotransposons with LTRharvest82 resulted in 143,957 non-overlapping candidate sequences using the following parameter settings: ‘overlaps best -seed 30 -minlenltr 100 -maxlenltr 2000 -mindistltr 3000 -maxdistltr 25000 -similar 85 -mintsd 4 -maxtsd 20 -motifTGCA -Motifmis 1 -VIC 60 -XDROP 5 -MAT 2 -MIS -2 -2 -INS -3 -DEL -3'。使用HMMER3 Software83对PFAMA域进行了注释,并通过几个标准对假阳性进行了严格的过滤,主要的标准是至少存在一个典型的Retrotransposon域(例如,RT ,RH,RH,INT ,GAG)和低于低于25%的tandem重复内容 。这导致了最后一组24,952个高信心全长LTR逆转座子。根据参考方法计算LTR返回座子的插入年龄。84通过在转座时相同的5'和3'LTR的发散 。我们使用了1×10-8的草特异性突变率。所有全长LTR元素的平均年龄均在4 MB窗口中计算,并在图1A中绘制。使用Tallymer85确定20-Mers的频率 。
吉普赛元素的系统发育分析是对沉积在TREP数据库中的预测蛋白序列进行的。用PFAM86,SignalP87和Coils88鉴定出预测的开放式阅读框中的蛋白质结构域。
为了分析基因上游区域和下游区域中可转座元素含量的分析 ,从基因组组装中提取了所有高信封基因的预测编码序列的10 kb。然后将基因组段用于BLASTN搜索79针对TREP数据库32 。最初的注释后,重新分析了先前未分类或较差的转座元件家族,并构建了新的共识序列。然后 ,使用更新的TREP数据库重复对上游区域和下游区域的分析。在每个10 kb段的每20个基本位置确定产生最长BLASTN命中的可转座元件家族,从而为高信心基因的每个上游区域和下游区域提供500个数据点 。
基因家族簇定义从39,734个大麦高信心类基因和大米MSU7.0的带注释的基因集(39,049个基因,http://rice.plantbiology.mmsu.edu/) ,B。Distachyon版本3.1(31,694 Genes,B.https://phytozome.jgi.doe.gov/pz/portal.html#!info?alias = org_bdistachyon),S。Bicolor版本3.1(33,032基因,33,032https://phytozome.jgi.doe.gov/pz/portal.html#!info?alias=org_sbicolor)和A. thaliana tair10(27,416 Genes ,https:/https:///wwwww.arabidopsis.org/)使用Orthomclomcl 89 。从数据集中删除剪接变体,仅保留代表/最长的蛋白质序列预测,并过滤数据集以进行内部终止密码子和不兼容的读取帧。在第一步中 ,使用BLASTP79计算所有输入蛋白序列之间的成对序列相似性,其截止值为10-5。使用通货膨胀值(-i)为1.5(orthomcl默认值),使用了所得相似性矩阵的马尔可夫聚类来定义直系同源群集结构 。与其他植物物种相比 ,具有大麦特异性基因复制的基因家族是从eNSEMBL比较管道中提取的90。大麦和其他植物物种之间基因本体学术语的过度和不足(补充表4.1-4.3)以及基因组隔室之间的(补充表4.5)通过使用bioconductor r Package 91的gostats和GSEABase进行了高几点测试(补充表4.5),分析了来自所有基因的基因学依赖基因学的基因学依靠基因学,而不是基因研究。Revigo92通过语义聚类从长基因本体论列表中删除了冗余和类似的术语 ,用于可视化富集结果 。扩展编码α-淀粉酶的三个大麦基因家族,液泡加工酶VPE2蛋白亚家族和糖转运蛋白Sweet11 sweet11 sweet11下属,在大麦谷物填充/种子发育/大麦发芽/麦芽中具有特定的重要性 (对基因组和基因预测)以及大麦基因组组装的基因运动映射。补充注释4中提供了更多细节。如先前所述 ,对甜基因进行原位杂交进行了93。
96个两排弹簧(n = 48)和冬季(n = 48)纯合子inbred Elite大麦线(补充表5.1)使用大麦roche nimblegen外显子捕获液体阵列94进行外显子体捕获,并在Illumina hiseq 2500平台上进行了测序 。每个样品的平均成对末端读数为2×21,876,780。这对应于61 MB外显子捕获空间的大约72倍覆盖范围。
使用BWA-MEM版本0.7.10(参考文献66),将RAW Illumina读取映射到参考序列,使用严格的不匹配设置为≤2%的每个读取不匹配 。使用GATK最佳实践管道(https://www.broadinstitute.org/gatk/guide/guide/guide/best-practices.php) ,使用基因组分析工具套件(GATK)71版3.4.0进行了变体调用。这包括读取删除率,indel Rehignment,基本质量得分重新校准以及最新版本的haplotypeCaller。工作流是用bash脚本实现的 。平板电脑组件Viewer95用于视觉检查映射和SNP调用。
变体发现总共有15,982,580种变体 ,其中943,959个是多核苷酸多态性或短插入/缺失(Indels),而其余的则代表SNP。对于随后的遗传分析,我们首先通过应用严格的过滤标准来减少总变体数据集 ,以产生在所有七个大麦染色体上分布的72,563个SNP的高度稳健子集 。所应用的过滤如下:(1)≥50%的样品的覆盖范围;(2)≥95%在每个SNP基因座的样品中≥95%;(3)样品水平上≥5%的次要等位基因频率:即计数样品基因型而不是单个读数;(4)VCF SNP质量得分≥30;(5)≥98%的样品纯合子。这些过滤器通过删除由系统的读取错误映射引起的虚假变体调用来减少假阳性变体调用。在此过滤数据集中,用Haploview Software分析了每个染色体中3,500个随机采样标记的子集 。96。需要该子采样,因为当将较大的数据量用作输入时 ,单倍曲线无法生成所需的图。Haploview使用Gabriel Blocks方法在默认情况下运行。基因型调用也被进口到基因型可视化软件Flapjack97中,以在春季和冬季池中产生单倍型多样性的染色体规模图像 。在Genalex 6.502版(参考文献98)中计算了多样性统计数据,并在Microsoft Excel 2010中绘制了基于100个相邻SNP的滚动平均值。
大麦的基因组组件已沉积在植物基因组学和现象学研究数据存储库中 ,数字对象标识符http://dx.doi.org/10.5447/ipk/2016/34。所有已存入数据集的登录号均在补充注释1中列出 。大麦基因组组件已存放在IPK Barley Blast Server(http://webblast.ipk-gatersleben.de/barley_ibsc/)上。所有其他数据都可以根据合理的要求从相应的作者那里获得。
赞 (14)
评论列表(4条)
我是东辰文化的签约作者“admin”!
希望本篇文章《染色体构象捕获大麦基因组的有序序列》能对你有所帮助!
本站[东辰文化]内容主要涵盖:生活百科,小常识,生活小窍门,知识分享
本文概览: 没有使用统计方法来预先确定样本量。实验不是随机的。在实验和结果评估中,研究人员并未对分配视而不见。 大麦基因组测序仅依赖于使用高通量下一代测序的88,731个BA...