中华家系1号DNA标准物质的研制与应用
【摘要】:全基因组测序已被广泛应用到科学研究和临床实践中,但由于涉及建库、上机测序、数据分析等复杂过程,导致组学数据在不同批次、不同实验室、不同测序平台和不同分析方法间存在批次效应,使科学研究结果不可重复,造成巨大的资源浪费甚至危害患者的生命健康。因此,研制全基因组DNA标准物质,并建立从组学数据产生到分析全过程的标准规范与质量控制体系十分重要[1]。美国国家标准与技术研究院(NIST)主导的"瓶中基因组联盟"(GIAB)发布了多个高加索人种的DNA标准物质和标准数据集[2]。不同人群全基因组序列具有人群特征的突变位点,因此建立中国人群遗传背景的全基因组DNA标准物质对于评估我国全基因组测序数据质量至关重要[1]。中华家系1号全基因组DNA标准物质来自复旦大学泰州队列同卵双胞胎家庭的永生化B淋巴母细胞系,代表了中国人群典型的遗传特征。我们基于多个测序平台在多个实验室产生了全基因组测序数据,采用多个生信软件分析,基于重复性原则整合得到了约320万高置信突变(SNVs和INDELs)和涵盖GRCh38参比基因组序列78%的高置信区域。采用同卵双生双胞胎家系的孟德尔遗传学关系、以及中华家系1号转录组、蛋白质组的多组学整合分析,验证了标准数据集的准确性。我们正在搭建中华家系1号云上可重复分析与应用平台,对标准物质、标准数据、数据分析整合流程以及质量评估工具进行共享,帮助测序实验室优化实验操作和数据分析流程,并基于更多平台、更多实验室的测序数据,对标准数据集进行升级和优化。