原标题:复旦团队构建“华表”基因数据库:测序了五千例中国汉族个体
论文网页截图日前,国际权威学术期刊《遗传学和基因组学杂志》(JournalofGeneticsandGenomics)在线发表了中国科学院院士、复旦大学教授金力团队题为《华表计划:5000名汉族个体的全外显子测序》(“TheHuaBiaoProject:Whole-ExomeSequencingof5,000HanChineseIndividuals”)的研究论文。
该研究对来自中国华北(郑州)、华东(泰州)、华南(南宁)三个代表性汉族群体的5000名个体进行了基因组全外显子测序,初步构建了“华表”中国外显子组数据库(以下简称“‘华表’数据库”)。
8月30日,在“华表计划”最新科研成果通气会上,论文通讯作者之一、复旦大学人类遗传学与人类学系主任王久存教授、复旦大学人类表型组研究院教授石乐明介绍科研成果情况。
发现本土人群特有的基因组变异
包括疾病在内的各类健康问题,受基因组遗传变异的显著影响。这种遗传变异不仅仅因人而异,往往也因“人群”而异。
2001年,人类基因组计划构建了第一个人类参考基因组;2008年,千人基因组计划启动,对全球不同人种的2500例样本进行全基因组测序,绘制完成迄今最为详尽的人类基因组变异图谱。通过千人基因组计划,科学界发现:不同人种(人群)间基因组变异位点及频率存在显著差异。
与此同时,新一代基因组测序技术的快速发展与成熟,使得在基因组水平对人群样本进行大规模测序研究,并系统揭示人群的精细遗传结构已经成为可能。外显子是真核生物基因的一部分,负责编码蛋白质;外显子组是基因组的蛋白质编码区域的集合。与全基因组测序相比,新一代覆盖基因组编码区的全外显子组测序(whole-exomesequencing,WES)技术成本大幅降低。可在高测序深度情况下,更准确检测出临床致病的罕见变异位点。
目前,国际上已有多个大型公共全外显子(WES)数据库,如ExAC、gnomAD等。但这些数据库的样本大多由高加索、非洲裔美国人或拉丁美洲人组成,中国汉族样本数量有限。作为世界上人口最多的民族,汉族具有较高的遗传多样性,建立一个高质量且有代表性的中国汉族人群全外显子数据库对于生物医学研究具有极为重要的价值。
2017年9月,复旦大学现代人类学教育部重点实验室联合有关机构发起“华表计划”——中国全外显子组数据库项目,是自主建设的中国人群公共数据库之一。作为“华表计划”的主要科学设计者,金力表示,“华表计划”第一阶段的建设目标是通过对覆盖全国、有代表性的汉族人群样本进行高质量测序,系统解析外显子区域等位基因频率,精细刻画中国汉族人群遗传结构,形成我国自主建设的中国人群基因组数据库。同时,在遵循国家人类遗传资源管理有关规定的前提下,探索推动包括基因组数据在内的各类生物医学数据的保藏与共享,为下一步的精准医学研究提供参考数据集。
经过近四年时间,复旦大学团队联合艾吉泰康采用全外显子捕获芯片技术,完成了对5000例中国汉族个体的全外显子捕获和测序,构建起“华表”数据库,完成了“华表计划”第一阶段目标。
目前,“华表”数据库共包含207万个遗传变异,其中46.4%的遗传变异为该研究首次发现。全球研究人员都可以通过布设在中国生物医学大数据中心(上海)网站下的数据库子站(https://www.biosino.org/wepd)快速检索相关遗传变异的频率信息。
“华表”数据库为罕见病精准诊疗提供科学基础
华表数据库中的样本,均与由复旦大学人类表型组研究院教授石乐明团队原创研发的“中华家系一号”生物标准物质(http://chinese-quartet.org/)进行了比较验证,结果显示,“华表”标准品遗传数据SNP精度(precision)达到99%。
科研人员还将“华表”样本与同样本另一种技术路线——全基因组芯片数据进行比较,结果显示一致率达到99.8%。
而“华表”数据库与gnomAD(东亚人群)中共有遗传位点比较,两者频率高度一致(R2>0.99)。
上述结果均证明“华表”数据库变异数据具有高质量和高准确性。
论文通讯作者之一、复旦大学人类遗传学与人类学系主任王久存教授介绍,包括全外显子组数据库在内的人群数据库对生物医学界开展罕见病研究具有重大意义。罕见病是指仅在极少数人身上发生、人群患病率小于万分之一的稀罕病症。统计表明,大部分(72%)罕见病是遗传性疾病,许多罕见病在患者生命早期发病,例如地中海贫血、成骨不全症等。
“华表”数据库提供了中国汉族人群的低频位点频率信息,能够帮助研究人员区分罕见致病突变和高频良性变异,从而为进一步精准识别和分析中国人所患罕见病的致病分子机制、遗传机理以及基于此的罕见病精准诊疗方案提供了科学基础。据介绍,一般来说人群越大,产生的选择压力就越大,越容易清除有害基因突变。由于汉族人群很大,因此受罕见病影响相对于封闭的小群体要小。
复旦大学博士研究生郝萌、博士后濮伟霖、青年副研究员李轶和文少卿为该论文的共同第一作者,复旦大学教授金力、王久存、李辉和青年副研究员王一为共同通讯作者。相关工作得到上海市科技重大专项、中国医学科学院医学科学创新基金和国家重点基础研究发展计划的支持。