20年前,当人类基因组计划诞生、生物技术公司Celera Genomics宣布对人类基因组进行测序时,这个序列尚未真正完整,其中缺失了约15%的序列。技术上的限制使得研究人员无法计算出某些DNA片段是如何结合在一起的,特别是那些有许多重复碱基对的片段。
随着时间推移,科学家解开了其中一些谜团,但遗传学家自2013年以来用作研究参考的最新人类基因组序列仍然缺少8%。
现在,大约30个机构组成的国际合作组织——端粒到端粒联盟(T2T)的研究人员填补了这些空白。
据《自然》报道,在近日发表于预印本平台BioRxiv的论文中,美国加利福尼亚大学圣克鲁兹分校基因组学研究人员Karen Miga和同事报告称,他们已经对剩余的部分基因组进行了测序,其中发现了大约115个编码蛋白质的新基因。目前基因数量达到19969个。
被命名为T2T-CHM13的新测序的基因组,在2013年版的人类基因组序列上一次性增加了近2亿个碱基对。
这次测序,研究人员没有使用从人身上提取的DNA,而是使用了来源于一种被称为完全性葡萄胎(当精子使一个没有细胞核的卵子受精时在人体内形成的组织)的细胞系。由此产生的细胞只含有来自父亲的染色体,因此研究人员不必区分来自不同人群的两组染色体。
Miga表示,如果没有太平洋生物科学公司的新测序技术,这一壮举或许不可能实现。这一新测序技术可一次性激光扫描包含多达2万个碱基对的从细胞中分离的DNA长片段。而传统测序方法一次只能读取包含几百个碱基对的DNA片段,研究人员要像拼拼图一样将它们重新组装起来。
然而,T2T-CHM13并不是人类基因组的“最终版”。T2T团队在分辨染色体上的一些区域时遇到了困难,估计大约0.3%的基因组可能含有错误。此外,形成葡萄胎的精子细胞携带X染色体,研究人员还没有对Y染色体(通常会触发男性生物学发育)进行测序。
T2T-CHM13只代表一个人类的基因组。但T2T已经与一个名为人类泛基因组参考联盟的组织合作,该组织的目标是在未来3年内对全世界300多个人类基因组进行测序。
Miga说,合作研究小组将使用T2T-CHM13作为参考,以了解基因组的哪些部分在个体之间存在差异。他们还计划对包含双亲染色体的整个基因组进行测序。