人与人的基因序列中99.9%以上是相同的,仅有不到0.1%差异,可是为什么我们却如此不同?
人们经常把人类基因组序列(30亿对碱基)比喻成一部60亿字的天书,人类基因组计划的测序,只是把天书变成“明文”,人类却仍旧看不懂这些文字所表达的意思。
一个名叫“基因型—组织表达”(以下简称GTEx)的大型研究项目试图寻找答案——即找到序列与实际性状(疾病)的关系,确定不同基因究竟如何影响表达。GTEx计划是现有规模最大的人类器官转录组研究计划。这项研究由美国国立卫生研究院(NIH)资助,包括麻省理工学院、哈佛大学、芝加哥大学等美国多个知名研究机构的研究人员参与研究,通过对不同性别的死者不同组织、不同器官的基因组、转录组、蛋白质组进行分析,试图把基因组测序的结果“直译”出来。
经过10年研究,GTEx计划9月上旬公布最新分析成果,数据以系列论文的形式在《科学》《细胞》等杂志上发表。值得一提的是,GTEx数据被广泛用作设计新方法和工具的参考数据集,由此衍生出大量便于更深入研究的统计学方法。
为生活中的“小烦恼”寻找关联基因
这里有每个人的小忧虑,欢迎“对号入座”——
如果你还没到成为中年油腻男的年纪,或许正在担心:为什么我的发际线在不断升高;
如果你是位压力山大的职场女性,或许正在担心:去年体检的乳腺结节不知道怎么样了,据说乳腺癌患病率很高;
如果你是名新手宝妈,或许正在担心:我家娃超重了!除了母乳什么也没吃,为什么胖得连脖子都看不到了;
……
在GTEx计划公布的研究结果中,这些问题都在基因组、转录组和蛋白质组的分析中找到了答案。
这些答案来自海量数据的测序、汇总、分析……依托了大量的创新分析方法。研究者将所有的研究数据汇总形成GTEx数据集,目前已经更新至第八版,其中包括来自838个供体、52个组织、两个细胞系的17382份样品的数据。
研究者们对这些样品进行全基因组序列的测序分析,转录组表达量的分析,以及相互之间作用关联的分析,以鉴定出哪些基因与哪些性状有密切关联。
这次研究首次发现,一个被命名为C9orf66的基因,与脱发有关,这个基因在男性中的表达量远高于女性;CCDC88C基因在女性中表达水平较高,它是一种与乳腺癌发病有关的基因;而新手宝妈最关心的婴儿体重,可能与婴儿本身无关,却是和宝妈体内的HKDC1基因密切相关,该基因具有孕期血糖调节功能,它的表达影响女性生育的后代体重。
当然还有很多与现实生活密切相关的发现,例如一些基因的高表达会促进癌基因的表达;女性比男性长寿的关联基因等,在最新的研究成果中,人们可以对早有迹象的生命活动在人类基因组的浩瀚长图中“按图索骥”,给出功能“注脚”。
鉴定出与疾病相关的罕见基因突变
关注并研究人类彼此间不同的0.1%基因,其实由来已久。学界通常将其命名为全基因组关联研究(GWAS),顾名思义,是为了寻找基因与功能之间的关联。
0.1%的不同基因序列,意味着在整个基因组30亿个碱基对中至少有30万个常见的SNP(单核苷酸多态性,即单碱基的变化)。“GWAS仅研究了常见的SNP位点,这就意味着仍有许多罕见变异尚未鉴定。”有分析认为,比起常见突变,罕见突变的研究需要更精确的测量,换句话说,只有大规模的全基因组分析(至少全外显子测序)才能满足研究的需要。
在此前发布的第一阶段和第二阶段成果中,GTEx计划也将注意力集中在常见突变对转录组的调控。而这次公布的GTEx计划第三阶段成果终于拓展到了罕见突变。
相较其他数据库,GTEx最大的优势就是来自各种器官的基因表达。但是由于都是从意外死亡的个体获得的样本,除了性别、年龄等基本信息,GTEx并没有个体非常详尽的性状信息。这次通过与之前做过罕见突变研究的英国生物样本库(UK Biobank)合作,鉴定出许多对基因表达有巨大影响的罕见突变,并找到相对应的关联性状(疾病)。这大大提升了GTEx自身研究的意义。
GTEx系列研究论文《通过跨器官的转录组信号,鉴定出有功能的罕见突变》中的研究结果表明,人类基因组包含的罕见突变会增加某些疾病风险,研究通过对838个全基因组数据,及多种器官的转录组数据的分析,检测出了与极端基因表达量有关的罕见突变。研究者整合了来自49个器官的三种极端表达信号,最终首次鉴定出了具有高影响的罕见突变,并且和疾病做了关联。
研究同时给出鉴定罕见突变的方法,可用于对个人基因组的解释和罕见突变的发现,为研究罕见突变的基因功能、提高疾病检测能力提供了有力手段。
试图揭示不同器官中端粒长短规律
端粒是染色体的末端。由于端粒的长度反映细胞复制史及复制潜能,它被称作细胞寿命的“有丝分裂钟”。
端粒长短的变化被认为是人体走向衰老走近死亡的“钟摆声”。
迄今为止,端粒长度的差异还从没被精确测量,尤其在人类不同器官中,端粒长短的规律是什么,还摸不着头绪。
GTEx计划首次进行了系统的测量。更重要的是,研究者找到一种“标尺”——由于血细胞中端粒最短,其端粒长度能够作为其他器官端粒长度的参考。
系列论文之一的《人类组织中端粒长度的决定性因素》表明,研究者测量了952例捐献者的25种以上组织中的相对端粒长度。使用多因子定量分析技术(也叫Luminex分析法)对639个独特组织样本的端粒长度进行了测量,生成了最大的可共享数据集。
测量之后,研究团队将数据与GTEx供体特征、遗传变异和组织特异性表达的数据相结合,使用模型分析,希望寻找端粒长短的变化究竟与哪些因素相关。最终发现,组织类型、供体年龄影响最大,而吸烟与否竟然也会对端粒长度有微调。
在检测的不同组织中,端粒长度在血液中检测的最短,在睾丸组织中测出的最长。在大多数组织中,端粒长度与年龄呈负相关,年龄越大端粒越短。研究还表明,基于祖先的端粒长度差异存在于生殖细胞中,并传递给受精卵。
作为人类基因组计划的“续篇”,GTEx计划不负众望,揭示了很多重要谜团,积攒了更多数据,也开发了更有效的方法。
重大生命科学计划的间接影响力是巨大的,例如人类基因组计划大大推动了测序效率,使得全基因组测序速度一快再快,成本一降再降。
GTEx计划的突破,其实更像为生命之谜这块“硬骨头”切开一个个口子,更大、更深的重要探索将吸引更多目光和研究的聚集,为人类“揭秘自我”积攒更多人气和经验值。
也难怪有研究者预测,随着GTEx项目继续深入开展,评价基因调控效应在疾病变化和不同环境中的差异将会获得依据,有助于推动精准医学研究计划目标的实现。