日报标题:了解不同的基因测序的真实功能,才不会被忽悠 夜神K2,生物狗 代码狗 博士狗 单车狗 单反狗 单身狗 汪汪汪 其实写知乎和公众号以来经常收到各种私信问『 XX 基因检测靠不靠谱』,但由于我特别懒几年也不查一次留言,也懒得挨个查网页什么的,基本上也很少回。而且『靠不靠谱』这种事儿吧,其实对于缺乏基本的遗传学知识的人来说,不是一句话说得清楚的。并且我又非常讨厌『基因』和『基因检测』的概念,不同的遗传检测的检测对象、技术手段、参考价值都差别巨大。所以今天这篇文就以自然选择的选择压力为出发点,花点篇幅说说这些,关于孟德尔疾病、复杂疾病、复杂性状,GWAS ,针对 SNP 位点的基因检测、对基因外显子序列全长测序的基因检测。希望本来不那么专业的观众能从自然选择的观点出发,学会判断自己接触到的基因检测靠谱与否。所以内个,对此有了解的专业观众可以离场了。 I. 关于选择压力的引子 物种与物种、个体与个体之间各不相同,是源于突变。突变是随机,在一定的环境下,大部分突变可能是有害的或者中性的,少部分是有利的。在中性突变出现时,大家表型没有差异,多种基因型共存相安无事;在有害突变出现时,携带有害突变的个体受到自然选择的选择压力,容易被淘汰;在有利突变出现后,没突变的可能也会慢慢失去竞争力,受到选择压力而逐渐被淘汰。这就是我们今天的出发点,选择压力。 所以大家应该都有这样的认知,越是不那么严重的遗传病——比如肥胖三高糖尿病、痛风帕金森老年痴呆什么的,就困扰越多人、不是先天就有而是倾向于晚发病、感觉上有家族遗传性却又不绝对、受生活方式等环境因素影响大。而严重的遗传病,什么血友病、遗传性耳聋、苯丙酮尿症,以及稍微轻一点的色盲,都颇为罕见、与生俱来、家族性非常明显、几乎不受环境影响——而且病症越严重,这些特征就越明显。究其原因,就是选择压力。 试想,一家人某个基因上有个特别牛逼的有害突变,仅仅是这一个突变,让这家人的后人差不多三四十就会稳定地去见达尔文,或者说过了 25 岁男孩子的 JJ 就会没法工作以至于繁殖不能(在生态学上讲,这跟去见达尔文也差别有限了)。那么显然啊,这可突变面临的选择压力就很大,于是乎这家人在繁殖这件事上与正常人比就有着天然劣势,甚至一不小心就会团灭,这个突变肯定没法在人群中广泛传播。于是这些病的特点和逻辑是这样的: 超级有害突变 → 相关遗传位点极少 → 家族遗传性明显 → 简单遗传病 → 符合孟德尔遗传定律 → 选择压力山大 → 几乎不受环境影响 → 人群中罕见 由于这些遗传机理简单的遗传病符合孟德尔遗传定律,我们也称之为孟德尔疾病。与之相反,像二型糖尿病一样的复杂遗传病的特点就是,单个位点致病效应有限、选择压力小、参与疾病发生的位点 / 基因很多、有一定家族遗传性但不确定、人群中常见、受环境因素影响大、不符合孟德尔定律。 以致病基因型常见程度为横轴、单个位点致病效应(通常用让步率,odds ratio 表征,欢迎 google 之)为纵轴为坐标,就有了下面这个做复杂疾病的论文都喜闻乐见的一张图: (本图修改自 GWAS 综述文献 Finding the missing heritability of complex diseases. DOI: 10.1038/nature08494 。是我入职华大后第一个 seminar review 的文献,木哈哈。那会儿还不懂把 GWAS 发音发成『基瓦斯』还年做 G·W·A study ,特别土) 我们所说的『疾病』大多分布在左上到右下的这个区域,越是靠左上就越表现孟德尔疾病,越是靠右下就越表现为复杂遗传病。比孟德尔遗传病还厉害的,厉害到没办法稳定遗传,这种病一定很罕见,比如新生儿肿瘤,也不知道咋地就秒跪了,根本来不及形成一种稳定可见的『遗传病』。相反,复杂疾病在右下,比之更常见、更不承受选择压力的,那就不能被成为『疾病』而是需要称为『复杂性状』了。很多数量性状比如高矮、肌肉丰度什么的,就在这里。身高这种性状会产生选择压力么?当然会,事宜的身高显然是漫长的自然选择后的结果。但在目前正常人的身高范围内,不至于发生『矮子没法生孩子』或者『太高了容易在可育年龄前死掉』这样的事情。左下角是一堆堆不常见又没有啥卵用的突变,一般很少关心。右上角呢,基因型对于性状的决定性强,所以一般不会有『疾病』存在于这里——否则无论如何会受到很强的选择压力而不可能在人群中常见。这个区域一般都是一些几乎没有选择压力的质量性状,比如耳屎干湿、卷发直发、不同血型、单双眼皮、舌头能不能打卷什么的,遗传机理简单,无论哪种表型,都不太会显著影响求偶繁育。 对于孟德尔疾病,往往通过患病家系的研究(连锁分析)就能确定致病基因和位点。对于复杂的疾病和性状,常见的研究方法是基于大规模人群的 GWAS(欢迎进一步 google )。而 GWAS 的结果是发现一些位点或特定基因型与某个疾病、性状相关。但其最大的价值不在于发现位点本身,而是发现与该性状相关的基因、通路、连锁区域等。一旦基因功能获得验证,我们如果希望较为准确地预测性状,就不应该只着眼单个被 GWAS 发现的位点,而是全部相关基因的序列。有没有单个位点的基因型就很能说明问题的呢?也是有的。比如 GWAS 发现了 ACTN3 这个基因与爆发力强相关,编码 a- 辅肌动蛋白 -3 这个酶,其中 rs1815739 这个位点的基因型作用显著,odds ratio 在人群中可以达到 3.74( doi: 10.1086/377590 ,doi:10.1371/journal.pone.0093165 )( odds ratio 越大表示基因型对性状的决定性越大:等于一时表示该基因型对该性状完全没有影响,为正无穷时为决定性影响,就像许多孟德尔疾病)。仔细想想是比较有道理的,爆发力这种东西,可以涉及比较强的自然选择。但多数 GWAS 研究的 odds ratio 并不是太高,尤其是很多几乎不涉及选择压力的性状研究,比如各种唱歌跳舞什么的所谓少儿天赋,研究结果也很难重复和验证,参考价值就极其有限了,各位一定不要太当真。 好的,有了以上对于『选择压力』和性状、疾病关系的基础,其实我们就能很容易判断基因检测哪些宣传靠谱、哪些内容参考价值更高、哪种检测手段更适合自己了。 II. 好的,来说基因检测 根据检测对象的不同,基因检测其实分为很多种,比如针对染色体水平变异进行检测的 21 三体、18 三体、染色体平行异位产前检测,比如针对人群中较为常见的 SNP 进行基因型分型的检测(低通量的可以用 PCR 、一代 Sanger 测序、飞行质谱完成);高通量的可以用分型芯片,亦或是针对给定基因的外显子全长测序(称为 Panel 测序)甚至是全基因组测序。 II. i. SNP 分型产品 目前大部分消费级产品,其实是『(人群中较为常见 SNP 的)SNP 分型产品』,所以对照上面的图,其能检测的是『决定简单性状的 SNP 』、『决定孟德尔疾病的常见 SNP 』,以及 GWAS 发现的『有关复杂疾病、性状的人群中常见的 SNP 』。因为其检测对象是有限个 SNP ,不能排除相关基因其他位置出现罕见突变从而影响了疾病、性状表型的可能性,其结果未必(其实是几乎不)具有临床参考价值。有临床参考价值的情况是啥?就是你真的被这几个 SNP 检出简单疾病的致病基因型(大部分时候你应该已经知道了吧……毕竟孟德尔疾病大多都老严重了……),或者阳性携带(比如报告里说携带遗传性耳聋基因型)。对于简单疾病,SNP 分型检测说没有『在有限个 SNP 中』检出致病基因型,并不代表一定没有致病因子(虽然出现罕见不良变异的概率也并不高)。而对于复杂疾病的 GWAS 位点的检测,无论报告基于这些『有限个 SNP 位点』的检测,给出了『致病风险可能高于常人』或『低于常人』的结论,都无需太过在意。评价复杂疾病风险,是一项非常复杂的任务,即便是考虑了许许多多相关基因的序列、生活环境、家族遗传,也未必能够准确预测,何况是仅仅对几个人群中常见的 SNP 进行评估呢?况且有了自然选择这杆秤,人群中越常见的 SNP 的作用效应也一般越小,检测的又是常见 SNP ,想必不论是怎样的基因型,都『坏不到哪里去』。 所以我们来总结一下 SNP 分型类产品的靠谱程度: 孟德尔遗传病(简单疾病)、药物反应(简单性状)、营养代谢(多数为简单性状)的『坏结果』 > 孟德尔疾病、药物反应、营养代谢的『好结果』,简单性状的解读(血型、狐臭、耳屎干湿、铲状牙,大部分你自己已经知道了所以其实没太大卵用) >> 复杂疾病的健康风险提示 > 复杂性状的解读(质量性状>数量性状,选择压力越小参考价值越小,比如你觉得小孩儿唱歌画画的所谓『天赋』能有多大选择压力?) 所以啊少年们,知道随便找个基因测个一两个 SNP,就声称可以解读『儿童 #%*(&$W% 天赋』这种丝毫没有选择压力的事儿,是有多猎奇了吧?也知道 SNP 分型产品中提示的复杂疾病健康风险,其实并不需要太担心了吧? II. ii. 外显子测序产品 那么既然 SNP 分型产品对于复杂疾病其实参考价值有限,那有没有更好的解决方案更准确地预测疾病风险呢?其实外显子测序 / panel 测序产品就可以提供相当程度的临床价值。 最好的例子还是安吉丽娜朱莉在 Myriad 公司测了 BRCA1 和 BRCA2 两个基因外显子全长的故事。首先我们知道的是,朱莉家躺枪于乳腺癌的姐们儿实在是太多了,显然是家族遗传性乳腺癌,弄不好有团灭风险。这说明啥?他们家携带的这个或者这些致病突变,选择压力大啊!压力山大!应该在那张图的左上角啊,显然是选择压力大 + 家族遗传 + 人群中罕见,肯定不是 GWAS 研究揭露出来的常见基因型啊。 从SNP 分型产品对于『复杂疾病其实参考价值有限』到夸两个基因外显子测序查出朱莉家病症确实存在一定的逻辑问题。乳腺癌本身是属于复杂疾病无误,但是涉及到朱莉一家的家族性乳腺癌,OR 极高遗传性明显,如果查出在人群中低频的、关键的致病突变,已经可以将『这个 case 的这个家族性乳腺癌亚型』归为『孟德尔疾病』,一般非专业读者很难 get 到这个事儿的本质是,外显子测序解决了『看似复杂实则简单的疾病』的问题,会被误导认为外显子测序对复杂代谢疾病同样有效。没有明确二者之间的区别,没有警示外显子测序对于复杂代谢疾病的局限性和无力,这是我的问题。 想全方位评估健康风险的话(尤其是和肿瘤有关的个体遗传风险),还是安安稳稳地做相关基因的外显子测序、panel 测序、全外显子测序或者是全基因组测序吧,SNP 分型产品一概没有临床参考价值。某上市公司测几个 SNP 就卖几万几万的某加防御某加守护什么的真是够了,除了尊贵指数和节操碎末化程度以外没有任何参考价值。 III. 大流氓常用表述 于是乎我总结一些基因检测垃圾产品常用的句式,来帮大家比较简单地鉴别骗子: 1. 『检测准确率 95% / 99% / 99.9% / 99.97% 』:检测准确率指的是 PCR / 测序 / 质谱的分型准确率,这个玩意儿没什么好讲的。但检测准确率跟性状预测的准确率根本不是一码事。越是不靠谱的产品越爱用这种话混淆是非,比如所谓儿童天赋什么的,几乎没有丝毫预测参考价值可言,却最喜欢说;基于少数常见 SNP 的乳腺癌评估产品,根本就忽视了家族性遗传和罕见突变的影响,应该诚恳地向消费者讲述 GWAS 、SNP 分型的参考价值。而用这样话误导人认为『预测性状准确』,是非常辣鸡的行为。 2. 『安吉丽娜同款』:上面已经喷过了。 3. 『基因决定 ***』:基因型能够决定的只有简单疾病和简单性状,复杂健康问题和复杂性状,不能用『决定』这个词儿。 4. 『精准医疗 / 精准教育』:你就测个 SNP 的话就敢提『精准』,是不是想精准骗钱? 5. 『天赋 / 潜能』:换啥词儿都是骗。 6. 贴个质谱图:尤其是产品介绍里贴个测序仪的,你检测报告里贴个毫无用处的质谱图是打自己脸么。 7. 『大数据』:高通量产品(无论是高通量 SNP 分型,还是外显子 / 基因组测序产品)都会产生很多『暂时不能解读』的数据,确有数据价值。但低通量产品就是骗人了,捎带骗投资人,你一个测飞行质谱、PCR 、sanger 的,测的全是别人文献里发表的东西,对未知位点一点都不研究,哪来的大数据?说你呢在报告里贴质谱图的那个,装只装给你们人傻钱多速来骗的土豪投资人是吧。 # 这样的投资人请介绍给我 # 就是这样,但愿对大家有用。 欢迎关注我的知乎专栏:K·吐 微信公众号:夜神 K2( CaptainK2 ) 阅读原文