Stegy2232020-04-11 21:22:46

新冠肺炎病毒的几种变异体是咋回事

除了疫情本身这二天网上及朋友之间谈论的最多的话题恐怕是新冠肺炎病毒的不同类型及由此引伸出的一些猜想。有些仁者见仁智者见智的味道, 引得三脚猫不由得学习跟进了一把。在这里分享一下心得,属于 my two cents.

1.  新冠病毒变异体及分子进化关系分析

所有这方面的研究涉及几个基本词汇和概念:Single Nucleotide Polymorphism (SNPs) 单个位点核苷酸多样化。单个核苷酸变异是个普遍现象,存在于所有物种中。己知每个人的基因组中大约有4-5百万个SNPs.  平均每1000个核苷酸中会发生一个变异。 SNP念Snip 而不是S-N-P.  从读音就可听出这是屁大点的小变化,大多数情况下无明显功能性意义。新冠肺炎病毒(SARS-CoV-2)基因组全序列约3万个核苷酸。目前从全球基因组全序列(约1600)中已观察到250多位点有SNPs.

谈SNPs就得用到二个词汇: synonymous and non-synonymous 点突变。Synonymous -  单个核苷酸变异不影响转译(即编码的氨基酸残基)。Non-Synonymous - 单个核苷酸变异 导致编码不同的氨基酸残基。更有甚者,单个核苷酸变异亦可能导致蛋白链提前中断,相反亦可能导致出现一新蛋白链的起始点(ATG) 。

简单说来,Synonymous单核苷酸变异应没有功能性影响,从进化筛选的角度看多为中性的。Non-Synonymous 单核苷酸变异取决于具体氨基酸残基的变导是什么及该氨基酸残基在蛋白质三维结构中的具体位X,对该蛋白质功能的影响可以不大 (conservative mutation) 也可能巨大。这些都会经过进化/演化的筛选,  有利于复制生存的变异就会被保留和在后代中扩大(Positive selection),不利于复制生存的变异就会被筛选去掉(Negative selection)。所谓适者生存。

把己知的基因组序列对比排列好(Multiple alignment) 然后再用不同的模型计算分子进化关系及画出进化树就是各种phylogenetic analysis。国家地理杂志上有篇科普文图文并茂,感兴趣的可以去看看。"How coronavirus mutations can track its spread and disprove conspiracies".

对SARS-CoV-2/Covid-19病毒基因组分子进化及时和全面跟踪做得很好的是Next strain 网站。可以清楚地看到有三大分枝。横轴是时间轴,早期病例出现于中国武汉一带。

2.在谈目前热门的英国德国科学家PNAS一文之前,先来介绍一下一篇还没大名气的由几位中美华人学者(Zhang LS et al)发表的预印版论文“Genomic variation of SARS-CoV-2 suggest multiple outbreak sources of transmission”。 大体思想与PNAS是吻合的。 这篇文章细节多一些便于在科普水平谈一下。Zhang 等分析了160多全序列后发现3个紧密关联的点突变位点.  下图显示了推测的变异过程。

作者指出被称为2型的在武汉华南海鲜市场集中爆发。推测最初感染人的是1型,感染发生于武汉华南海鲜市场之外的地点(“somewhere else in Wuhan”).   作者指出这点与报道的最初41个病例中14个无华南海鲜接触史吻合。

“In summary, our results illustrate the presence of two major genotypes of SARS-CoV-2, suggesting of at least two, possibly three, major outbreak sources (Figure 3). The outbreak in the Huanan market may not be the initiation transmission of SARS-CoV-2 to human, and thus the location of initial transmission to humans remain to be determined.”

“These observations suggest that the outbreak in the Huanan market was triggered by the Type II virus and that the initial transmission of Type I viruses to humans might have occurred somewhere else in Wuhan, probably preceding the outbreak of Type II in the Huanan market. Our speculation is in line with earlier reports that 14 of the first reported 41 cases had no link to the Huanan market”

另外,由北大中科院组成的团队在国家科学综述杂志发表的“On the origin and continuing evolution of SARS-CoV2”一文中关于传染人后继续演化重点分析了基于SNPs的二型。该文作者认为这二种型或者出现于最早期人传染阶段或者是中间宿主中。这些猜测有待进一步深入研究及更多数据的发掘。

3.PNAS - SARS-CoV-2分子进化关系网络及三种类型。 介绍这篇热门论文的博文己有二篇。Forster 等用的方法不同于一般phylogeny tree分析方法。如前所述,常规方法需把所有的序列排列对齐(multiple alignment) 。而Forster等用的是Characters-based phylogenetic network,  不依懒于首先排列对齐序列。Forster 等的网络图确定是否有核心,然后由核心向外扩散(随着突变点的增加)。从前面介绍来看Forster 等发现的A,B,C 型谈不上太让人惊艳。该法的优点是有力于详细追踪变异体之间的关系。但另一方面,我们可以注意到Forster等人的分子进化网络图没有时间轴的概念。

Forster 等指出A型又分2亚型。第一亚型T29095C Synonymous mutation  从4名广东患者中测到。另外3名日本人患者及2名美国人患者带有另一亚型(有其它变异)。2名美国人在武汉住过。B型集中于中国及东亚。Forster 等指出从数据看B 型再往外传似乎需要积累更多的突变才行。为什么会是这样原因不清楚。作者有二种推测。1) 最初感染人的病毒株情况复杂(complex founder scenario) 或 2) 最初传染人的 "Wuhan B-type virus" 从免疫学和环境适应角度讲更适应于东亚人群。

所以总的看来还有许多进一步分析研究工作要做。

参考文献:

National Geographic https://www.nationalgeographic.com/science/2020/03/how-coronavirus-mutations-can-track-its-spread-and-disprove-conspiracies/#close

Zhang, Liangsheng, et al., “Genomic varations of SARS-CoV-2 suggest multiple outbreak sources of transmission” medRxiv preprint doi: https://doi.org/10.1101/2020.02.25.20027953

Tang, Xiaolu et al “On the origin and continuing evolution of SARS-CoV-2”National Science Review https://doi.org/10.1093/nsr/nwaa036

Forster, P., et al “Phylogenetic network analysis of SARS-CoV-2 genomee” www.pnas.org/cgi/doi/10.1073/pnas.2004999117




更多我的博客文章>>>