接上篇,我们继续介绍生物大分子可视化的历程。
——Richardson视角——
2.计算机图形学:丝带和全原子接触点
我们首次接触用于晶体学的计算机图形交互设备是在北卡罗来纳大学教堂山分校计算机系的图形实验室。如图1A所示,GRIP-75系统能够实现结构的立体显示和平滑旋转,还配备了有五个按钮和滑动条的控制台。这是首个能够将原子模型嵌入电子密度图的计算机系统。相应的计算由填满身后房间的IBM360完成。我们是其开发过程中的实验对象,而我们的2Å分辨率Cu,Zn超氧化物歧化酶(2sod; “SOD”)结构是第一个直接通过计算机而非物理模型搭建的蛋白质晶体学模型。图1B展示的是SOD结构中一对二硫键的截图。后来,越来越多的用户开始使用这套系统。再后来,GRIP-75逐渐被能够在实验室独立运行的Frodo取代。
图1. 第一套用于模型搭建的计算机图形系统GRIP-75
当我们有了自己的Evans&Sutherland PS300矢量显示器时,人们已经开始尝试各种带状的结构表示方法,但大多数都过于刻板且生硬。第一个我们喜欢的方法是Mike Carson开发的Ribbons程序[1]。他为我们提供了B-splines算法,并针对螺旋和转角半径做了偏移调整,Dave随后将其编码为多股矢量带状结构。如图2A展示的就是带状的色氨酸阻遏蛋白的二聚体结构。
图2. 早期的计算机显示蛋白结构图形
在1990年,我们意识到第一台苹果家用桌面电脑能够平滑地旋转500个矢量——足以实现分子3D可视化或简单的构象变化动画。一次在Sierras的徒步旅行中,我们构思了“kinemage”格式的框架,包括它可编辑和可点选的特性。Dave随后编写了Mage程序以显示kinemages,提供了许多交互式查看和编辑选项。大约在同一时间,RasMol也被开发用于家用电脑。Kinemages当时随每月的《Protein Science》新刊一起通过4K软盘分发,成为了重要的电子补充材料。开始的样例都非常简单:一般是蛋白的一个活性位点或整体Cα轨迹,比如T4溶菌酶结构域的铰链运动的动画(图2B)。随着个人计算机性能的快速发展,越来越大的模型甚至带状结构都可以以交互方式显示(图2C)。
如今,计算机能够显示的图形的尺寸和复杂性已经不再受到性能限制,而主要受观众感知效率的限制。对于非常大的分子、复合物甚至整个细胞,其他新的表示方式已逐渐取代了带状图形(参见Goodsell的相关论述)。图3A-F展示了一些我们最喜欢的中等大小蛋白质和复合物的带状图形,从小型三聚体到蛋白质- DNA复合物以及膜蛋白。这些图形中的前两个是用Mage创建的,其余则使用了KiNG程序。它是一种能够在线和本地使用的kinemage查看器,具有许多额外的编辑和重建功能。
图3.计算机绘制的丝带风格蛋白结构
3.全原子接触分析
在早期的蛋白质设计工作中,我们能够实现正确的二级结构和拓扑结构,但未能达到有序的、类似天然状态的结构。然后我们意识到:如果我们将标准的隐式“统一原子”处理方式转变为显式地包含所有氢原子,并关注它们的相互接触,我们就可以进行更加量化且直观的原子-原子间堆积分析。我们的原子-原子间接触点在一定程度上正和刻画溶剂可及表面的Connolly点相反[2]。我们的Reduce程序能够显式地放置所有氢原子,并优化它们的旋转和相互作用网络,考虑了氢键、范德华相互作用(vdW)和碰撞等因素。这种全原子接触分析可视化了原子表面是如何接触的,而传统的从原子中心出发的能量分析由于是数值化的,相比之下并不直观。
图4. 用全原子接触点分析相互作用
图4A展示了在高分辨率下弹性蛋白酶(PDB: 1EZM)脯氨酸侧链氢原子周围的范德华接触,点状图呈现出起伏交错的模式。绿色点表示完美的原子-原子接触,蓝色点表示非常接近但没有接触,黄色点表示接触稍有些紧密。图4B显示了一个过渡态抑制剂通过13对氢键(浅绿色点组成的圆片)紧密结合在核糖核酸酶中(PDB: 1RUV)。图4C展示了在1.35Å分辨率下(PDB: 4FEN)RNA双螺旋中的碱基堆叠的范德华接触和碱基对的氢键。高分辨率实验结构中有序的部分几乎没有碰撞,氢键密度高,氢原子指向明确且形成了良好的范德华接触,这证实了全原子接触体系的有效。因此,全原子接触分析提供了一种强大的方法,用于发现实验模型中不合适的局部构象。这些不合适的构象以≥0.4Å的原子间重叠(碰撞)为特征。这一发现促使我们建立了MolProbity验证网络服务,后续会对此进行讨论。
4.RNA的七维结构
2000年,首个核糖体结构被解析后,我们的学生Laura Murray带领我们重新回到对RNA的研究。在1960年代,我们的朋友Sung-Huo Kim解析了第一个复杂折叠的RNA结构(图5A),极大改变了人们对tRNA类三叶草结构的认识。核糖体的研究又为RNA主链构象的研究提供了更多的数据。由于RNA每个PO4基团到下一磷酸基团间有六个可变的二面角,因此RNA个主链构象具有内在的高维特性,我们发现七维的糖环到糖环的整体分析方法能够展示出更好的聚类效果,因为它比核苷酸包含了更多的主链相互作用,并且受到连续碱基相互作用的直接影响。
之后Dave和Vincent Chen分别在Mage和KiNG程序中开发了一种集成的高维技术,用于显示和分析这些数据。该方法通过为特定的参数三重组定义“视图”,选择并为显现出的聚类点着色(图5B),然后在其他3D组合和平行坐标系中检查聚类的有效性(图5C)。这一工作最终促成了五个不同实验室的合作,达成了一个RNA主链构象的共识库,其中每个构象以两字符的名称表示,异常情况则以"!!"(bang-bang)表示。这一工具帮助研究者能够有意义地命名和可视化RNA结构特征,如stack switch、S-motif或GNRA四核苷酸环(图5D)。当这些结果与全原子接触分析结合时,图像更加信息丰富,并可以指导对RNA结构中异常值的修正。
图5. RNA结构和骨架构象的可视化
5.DiVE中的虚拟现实:NMR RDC曲线
在Duke沉浸式虚拟环境(DiVE)中,我们探索了沉浸式虚拟现实能否应用于分子研究并增强研究人员的直觉感知。通过与杜克大学的可视化技术小组合作,我们建立了DiVE环境下的KinImmerse系统。它能够显示kinemage格式的数据文件,具备原子选择、识别和测量的功能(图6A)。我们的测试案例是将NMR结构系综和晶体学模型直接进行比较。
基础的NMR数据主要测量局部原子间关系:其通过核Overhauser效应(NOE)值测量原子对距离,通过剩余偶极耦合(RDC)值测量原子对相对于磁场的方向,因此非常适合在结构系综内进行结构比较。通过我们设计的共中心化功能(cocentering),研究者可以对特定类型的原子进行比较,观察每个残基中模型与局部数据的契合程度。图6B展示了围绕Glu 36中的N原子的RDC曲线(PDB: 2JNG)。在这种情况下,某些模型肯定是错误的,因为H原子应该都位于RDC曲线的同一分支上。至于具体哪个模型是正确的,需要通过其他验证标准(如氢键、碰撞和φ,ψ值)来判断。这一系统后来被移植回单屏幕查看,但如果没有虚拟现实环境的启发,可能不会被想到。
图6. 在虚拟显示中进行模型搭建和验证
6.结构模型的标记和修正
我们的MolProbity程序在全原子接触分析的基础上添加了包括键长、键角、Cβ偏差、Ramachandran φ,ψ二面角、侧链构象异构体、RNA的糖翻转和主链构象在内的其他各类验证指标。将结构模型提交给MolProbity进行分析后,MolProbity会在输出的模型中对局部的异常值进行可视化标记(图7A)。
如今,MolProbity已经成为广泛使用的结构模型验证工具。它不仅能够检测出模型的局部异常,也能为模型的改进提供方向。图7B是图7A所示的1LPL结构的左上角部分的放大视图,可以看出这部分存在碰撞和侧链构象异常。将模型和电子密度图比对可以看出,是136号Cα原子的主链和侧链放置颠倒,将136号和137号残基进行局部修正之后,这些表示异常的标记消失,且之前未被占据的密度中延伸出了一圈α螺旋。再次进行验证,可以发现模型的Rwork降低了1%,而Rfree则降低了4%,表明了模型的改变是真正的改进。
图7. 使用MolProbity分析标注指导结构修正
在过去20年里,这种验证和可视化系统显著地提升了wwPDB中常见分辨率(从亚1Å到大约2.5Å)的条目的数据质量。然而,最近基于冷冻电镜(cryo-EM)方法成功解析了大量巨大的、动态的“分子机器”,其分辨率大多低于2.5Å。这些新结构为我们对生物学的理解做出了革命性的贡献,但较低的分辨率引入了传统验证指标难以检测的新系统性错误。我们与其他研究者正在开发新的验证系统,希望能够检测出传统异常值被人为调整到合格但仍不正确的构象里的局部错误。到目前为止,最有效的新指标是CaBLAM,它检测的是所建模的肽段方向是否与周围五个残基的Cα主链是否一致。
在2020年,结构生物学家迅速动员起来,以前所未有的速度解析并发布了SARS-CoV-2相关的蛋白结构。我们与Tristan Croll合作,利用所有工具识别并纠正这些结构中重要位点的可修正错误。发现的问题包括序列错位、离子电荷数错误、二硫键扭曲,抗体结合界面扭曲,以及许多肽段的定位错误或顺式-反式颠倒。
当前最喜欢的可视化工具
ChimeraX的快速环境遮蔽(图8A)[3]
ISOLDE中的可视化模型重建(图8B)[4]
Ribosolve对RNA模型不确定性的可视化(图8C)[5]
KiNG中的全原子接触
David Goodsell的表示方法
图8. 当前最喜欢的可视化工具的可视化效果
全文完。Richardson视角结束[6]。下期将介绍Goodsell教授视角的大分子可视化历程。
参考资料:
[1] Carson, M., and Bugg, C. E. (1986) Algorithm for ribbon models of proteins. J. Mol. Graph. 4, 121–122
[2] Connolly, M. (1983) Solvent-accessible surfaces of proteins and nucleic acids. Science 221, 709–713
[3] Goddard, T. D., Huang, C. C., Meng, E. C., Pettersen, E. F., Couch, G. S.,Morris, J. H., and Ferrin, T. E. (2018) UCSF ChimeraX: Meeting modern challenges in visualization and analysis. Protein Sci. 27, 14–25
[4] Croll, T. I. (2018) Isolde: A physically realistic environment for model building into low-resolution electron-density maps. Acta Crystallogr. D Struct. Biol. 74, 519–530
[5] Kappel, K., Zhang, K., Su, Z., Watkins, A. M., Kladwang, W., Li, S., Pintilie, G., Topkar, V. V., Rangan, R., Zheludev, I. N., Yesselman, J. D., Chiu, W., and Das, R. (2020) Accelerated cryo-EM-guided determination of three-dimensional RNA-only structures. Nat. Methods 17, 699–707
[6] 看来两位Richardson教授是一点不用Pymol。
译者:郭 政
审稿:钟书辰
编辑:黄志贤
GoDesign
ID:Molecular_Design_Lab
( 扫描下方二维码可以订阅哦!)