预约演示

Nature Methods | SpatialData：引领空间组学数据处理的新革命

2024-03-23

引言在当今生命科学领域，空间组学技术(spatial omics technologies)已成为揭示生物组织结构与功能复杂交互关系的重要工具。这些技术通过在组织特定位置对DNA、RNA、蛋白质以及代谢物的定量分析，使研究人员能够以前所未有的分辨率和全面性理解生物组织的分子组成和空间结构。然而，伴随空间组学数据量的爆炸式增长以及数据类型的多样化，如何高效地处理、整合以及分析这些大规模的空间组学数据集成为了该领域面临的重要挑战。为应对这一挑战，一种名为SpatialData的开放式和通用数据框架应运而生（3月20日 Nature Methods “SpatialData: an open and universal data framework for spatial omics”）。这一框架旨在为空间组学数据提供一个统一和可扩展的多平台文件格式，同时提供对超出内存大小的数据延迟加载、数据转换和对常用坐标系统的对齐等功能。通过SpatialData，研究人员可以方便地进行空间注释、跨模态聚合分析，极大地提升了空间组学数据的可用性和分析效率。空间组学结合了成像和分子分析技术，可以在细胞乃至亚细胞水平上定位和量化分子，揭示细胞在组织中的精确位置及其相互作用。然而，不同的空间组学技术，如基于荧光显微镜的成像技术和基于测序的空间转录组学，往往产生不同格式和类型的数据，这些数据的差异性为数据的集成和综合分析带来了难题。SpatialData框架通过建立一个统一的数据格式和程序接口来解决这一问题，使得来自不同来源和技术的空间组学数据可以被统一处理和分析。此外，该框架还支持对数据进行延迟加载和多尺度展示，这对于处理大规模数据集尤为重要。通过SpatialData，研究人员可以轻松地在多个数据模态之间进行对齐和集成分析，推动对生物系统空间组织结构的深入理解。Highlights该研究介绍了一种名为SpatialData的开放和通用的数据框架，旨在解决空间组学技术(spatial omics technologies)中数据处理的挑战。空间组学技术正在转变我们对生物组织的理解，但是由于数据量大、数据类型多样以及缺乏灵活、空间感知的数据结构，这些技术的数据处理仍然面临挑战。统一和扩展的多平台文件格式(multiplatform file-format)：SpatialData建立了一个统一和可扩展的文件格式，支持大于内存的数据延迟加载、数据变换(transformations)和对常见坐标系统(common coordinate systems)的对齐。空间注释(spatial annotations)和跨模态聚合(cross-modal aggregation)：该框架促进了空间注释的添加以及跨模态数据的聚合和分析，这在多模态Xenium和Visium乳腺癌研究的整合分析中得到了证明。与现有生态系统的无缝整合：SpatialData通过Python库实现了与多种空间组学技术的兼容，并且与现有的多模态分析方法（如Squidpy、Scanpy）兼容，使得用户可以方便地存储、探索、分析和注释各种空间组学技术的数据。促进深度学习模型的训练：SpatialData实现了一个PyTorch数据集类(PyTorch Dataset class)，便于直接从SpatialData对象训练深度学习模型，这为高级用户提供了更多可能性。Strategies统一文件格式(Unified File Format)：为了克服不同空间组学平台和数据类型的多样性，SpatialData引入了一个统一和可扩展的文件格式，这个格式允许数据的互操作性(interoperability)和重用(reusability)。这种格式建立在开放显微镜环境-下一代文件格式(OME-NGFF)规范上，并利用Zarr文件格式进行存储，从而支持传统文件系统和云存储(cloud-based storage)的高效访问。空间元素(Spatial Elements)和坐标系统(Common Coordinate Systems)：SpatialData通过定义五种基本的空间元素(Spatial Elements)——图像(Images)、标签(Labels)、点(Points)、形状(Shapes)和表格(Tables)——来表示空间数据集。此外，它通过跟踪应用于单个数据集的坐标转换或对齐步骤，支持不同数据集的有效对齐和转换到共同坐标系统。延迟加载(Lazy Loading)和数据操作：SpatialData对象在内存中表示这种格式，支持大于内存数据的延迟加载，这对于处理大型数据集尤其重要。Python库还提供了用于数据访问、对齐、查询和聚合的操作，这些操作允许用户定义生物组织的CCS，并在不同的模态间部署空间查询和聚合操作。交互式注释和数据可视化：SpatialData集成了一个napari插件，用于交互式数据注释和可视化。用户可以利用这个插件定义空间注释，如绘制感兴趣区域(ROIs)或为多数据集注释指导地标。此外，SpatialData还提供了生成交云以及静态图的功能，以促进数据的理解和表达。深度学习集成：通过实现PyTorch数据集类，SpatialData使得直接从空间组学数据对象训练深度学习模型成为可能，这为使用空间组学数据进行机器学习和深度学习提供了基础。SpatialData 的设计概览和核心功能（Credit: Nature Methods）a.SpatialData 存储格式，该格式以统一的方式表示了来自广泛空间组学技术的原始和衍生数据。这一格式基于五个基本元素（SpatialElements），并按照 OME-NGFF 兼容的方式序列化到 Zarr 存储中。b.SpatialData Python 库实现了数据访问、对齐、查询和空间数据集聚合的操作。可以指定坐标转换来对齐多种模式到一个共同坐标系统（CCS），这允许在模式间部署空间查询和聚合操作。c.SpatialData 与常见的数据格式兼容，包括特定供应商的文件格式。数据集合可以存储在单个 Zarr 存储中，并以 SpatialData 对象形式表示。d.存储在 SpatialData 格式的数据集可以使用集成的 napari-spatialdata 插件进行交互式标注；SpatialData 提供生成交互式和静态图表的功能。e.SpatialData 实现了一个 PyTorch 数据集类，从而促进了直接从 SpatialData 对象训练深度学习模型。f.部分展示了 SpatialData 基于现有的标准和软件构建，因此与包括 Squidpy、Scanpy、MONAI 和 scvi-tools 等在内的现有多模式分析方法具有互操作性。Behind the Scenes空间组学技术的进步与挑战分辨率的提高：空间组学技术使研究人员能够在细胞乃至亚细胞水平上定位和量化DNA、RNA、蛋白质和代谢物的丰度，从而提供了前所未有的生物组织结构和功能的视角。这种高分辨率(high spatial resolution)的观测使得可以更精细地理解组织的组成和细胞之间的相互作用。多模态数据的获取(multimodal data acquisition)：随着技术的发展，现代空间组学平台能够捕获来自同一样本的多种生物分子信息，如蛋白质和RNA的同时检测，这使得研究人员可以从更多维度理解生物过程。数据处理能力的增强：伴随着大数据处理技术的进步，空间组学数据的处理、分析和可视化能力显著提高，使得研究人员能够从复杂的空间组学数据中提取有价值的生物学洞见。然而，空间组学技术的发展也面临着一系列挑战：数据量大(data volume)：空间组学实验产生的数据量巨大，特别是在高分辨率成像中，这对数据存储、处理和分析提出了更高的要求。数据异质性(data heterogeneity)：空间组学数据涵盖了多种数据类型，包括图像数据(image data)、标签数据(labeled data)、点数据(point data)等，这些数据的异质性给数据的统一处理和分析带来了复杂性。缺乏灵活的空间感知数据结构(spatially aware data structures)：现有的数据处理框架往往缺乏对空间信息的灵活处理能力，这限制了对空间组学数据的全面解读。多模态数据整合(multimodal data integration)的困难：不同空间组学技术之间存在的技术特异性和空间分辨率的差异使得数据整合成为一个重大挑战，尤其是在需要将不同模态的数据对齐到统一的坐标系(common coordinate system)中时。缺乏通用的数据框架(universal data frameworks)：尽管已有一些针对特定空间组学技术的数据处理工具，但缺乏一个能够广泛适用于不同空间组学技术的统一数据框架，这限制了数据的互操作性(interoperability)和重用性(reusability)。SpatialData空间注释的便利性通过建立统一的文件格式和多平台兼容性，简化了大量、多样化空间组学数据集的管理和分析。其核心优势在于提供灵活、空间感知的数据结构，支持空间注释（spatial annotations）和跨模式（cross-modal）的聚合与分析，极大地促进了生物组织学研究的深入。空间注释的便利性首先体现在SpatialData能够处理超过内存大小的数据集，实现数据的"延迟加载"（lazy loading）。这意味着只有当数据被实际请求时，它才会被加载到内存中，从而有效地管理大规模数据集，并提高数据处理的速度和效率。其次，SpatialData支持不同空间组学技术产生的数据，能够容纳来自多种技术的数据，如DNA、RNA、蛋白质和代谢物的定位和丰度信息。这一点通过定义五种基本元素（primitive elements）实现：图像（Images）、标签（Labels）、点（Points）、形状（Shapes）和表格（Tables）。这些元素的灵活组合与转换，允许用户从多个维度和尺度对数据进行探索和分析。SpatialData的另一个重要特性是它支持将数据集与公共坐标系统（common coordinate systems, CCS）对齐，这为建立全局公共坐标框架（global common coordinate frameworks, CCFs）奠定了基础。这使得研究人员可以在同一参照系下对来自不同实验和技术的数据进行整合和对比分析，增强了研究的连贯性和可比性。此外，SpatialData还提供了一个交互式注释插件（napari-spatialdata plugin），允许用户在直观的图形界面中对数据进行交互式的探索和注释。用户可以直接在图像上绘制感兴趣的区域，或者定义用于多数据集配准的地标点，这些注释随后可以被导出并用于下游分析，极大地提高了研究的灵活性和用户体验。最后，SpatialData不仅强调数据的"可查找性、可访问性、互操作性和可重用性"（FAIR原则），还通过与现有的多模态分析方法（如Squidpy、Scanpy）的兼容，为用户提供了一个无缝集成的分析环境，进一步拓展了空间注释的应用范围和深度。与现有空间组学技术的兼容性SpatialData是一个开放且通用的数据框架，旨在促进空间组学技术的数据处理和分析。这一框架特别设计以兼容多种现有空间组学技术，提供了一套统一和扩展的多平台文件格式。它支持各主要空间组学技术和衍生数据的表示，包括但不限于NanoString CosMx、10x Genomics Xenium和Visium、CyCIF、MERFISH、MIBI-TOF以及成像质谱细胞术（Imaging Mass Cytometry）。SpatialData通过五种基本元素来表示空间数据集，这些元素包括图像(Images, 如光栅图像)、标签(Labels, 如光栅分割掩码)、点(Points, 如分子探针)、形状(Shapes, 如多边形兴趣区域、阵列捕获位置等)和表格(Tables, 如分子定量和注释)。此外，该文件格式还跟踪了应用于单个数据集的坐标转换或对齐步骤。数据集合可以存储在单个SpatialData存储中，从而便于进行联合整合分析。SpatialData框架基于开放显微镜环境-下一代文件格式(Open Microscopy Environment–Next-Generation File Format, OME–NGFF)规范，并利用Zarr文件格式，从而为传统的文件系统和基于云的存储提供高效、互操作的访问方式。这种设计不仅增强了SpatialData与现有空间组学技术的兼容性，还通过提供一致的程序化接口，简化了不同数据类型操作的复杂性，实现了数据的可发现性、可访问性、互操作性和可重用性(FAIR)。这一框架的应用已被证明在多个案例研究中是有效的，如多模态Xenium和Visium乳腺癌研究的整合分析，展现了其在促进生物系统整体视角构建中的实用性。napari插件和PyTorch数据集类SpatialData框架为了增强与用户的交互性和数据的应用广度，提供了一个napari插件（napari-spatialdata）用于交云数据的交互式注释，以及一个PyTorch数据集类，这使得用户能够直接从SpatialData对象中提取数据并用于训练深度学习模型。napari插件是一种可视化工具，允许用户通过图形界面与空间数据进行交互，进行注释和编辑。使用这个插件，研究人员可以在可视化的基础上，直观地定义空间注释，比如绘制感兴趣的区域或者为多数据集注释定义地标点。这种交互式的功能极大地简化了空间数据分析的复杂度，使得用户可以直接在图像上操作，而不必编写复杂的代码。此外，SpatialData提供的PyTorch数据集类进一步扩展了其功能，使得用户可以将空间数据和注释直接用于深度学习的训练过程。这是通过将SpatialData对象转换为适合深度学习模型输入的格式实现的。这个功能特别有用，因为它允许研究人员利用深度学习强大的数据处理能力，进行更复杂的空间数据分析和模式识别，如细胞类型的预测或疾病标记物的识别。通过结合这两个强大的工具，SpatialData不仅提供了一种高效管理和分析空间组学数据的方式，还为深入挖掘这些数据中蕴含的生物学信息开辟了新的途径。这种集成的方法为未来的生物医学研究提供了巨大的潜力，特别是在精准医学和疾病机理研究领域。在乳腺癌研究中的应用研究结合了来自连续切片的两种原位测序技术(Xenium和Visium)的数据，这些技术分别由10x Genomics公司开发。首先，研究人员使用napari-spatialdata插件在所有数据集上定义了共有的地标点(landmark points)，以此作为建立共同坐标系(common coordinate system, CCS)的基础。通过这种方式，实现了不同数据集之间的对齐，从而识别了共同的空间区域，可以通过SpatialData查询跨数据集进行访问。其次，研究人员通过整合所有三个数据集中的信息，创建了一组共享的空间注释(spatial annotations)。具体来说，他们基于H&E染色图像选定了四个感兴趣区域(regions of interest, ROIs)，然后使用Visium数据中的全基因组转录组信息估计拷贝数状态(copy number states)，以注释主要的遗传亚克隆(genetic subclones)。最后，通过将独立乳腺癌单细胞RNA测序(single-cell RNA sequencing, scRNA-seq)图谱中的细胞类型标签传递给Xenium复制品中的细胞，对细胞类型进行了注释。在整合分析方面，研究人员考虑了Visium捕获位置的掩膜，将来自Xenium细胞的细胞类型信息聚合，以估计每个位置的细胞类型比例。此外，他们还使用deconvolution-based分析方法(cell2location)对Visium计数数据进行了分析，与Xenium基于细胞计数的估计结果相比较，显示出了较好的一致性。此外，研究人员还在定义的H&E图像ROI和Visium数据中定义的亚克隆位置之间进行了聚合操作，以在每个区域内量化细胞类型比例。这两种方法(Xenium直接计数和Visium deconvolution-based分析)得到的细胞类型比例显示出了较高的一致性。最后，研究人员比较了使用Xenium和Visium数据在Visium捕获位置上的单基因表达估计。通过将Visium捕获位置转移到Xenium中以聚合单个分子计数，发现聚合计数在Xenium复制品之间以及在一定程度上在Xenium和Visium计数之间具有高度的一致性。SpatialData在乳腺癌中的应用（Credit: Nature Methods）a.注释与整合：将两个乳腺癌Xenium数据、一个Visium数据及其对应的H&E（苏木精-伊红染色）图像，基于交互式选择的地标，注释到一个共同坐标系统（CCS）中。这个过程有助于将不同来源的数据集精确对齐，以便进行综合分析。b.空间注释的传递：利用CCS将空间注释从一个数据集转移到另一个数据集。空间注释包括从不同数据集得到的多种信息，如H&E图像中的组织学区域、Visium数据得到的肿瘤克隆（通过拷贝数变异分析）以及Xenium和单细胞RNA测序（scRNA-seq）得到的细胞类型。这些空间注释被表示为不同的空间元素（如多边形、圆形、分子），并可以通过CCS在数据集之间传递。c.SpatialData查询：描述了SpatialData查询如何促进跨模态的数据聚合、质量控制和基准测试。例如，可以计算Xenium中的细胞类型比例，并将其与Visium定量位置处的数据进行比较；还可以使用Visium数据的解卷积方法（如cell2location）来估计细胞类型比例。d.空间数据查询的应用：展示了如何利用SpatialData查询进行任意几何量化。例如，可以在Xenium（来自配对的scRNA-seq数据集）和Visium（使用cell2location估计）中，根据注释的感兴趣区域（ROIs）和克隆，获取细胞类型比例估计。e.基因表达量化的比较：展示了如何使用SpatialData聚合在Visium捕获位置比较Xenium和Visium中的基因表达量化。例如，通过比较Xenium复制品之间和Xenium与Visium之间的聚合基因表达量化的相关系数，来展示313个在Xenium和Visium中都存在的基因的表达。还展示了在Visium位置对特定基因（如FOXA1和UCP1）的表达水平聚合后的可视化。Q&ASpatialData框架的主要优势是什么？SpatialData框架的设计初衷是为了解决传统空间组学数据处理面临的多重挑战，其主要优势包括：-统一性：SpatialData提供了一个统一的数据框架，能够处理来自不同空间组学技术的数据，大大简化了数据整合过程。-灵活性：框架支持多种数据类型和格式，使得数据转换和对齐更加灵活方便。-高效性：借助懒加载和数据分块技术，SpatialData能够高效处理超大数据集，显著提高了分析效率。-可扩展性：框架的开放性设计支持持续扩展，可根据研究需求添加新的功能和模块。如何处理和分析大于内存的数据集？SpatialData框架采用以下策略来优化大于内存数据集的处理：-延迟加载技术：数据按需加载，避免一次性占用大量内存资源。-分块处理机制：将大数据集分割成小块，分别加载和处理，有效减少内存压力。-多级缓存系统：通过智能缓存管理，加速数据读取和处理过程。SpatialData如何支持跨模态数据集的整合分析？SpatialData框架通过以下功能支持跨模态数据集的整合：-数据标准化：将不同来源的数据转换为统一格式，确保数据一致性。-共享坐标系统：建立共享的空间坐标系统，实现不同数据集之间的精确对齐。-聚合分析工具：提供多维数据聚合工具，支持综合分析多模态数据。如何在SpatialData中实现数据的转换和对齐？SpatialData框架内置了一套强大的数据转换和对齐工具，包括：-数据转换器：支持多种格式的数据输入，可实现数据的快速转换和标准化。-坐标转换工具：提供灵活的坐标转换功能，帮助用户建立和管理共享的空间坐标系统。-自动对齐算法：利用先进的算法自动识别和对齐不同数据集中的共同特征，确保数据一致性。原文链接https://www.nature.com/articles/s41592-024-02212-xMarconato L, Palla G, Yamauchi KA, Virshup I, Heidari E, Treis T, Vierdag WM, Toth M, Stockhaus S, Shrestha RB, Rombaut B, Pollaris L, Lehner L, Vöhringer H, Kats I, Saeys Y, Saka SK, Huber W, Gerstung M, Moore J, Theis FJ, Stegle O. SpatialData: an open and universal data framework for spatial omics. Nat Methods. 2024 Mar 20. doi: 10.1038/s41592-024-02212-x. Epub ahead of print. PMID: 38509327.End