Nature Communication:清华大学江瑞团队提出空间染色质开放性测序数据多样本整合方法INSTINCT

时间:2025-02-03 12:10:39   热度:37.1℃   作者:网络

染色质开放性反映了转录因子等反式作用因子在DNA复制或转录过程中与顺式调控元件结合的程度。这一特性与基因调控的活性密切相关。海量的单细胞染色质开放性测序(scATAC-seq)数据,能够细致刻画细胞间的异质性,并为解析生物调控网络的运行机制提供了宝贵信息。

近年来,空间组学技术逐渐成熟。空间染色质开放性测序(spATAC-seq)作为空间组学的重要分支,不仅能揭示组织的表观遗传特征,还提供每个测序位点的空间位置信息,为研究表观遗传异质性和组织空间结构的关联提供了全新视角。

整合分析一直是空间组学领域中的重要课题,其旨在通过样本联合建模,消除数据中非生物学因素(如批次效应和随机噪声)的干扰,保留充足的生物学信号,使不同样本之间具有可比性,同时提升统计分析的性能。通过对于spATAC-seq数据的多样本整合,可以增强对组织、器官乃至生物体的空间结构以及发育动态的解析,更全面地刻画组织结构,构建全局表观遗传图谱,从而挖掘生物学信息并解析调控逻辑。然而,目前尚缺乏专门针对多样本spATAC-seq数据的整合方法,阻碍了针对这类数据的多样本协同分析。

图片

在对spATAC-seq数据进行整合时,存在几个亟待解决的关键问题。首先,需要实现测序数据与空间信息的有效结合。其次,spATAC-seq数据的高维度、高稀疏性及较低的捕获率导致其数据模式与其他组学数据(如空间转录组)存在显著差异,使得现有适用于其他组学数据的建模机制无法有效处理这种数据。此外,spATAC-seq数据中的噪声和批次效应模式复杂,使得区分生物学差异与非生物学因素成为挑战。最后,目前缺乏对spATAC-seq数据进行注释的方法,这进一步限制了基于注释区域进行生物学探索的能力。

图片

为解决这些问题,清华大学自动化系江瑞教授团队提出了国际上首个针对多样本spATAC-seq数据的整合方法INSTINCT。该方法以随机域转换(stochastic domain translation)过程为核心,以分离数据中的非生物因素与生物学信号,从而实现数据的批次校正,为spATAC-seq数据的多样本联合分析提供了解决方案。

具体而言,INSTINCT模型以多样本测序数据和一个包含空间信息的邻接矩阵作为输入,通过图注意力编码器同时实现空间信息与测序数据的融合以及数据降维。随后,INSTINCT基于噪声生成器模块伪噪声生成步骤,为测序数据模拟不同类型的非生物因素表示向量,使得数据的低维嵌入在添加不同的表示向量后,可以通过多层感知解码器生成到任一预先指定的样本域。这个过程被称为随机域转换,INSTINCT使用对抗训练方式确保数据生成和域转换的准确性。

训练完成后,INSTINCT 输出的数据的低维表示可用于空间域识别、可视化以及多种下游分析,如基序富集分析、表达富集分析和分区遗传力分析等。此外,INSTINCT可以通过数据整合后的标签迁移,实现对于spATAC-seq数据的注释,并进一步基于注释结果,揭示潜在的生物学意义,为生物学特征与病理研究提供指导。

INSTINCT在四个不同的数据集上表现出卓越的性能。在MISAR-seq小鼠大脑数据集上,INSTINCT对有标注的四张切片实现了高效整合,通过定量和定性的评估,展示了其相较于基准方法,能够更好地平衡批次校正和生物信号保留,从而准确地识别组织区域;同时,INSTINCT通过整合后的标签迁移实现了准确标注,使得基于分区遗传力富集分析,可以精准确定精神分裂症、自闭症等疾病的病理相关脑组织。在spatial ATAC-RNA-seq小鼠脑部冠状切片数据集上,INSTINCT成功整合了具有不同规模的切片数据,并且有效防止切片特有的生物信息被错误去除。在spatial-ATA-seq小鼠胚胎数据集上,INSTINCT高效整合了来自不同发育阶段的切片,并促进了对于特定区域转录因子结合基序特异性开放的精准预测,展现出INSTINCT在整合完整生物体数据集上的卓越性能。在spatial ATAC小鼠胚胎数据集上,INSTINCT有效整合了来自三个发育阶段的六张切片,并通过定性和定量分析,展现出INSTINCT能够防止在整合过程中的过矫正(生物信息被错误去除)情况。

总而言之,INSTINCT开创性地为空间染色质开放性测区数据的多样本整合提供了高效、准确的手段。此外,其使能的下游任务覆盖广泛,为表观组数据的数据挖掘工作打下良好基础。

论文信息:

Liu, Y., Li, Z., Chen, X. et al. INSTINCT: Multi-sample integration of spatial chromatin accessibility sequencing data via stochastic domain translation. Nat Commun 16, 1247 (2025). https://doi.org/10.1038/s41467-025-56535-0

上一篇: 研究发现:母亲的DNA,会影响后代的身高...

下一篇: Science:搔抓能增强皮肤的免疫防御...


 本站广告