摘要
识别和可视化转录相似的细胞有助于准确探索单细胞转录组学中的细胞多样性。(单细胞转录组:某一时刻,单个细胞内所有mRNA的表达量)。然而,目前广泛使用的聚类和可视化算法会产生固定数量的细胞簇。固定的聚类“分辨率”妨碍了我们识别和可视化细胞状态的能力。论文开发了TooManyCells,这是一套基于图的方法,可以高效,无偏地识别和可视化细胞分化分支。TooManyCells引入了一个可视化模型,该模型基于一个概念(与降维方法故意正交)。TooManyCells还配备了一种高效的无矩阵分裂层次谱聚类,不同于流行的单分辨率聚类方法。TooManyCells使单细胞分支的多分辨率和多方面探索成为可能。这种模式的一个优点是可以立即检测出罕见和常见的群体,其表现优于流行的聚类和可视化算法。目前已经通过现有的单细胞转录组数据集和白血病T细胞耐药性获得的新数据建模来证明。
引言
转录是细胞表型和功能状态的重要贡献者。单细胞RNA测序(scRNA-seq)等新兴技术显著改善了细胞状态异质性的识别和表征。为此,具有类似表达模式的细胞的无监督降维和可视化算法提高了对细胞谱系复杂性、肿瘤异质性和肿瘤药物反应多样性的理解。然而,同时对罕见和常见细胞群进行分层并探索它们之间的关系仍然具有挑战性。
目前已经提出了聚类算法来处理scRNAseq数据,以便识别具有相关转录程序的细胞组。在大多数scRNA-seq分析中,已识别的细胞簇是使用降维算法可视化的,如t-SNE或UMAP。这些工作使用的方法大多缺乏对簇之间关系的定量表示,就直接生成并可视化单分辨率细胞簇。
细胞状态分层的分辨率不适当地影响了scRNA-seq实验的结果。例如,分离淋巴细胞和单核细胞的决议可能不容易细分各种淋巴细胞谱系。鉴于不同的细胞状态本质上是嵌套的,我们假设,描绘群体层次结构和可视化其关系的算法可以用于有效地查询细胞状态的梯队。为此,论文开发了用于scRNA-seq数据可视化和探索的TooManyCells。TooManyCells实现了一套基于图形的算法和工具,用于高效、全局、无偏地识别和可视化细胞分支。TooManyCells在不同的聚类分辨率范围内维护并呈现聚类关系,并能够描述与上下文相关的稀有和丰富的细胞群。
论文通过几项分析证明了TooManyCells在可靠识别和清晰显示丰富和罕见的亚群方面的有效性。三个公开的scRNA-seq数据集、合成数据以及单细胞群体数据的受控亚组分和混合用于比较基准测试。TooManyCells在检测和可视化罕见人群方面优于其他流行方法,在几种受控细胞外加剂和模拟数据中的最低测试基准为0.5%。此外,TooManyCells有助于在小鼠脾细胞内进行细粒度B细胞谱系分层,并能够识别罕见的浆细胞群,而这些浆细胞群被流行的基于Louvain的聚类和基于投影的可视化算法所忽略。
论文进一步使用TooManyCells来探索剂量对获得γ分泌酶抑制剂(GSI)耐药性的影响,GSI是一种靶向Notch信号拮抗剂。虽然其他流行的方法失败了,但TooManyCells发现了一种罕见的抗药性亲本细胞亚群。
结果
TooManyCells用于细胞分支关系的可视化
清晰的可视化对于scRNA-seq数据探索至关重要,目前主要是基于投影的算法,如t-SNE和UMAP。对于大型和复杂的细胞,投影方法需要渲染许多重叠的细胞,这会压倒单细胞分辨率的可视化。更重要的是,这些算法通常不报告定量的簇间关系,并且缺乏簇间分辨率的可解释可视化。为了解决这些限制,我们开发了TooManyCells,用于在树数据中定制簇间关系的可视化(图1)。
- 图a:Toomanycells在提供许多功能和选项的同时,可视化了集群间的关系,包括但不限于颜色的加权平均混合、缩放分支、模块化覆盖、智能树修剪和叶节点可视化。图中,来自11个小鼠器官的细胞根据其来源器官进行颜色编码。
- 图b:TooManyCells矩阵无分裂分层谱聚类。TooManyCells在概念上类似于基于颜色(代表状态或类型)相似性的细胞递归分离:它首先将绿色和蓝色与红色、紫色、橙色和灰色细胞分离,然后将绿色与蓝色、灰色与红色、紫色和橙色分离,依此类推。
为了有效地生成层次结构,TooManyCells对基因表达矩阵进行了转换,消除了细胞-细胞相似性和拉普拉斯矩阵的显式计算,然后进行完全矩阵分解。这种新颖的“无矩阵”方法极大地提高了分裂聚类的内存和时间要求,并递归地识别候选的二分体以创建细胞分支的层次结构。
为了清晰、可解释地显示细胞分支,TooManyCells设计了许多功能,以促进数据探索,并帮助找到相关种群,包括分支缩放、加权平均颜色混合和统计驱动的树修剪(图2)。为了增强数据可视化的通用性并补充现有的单分辨率方法,TooManyCells可以显示任何树数据结构和其他聚类算法的输出。为此,TooManyCells生成嵌套细胞簇的视觉信息层次结构。内部节点是给定分辨率的簇,而叶节点是粒度更细的簇。
- 图a:带有默认设置的完整树。
- 图b:不同的叶片渲染选项(从底部顺时针方向:基因表达式、“饼圈”、饼图),以及树枝缩放和平均加权颜色混合的示例。
- 图c:修剪后的树。
- 图d:树中每个内部节点的二分模块性显示为黑色圆圈;较高的模块化由较暗的周长强度表示。
- 图e:有编号节点的树。
- 图f:具有连续变量的颜色编码树(例如,器官的细胞多样性;增加颜色强度表示增加多样性)。为清晰起见,内部节点和叶节点使用不同的强度比例。
- 图g:带有离散变量的彩色编码树,表示唯一分子标识符(UMI)计数。
- 图h:带有特定基因表达水平(Cd4表达水平)的颜色编码树。
- 图i图j和图k:具有多个基因表达水平(Cd4和Cd8表达水平)的颜色编码树。具有非默认缩放宽度的树。具有禁用的分支缩放的树。
TooManyCells准确地描述罕见和常见亚群
同时检测稀有和常见细胞群是scRNAseq分析中的一个主要挑战。虽然许多聚类算法声称可以识别稀有种群,但很少有算法明确地对这种能力进行了基准测试。为了严格评估每种算法在描绘稀有种群方面的能力,我们基于来自不同小鼠器官的细胞模拟了不同水平的稀有种群和普通种群。准确的聚类不仅可以检测稀有种群和普通种群,还可以区分稀有种群。为此,将两个大小相同的稀有群体与一个普通细胞群体混合。TooManyCells总结了小鼠器官内细胞类型之间的已知关系,并表明T细胞与巨噬细胞和树突状细胞不同,正如预期的那样。在这些数据的基础上,生成了10种不同比例的普通T细胞、罕见巨噬细胞和树突状细胞的细胞混合物。
对t-SNE投影显示,实际细胞类型与其簇标签之间存在差异(图3a、b)。无论采用何种聚类算法,t-SNE图在明确区分混合中的两个稀有种群方面都受到限制。对t-SNE图的检查发现了许多小岛(图3a、b)。然而,在没有细胞类型标签的情况下,不可能直观地定位真正的稀有种群。这个问题是t-SNE固有的,在t-SNE中,距离和密度被转换为局部密度。UMAP预测同样表现不佳。相比之下,TooManyCells是专门为绘制簇关系而设计的,因此很容易呈现稀有种群。
- 图a和图b:从左到右的列:按实际细胞类型和指定的聚类算法簇标记的细胞。从上到下排列:Monocle, Phenograph, Seurat and RaceID的t-SNE投影。每个投影都使用t-SNE的对应包实现。分析了900个常见(T细胞)和100个罕见(50个巨噬细胞和50个树突状细胞)细胞(a)和990个常见和10个罕见细胞(5个巨噬细胞和5个树突状细胞)(b)。
- 图c:TooManyCells优先考虑稀有细胞。左图,900个普通细胞和100个罕见细胞。右图,990个普通细胞和10个罕见细胞。插入图中显示的包含子树的放大稀有种群。黑色到白色的圆圈代表从高到低的模块化。
- 图d到图g:各种数据集上的细胞检测准确性对比。
TooManyCells使用方式
TooManyCells 算法有 2 种包装形式,一种是 too-many-cells 软件,一种是 TooManyCellsR R 包。
TooManyCells 通过递归技术反复识别在树结构中的亚群,其可视化模型结合一系列可视化特性为细胞状态提供一个灵活的平台,跟踪、探索和检测稀有种群。除了聚类和可视化之外,TooManyCells 还提供其他功能,包括但不限于异质性评估、聚类测量、多样性和稀有性统计。TooManyCells 同时识别稀有和丰富细胞群体的优越性可在三个独立的环境中得到证明,在控制环境中,该方法不仅将两个稀有细胞群体从普通细胞群体中分离出来,而且成功地将两个稀有细胞群体分离。
- 聚类:TooManyCells 实现了最初用于文本挖掘的无矩阵分层谱聚类,使用该聚类方法的最终结果是一种树状结构,其中每个内部节点是一个粗略的簇,每个叶子是每个模块化度量中最精细的簇。
- 可视化:TooManyCells 算法使用 BirchBeer 渲染方法显示单细胞簇层次结构。
- 差异表达/细胞类型注释:给定多个簇标识,TooManyCells 可以执行差异表达分析以识别这些簇中细胞的基因表达之间的差异。
|