这是2019年发表于nature子刊machine intelligence的一篇论文,作者是Tian Tian , Ji Wan, Qi Song and Zhi Wei。论文主要是提出了一个新的框架scDeepCluster,利用自编码器对单细胞RNA测序数据进行降噪分类,以及在二维平面图进行可视化。
- 论文模型图:
这是这是作者论文里展示的模型图,作者把图像处理领域应用的模型DEC和生物信息领域单细胞RNA测序数据降噪算法ZINB结合起来了,先用自编码器和ZINB损失结合对输入的单细胞RNA测序数据进行降噪并在自编码器中间层提取数据特征,然后在利用DEC的KL散度公示对潜在层数据特征进行分类。 2.激活函数 作者给出了自编码器解码器Decoder部分最后面三层的激活函数如下: 3.损失函数 对输入单细胞RNA测序数据进行降噪的公式是 其中负二项式分布的均值 (μ)、离散度 (θ) 和附加系数 (π) 在潜在层对数据进行聚类的公式是: 整个模型最开始用ZINB损失函数预处理,然后利用k-means算法在潜在层初始化特征得到聚类中心,对Encoder部分使用聚类公式。 4.实验结果和对比 作者把scDeepCluster在作者生成的数据集和实际单细胞RNA测序数据集应用,并选取了7个聚类算法作为对比模型,用ACC,NMI,ARI三个指标作为衡量标准,结合t-sne降维算法在二维平面对数据进行可视化比较。 5.总结 这篇论文对我来说很特别,是我入生物信息坑看的第一篇论文。 之后看了很多同方向的论文,现在回头再审视这篇文章。其实,论文总体来说创新性并不是特别高(主要是把前人发表的两篇论文移花接木),但这篇论文文笔很出色,而且绘图和对比实验结果图以及代码十分规范,还是具有很强的参考价值。(代码文章里有网址,作者用keras写的)
引用: 1.Tian, Tian, Ji, et al. Clustering single-cell RNA-seq data with a model-based deep learning approach[J]. Nature Machine Intelligence, 2019. 2.DEC:Xie J , Girshick R , Farhadi A . Unsupervised Deep Embedding for Clustering Analysis[J]. Computer Science, 2015. 3.ZINB:Eraslan G , Simon L M , Mircea M , et al. Single-cell RNA-seq denoising using a deep count autoencoder[J]. Nature Communications, 2019, 10(1).
|