原创 eryun 云生信学生物信息学
原创不易/ 请关注和转发支持我们
世界上没有两片完全相同的叶子。对于多细胞生物来说,看似相同的细胞群,实际上细胞与细胞之间是存在差异的。例如,在肿瘤组织中,肿块中心的细胞,肿块边缘的细胞,以及远端转移的细胞,其转录组和基因组等遗传信息肯定是存在差异的。传统的研究方法,是在组织水平进行的,最终得到的是多个细胞信号值的平均水平,丢失了单个细胞异质性的信息。大家有没有发现,目前基于传统的转录组测序数据(bulk RNA-seq)已经很难发表高分文章了,而近年来出现的单细胞测序技术(single-cell RNA sequencing, scRNA-seq)能够检出混杂样品的异质性信息,将整个遗传学领域带入新的次元,将它与bulk RNA-seq相结合,轻松擦出5分+的火花。
今天为大家带来的是这篇今年9月份发表在Cancer Cell International(IF: 5.722)上的文章Single cell RNA-seq data and bulk gene profiles reveal a novel signature of disease progression in multiple myeloma。这篇文章将bulk基因芯片数据与scRNA-seq数据相结合揭示了多发性骨髓瘤的疾病进程。赶紧跟随小编一起看看吧。
研究背景
多发性骨髓瘤(multiple myeloma, MM)的发展涉及一个多步骤的转化过程,即未明的单克隆丙球病(MGUS),阴燃MM(SMM)和新诊断的MM(NDMM),最终进展为复发或难治性MM(RRMM),但细胞遗传学异常和分子改变在决定MM细胞命运中的作用仍不清楚。因此,该研究分析了scRNA-seq数据和bulk基因表达谱数据,揭示了一个与MM发展相关的新的基因signature。
分析流程
研究结果
1. scRNA-seq显示了MM疾病发展过程中的基因表达模式
基于scRNA-seq数据集GSE118900,共鉴定出597个细胞,表达基因16568个(图1a-c)。使用高度可变的基因对597个细胞进行无偏倚PCA,将这些细胞分成7个不同的簇(cluster),每个簇由不同时期MM患者的细胞组成(图1d,e)。标记物在每个簇的单个细胞中的表达模式如图1f所示。临床资料、荧光原位杂交结果和聚类结果汇总如表1所示。
图1
2. 人类MM细胞的发展进程
为了确定这些细胞簇和肿瘤状态之间的关系,利用Monocle2 R软件包,基于每个簇中识别的标记基因,进行分化轨迹和拟时间分析。MM细胞可以分为早期中期和晚期。基于拟时间的排序,MM细胞开始从cluster 1和6(state 1,大多数细胞来自具有细胞遗传学有利的t(11;14)易位的MGUS、NDMM或RRMM患者),转移到cluster 0和3(state 2、3、5、6和7,所有细胞均来自无t(11;14)或t(4;14)易位的SMM或NDMM患者),并最终转移到cluster 5、2和4(state 4,大多数细胞来自具有细胞遗传学高风险t(4;14)易位的SMM或RRMM患者)(图2a-c),表明MM细胞按拟时间排列,与肿瘤的实际发展阶段一致。
t-SNE分析表明,晚期(state 4)和早期/中期的细胞可以明显区分(图2d)。Venn图显示,晚期有294个(34.7%)特异性标记基因(图2e)。此外,作者还检测了各个簇中MM细胞的代表性基因的表达情况(图2f,g)。
图2
3. MM晚期细胞标记基因的功能分析
Cluster 2、4和5的标记基因主要富集到蛋白质修饰相关的GO和KEGG通路,这可能与骨髓瘤细胞异常蛋白过度积累的特点有关(图3)。
图3
4. 与MM进展相关的基因signature的识别与验证
以GSE24080为训练集,采用单变量Cox回归分析,探讨MM晚期细胞(cluster 2、4、5)的463个标记基因的预后价值。随后,对90个与MM患者OS显著相关的基因进行LASSO回归分析,最终获得20最优基因集,构建了风险评分模型。基于该模型,将559例患者分为高风险组和低风险组。Kaplan-Meier分析显示高风险组和低风险组的生存率有显著差异(图4a)。ROC分析结果显示该模型在预测生存率方面优于之前已发表的模型(图4b)。风险评分、生存状态和基因表达热图分布如图4c,e所示。
此外,作者基于验证数据集GSE9782进行了数据验证(图5)。
图4
图5
5. 20个基因signature独立于传统的临床因素
采用单变量和多变量Cox回归分析评估GSE24080和GSE9782数据集中20个基因signature的独立预测价值。结果显示该20基因预后模型与OS保持显著相关性,提示20基因signature是预测NDMM患者预后的独立常规因素(表2)。
6. 与MM进展相关基因的临床意义
基于具有治疗信息的验证数据集(GSE9782),这20个基因signature成功地在硼替左米(PS-341)治疗组中稳健地区分高风险和低风险患者,而地塞米松(DEX)治疗组则没有显著差异(图6)。
图6
7. 关键基因的验证
采用qRT-PCR进一步验证20个关键基因在20个MM患者浆细胞中的表达水平(图7)。此外,根据每个样本的20个基因表达值计算出的风险评分中位数,将20例患者分为高风险组和低风险组。高风险组患者与LDH升高显著相关,而LDH升高是MM患者预后不良的一个指标。
图7
8. 基于GSEA的通路分析
利用GSEA研究了这20个基因可能参与的通路。结果显示,高风险组E2F靶信号通路、MYC靶信号通路、G2M Checkpoint信号通路、展开蛋白应答信号通路和DNA Repair信号通路显著激活,而KRAS信号通路、炎症反应信号通路和通过NFKB的TNFA信号通路被抑制(图8)。
图8
小结
总之,作者利用scRNA-seq数据将15例不同分期MM患者的单个细胞按MM风险水平的增加分为7个主要的簇,揭示了细胞遗传异常与MM细胞分化轨迹之间的关系。此外,基于bulk基因表达谱,进一步构建了一种优良且稳健的20个基因signature,可以作为一个独立的生物标志物来预测MM患者的生存。
整体而言,这篇文献的分析思路中规中矩,所用的数据均来自公共数据库,由于将scRNA-seq结合进来,影响因子瞬间达到5分+,如有不清晰可联系小编一起学习哦!