怎么分析RNAseq(RNA-Seq归一化问题)

Posted

篇首语:书籍是屹立在时间的汪洋大海中的灯塔本文由小常识网(cha138.com)小编为大家整理,主要介绍了怎么分析RNAseq(RNA-Seq归一化问题)相关的知识,希望对你有一定的参考价值。

怎么分析RNAseq(RNA-Seq归一化问题)

1.为什么要归一化

RNA-Seq比对到基因组之后,可让我们测量基因表达。测序步骤产生大量cDNA 片段序列,称为reads,每个read代表样品中某些RNA分子的一部分.然后,我们将每个read分配到一个isoforms,并计算每个isoforms(isoform:可以认为同一个基因的不同版本的蛋白)有多少个read。在所有其他条件都相同的情况下,isoforms越丰富,则来自该异构体的片段越可能被测序。因此,我们可以将read计数代表isoforms的丰度。

image.png



RNA-Seq在衡量基因表达水平时,若单纯以比对到基因上的reads数来计算表达量在统计学上是不合理的。影响因素有:
1.基因长度:需要基因长度来比较同一细胞内不同基因之间的表达。RNA-seq实验中众所周知的固有技术效果与基因长度有关:RNA(或cDNA)分子在测序之前先进行片段化,较长的转录本会比较短的转录本被剪切成更多的片段。因此,转录本的reads数不仅与其表达水平成正比,而且与其长度成正比。如下图,我们不能单纯的数比对到基因上的read数来比较表达量高低,需要考虑基因长度的影响。
这样来说,序列长的基因永远会被认为表达量较高,从而错误估计基因真正的表达量。为了消除基因长度产生的固有技术误差,在过去十年中,已针对RNA-seq数据开发了许多归一化方法,其中常用的有RPKM、TMM、RLE、upper quartile上四分位处理等。



image.png

2.测序深度(相当于测量几遍): 需要测序深度来比较细胞之间的基因表达。在下面的示例中,每个基因在细胞2中的表达似乎都增加了一倍,但是这是细胞2具有两倍测序深度的结果。RNA-seq中的每个细胞都将具有与之关联的不同数量的读取。因此,要准确比较细胞之间的表达,有必要对测序深度进行标准化。

image.png

3.样品之间一些高度差异表达的基因,样品之间表达的基因数量不同或存在污染会影响某些类型的标准化方法。建议对RNA组成进行核算,以准确比较样品之间的表达,在进行差异表达分析时尤其重要。在此示例中,如果我们将每个样本除以计数总数进行归一化,则DE基因将大大扭曲计数,DE基因占据了样本A的大部分计数,但没有样本B的计数。样品A的大多数其他基因将被总数较大的数除,并且似乎比样品B中的那些相同基因的表达少。

image.png



所以需要对原始的表达矩阵进行标准化,去除掉测序深度和基因长度所带来的噪音。

2.常用归一化方法

1.CPM (counts per million)

数值概念:计算公式:CPM=C/N*1000000
设C为比对到geneA的read 数(read count ),N为比对到所有基因的总read 数
用途:在某些情况下,只想了解每个基因被覆盖到的相对read数,而不希望对其做长度校正,就会使用这个指标。CPM 只对read count相对总read 数做了数量的均一化。如果想进行基因间表达量的比较,则不得不考虑基因长度的不同。如果进一步做长度的均一化,就得到了下面的RPKM.

2.RPKM:Reads Per Kilobase of exon model per Million mapped reads

RPKM,全称为reads per kilobase per million mapped reads,指的是每一百万个map 上的reads 中,map到外显子的每1K个碱基上的read数。
一般来说,基因越长,读取的次数(深度)越多,自然其有效读数就越多。而RPKM 就是为了消除这两个干扰的因素。以更好的比较不同结果。
数值概念:计算公式:RPKM=(1000000
C)/(NL/1000)
设C为比对到geneA的read 数(read count ),N为比对到所有基因的总read 数,L为gene A的碱基数,RPKM法能消除基因长度和测序量差异对计算基因表达量的影响,计算得到的基因可直接用于比较不同样品间的基因表达差异
用途:用于与基因表达量相的后续分析,用于单端测序
计算步骤:
首先对总值数据进行标准化(当然正常来说map到的count 肯定不止这么多,这里只是除了10,但一般而言百万级的count 可以除一百万)

image.png


接着将每次的read 除以经标准化处理后的总的reads,这样就可以得到每次所占的比重

image.png


最后再计算每千碱基下的配对到外显子上的read比重

image.png


以上也就得到了最终的RPKM 值,只是这里更准确来说是RPKT(ten而非million,这取决于reads数目和最终数据的位数)
而RPKM 标准化过程的本质也就是单位碱基长度下匹配到目标序列的read 占总read 的比重。至于是“千”、还是“百万”,只是为了让结果更好看。

3.FPKM:fragments per kilobase per million mapped reads

相比于RPKM,FPKM 计算的是fragments,也就是一对reads。与RPKM 的差别主要体现在,FPKM在一对reads map上的情况下只计数1,而RPKM 会计为2。适用于双端测序。



image.png

4.TPM,Transcript Per Millon

与 RPKM/FPKM 的差别在于,TPM 首先进行了基因长度的标准化,接着再进行了测序深度的标准化。
步骤:1.长度标准化



image.png



2.深度标准化



image.png


这样做的好处就是,TPM最终结果的总和是一样的。而总数一致的条件下,各count 所占比例是可以用来对不同rep 中的基因表达进行比较的。

image.png


反之FPKM/RPM 则不行

image.png



自然从这点来说TPM 的使用范围更为广泛。

5.DESeq2’s median of ratios

参考excel演示DESeq2归一化原理 - 简书 (jianshu.com)

3.FPKM/RPM/TPM三种表达量比较

image.png



image.png

4.小结

image.png

相关参考

潜在蒸发量和实际蒸发量(中国科研人员研究揭示峨眉山两栖动物多样性的群落构建机制)

...步评估了空间(面积)和环境因子(温度、降水、太阳辐射、归一化植被指数和潜在

潜在蒸发量和实际蒸发量(中国科研人员研究揭示峨眉山两栖动物多样性的群落构建机制)

...步评估了空间(面积)和环境因子(温度、降水、太阳辐射、归一化植被指数和潜在

方片凉果(第四十一章 暗流)

尹归一经历过这次变故之后,此时竟是进入了一种十分奇妙的状态,原本七色河流已经汇聚成海,但此刻却是变成了一个小球,不停的在半空中盘旋,周身更是七色流转,虽然不知道这意味着什么,但想来也不是什么坏事。尹归...

应该还是应该(周小川:养老金政策要避免单一化、要算总账)

未来政府或国家统筹安排的养老金大概有多少?是否还有缺口?缺口能否通过个人积累加以解决?博鳌亚洲论坛副理事长、第十二届全国政协副主席、中国人民银行原行长周小川2月25日,博鳌亚洲论坛副理事长、第十二届全国政...

服装厂要加工一批服装原来每套(小学数学最典型的30道应用题:定义+数量关系+例题详解)

更多资料请关注微信公众号:小学资源园地01归一问题【含义】在解题时,先求出一份是多少(即单一量),然后以单一量为标准,求出所要求的数量。这类应用题叫做归一问题。【数量关系】总量÷份数=1份数量;1份数量×所...

模板机断线维修视频(万字详解:发布功能竞品分析报告)

一、背景及分析目的前几年移动互联网行业的高速发展,使得内容、社交、社区类项目层出不穷,且形式出现非单一化,如内容社交电商:小红书、抖音等,即便是一些单一电商类平台为了用户留存也开始拓展出内容板块,通过...

淄博液氨泵(投资90475万元 山东淄博煤气化项目第一台设备就位)

3月11日上午,齐鲁一化45000m³/h合成气技改项目一期工程煤气化第一台设备——锁斗准时吊装。10点30分吊装就位。该锁斗成功吊装,标志着齐鲁一化45000m³/h合成气技改项目一期工程煤气化装置大件设备进入吊装阶段,为下一步224...

淄博液氨泵(投资90475万元 山东淄博煤气化项目第一台设备就位)

3月11日上午,齐鲁一化45000m³/h合成气技改项目一期工程煤气化第一台设备——锁斗准时吊装。10点30分吊装就位。该锁斗成功吊装,标志着齐鲁一化45000m³/h合成气技改项目一期工程煤气化装置大件设备进入吊装阶段,为下一步224...

氯气化工厂合作供求(三友化工:粘胶纯碱双龙头成本优势突出,三链一群打开成长空间)

...纯碱双龙头,“三链一群”打开成长空间1.1、打造“两碱一化”特色模式,循环经济优势突出公司拥有化纤、纯碱、氯碱、有机硅四大主业并配套热电、原盐、碱石、物流、国际贸易等循环经济体系,是国内纯碱、粘胶行业的双...

水蛭的养殖技术知识(【水蛭养殖】水蛭苗不长或长不大是什么原因呢?)

...密度大,生存环境跟营养物质有限,喂食的饵料也比较单一化,营养跟不上,导致水蛭生长缓慢甚至不长。应对措施:定期使用【蛭金维】补充维生素,【蛭维爽】补钙,同时可以配合【蛭苗康】和【蛭囊爽】使用,增强体质。...