数据为什么要进行log2转化,倍数变化(fold change)为什么要求个log2FC? 您所在的位置:网站首页 Log2的三次幂 数据为什么要进行log2转化,倍数变化(fold change)为什么要求个log2FC?

数据为什么要进行log2转化,倍数变化(fold change)为什么要求个log2FC?

2024-06-18 19:57| 来源: 网络整理| 查看: 265

今天是2022年10月24日,首先祝所有程序员们(会写、会看代码的都算)节日快乐!

1024是2的十次方,二进制计数的基本计量单位之一。做生信分析的小伙伴就像是一个个1024,用最低调、最踏实、最核心的功能模块将计算机程序应用到生命科学中,促进科学发展。1G=1024M,而1G与1级谐音,做生信分析的小伙伴都是一级棒的!

1,fold change的log2转化

以转录组分析为例,例如我们测了某基因在3个样品中的表达值,例如在A样品中基因TP53表达量为8,在样品B中表达值为1,在样品C中表达值为0.125(即1/8)。

将它们列在常规的坐标轴上。可以看到A vs B上调了8倍,而C vs B下调了8倍。然而在这个坐标轴上,A与B之间的距离(红色大括号)要远大于C到B之间的距离(蓝色大括号)。

                                         图1. 常规坐标轴(来自statquest,有修改)

而按照人们一般的理解,上调倍数和下调倍数应该是对称的,因此如果我们将坐标轴log2转化下。8 log2后转成3,0.125 log2后转成-3,那么它们在坐标轴上的距离就一致了。

                                         图2. Log2坐标轴(来自statquest,有修改)

在常规的分析中,我们一般使用正值代表上调,例如8代表上调8倍;负值代表下调,例如-8代表下调8倍。如果fold change是0.125,就很难看出变化了多少倍(除非你数学学得极好),你还得自己做个倒数。

2,芯片或者测序数据的log2转化

一般情况下,我们的芯片或者测序给出来的原始值范围都是非常大的,例如Agilent芯片的信号强度从0到65535,tpm从0到25000。将它们绘制密度分布后,一般呈现右偏,即大部分信号都是在左侧,右侧拖个长长的尾巴,不利于研究,而经过log2转化后,数据更加集中,更加接近正态分布,更方便我们套用正态分布那一套进行研究。

                                                               图3. Raw数值分布

                                                          图4. 更接近正态分布

总结下(Coursera上杜克大学的统计学课程)

取对数,只是数据变换的一种方式,除此之外还可以取平方根、取倒数等。

数据变换的目的,有三点:

1.We might want to see the data structure a little differently (数据范围压缩了)

2.We might want to reduce skew to assist in modeling (更接近正态了)

3.We might want to straighten a nonlinear relationship in a scatterplot, so that we can model the relationship with simpler methods(更容易用简单的方法来研究了)

另外,强烈推荐大家看看StatQuest!

微生信助力高分文章,用户55000+,引用700



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有