欢迎回到北京大学生物信息学:导论与方法网上课程。
我是北京大学生物信息中心高歌
下面,让我们继续课程。
在上一单元中,我们围绕着非编码RNA的鉴定,介绍了feature selection的相关方法
在本单元里,我们将继续针对非编码RNA的功能注释,介绍差异基因表达分析与聚类
鉴于本单元会涉及较多的统计知识,
因此对于拓展性的内容,我们均在右上角标记为Additional Information,
相关内容均不作为考试要求
在鉴定出ncRNA之后,我们如何来推断其可能的生物学功能呢?
首先,对于miRNA等作用机制比较清楚的ncRNA,我们可以参考其作用机制,利用碱基互补等方式预测其靶标,并进而推断其生物学功能
然而,对于long non-coding RNA等具体作用机制尚待明确的非编码RNA,这个方法就不适用了
这时,我们可以根据在表达调控网络中,表达相关的基因往往具有功能相关性这一特征,利用表达关联来推断其功能
具体来说,在实际研究中,我们主要关注两类表达关联:
在不同条件下差异表达的基因,
及在不同条件下共表达的基因。
下面,我们就分别对这两类进行讨论
在不需要考虑实验误差的理想世界里,差异表达基因检测是很容易的(trivial):
我们只需要直接比较不同条件下检测出的表达量数值即可。
然而,在现实世界中,情况要复杂的多
事实上,在真实的实验过程中,由于随机误差(random error)的存在,我们得到的测量值永远是一个分布而非一个定值。
因此,不同条件下基因表达水平的比较实质上是对两个分布的比较。
换句话说,除了均值之外,我们还需要考虑方差的影响
例如,从这个图中,我们可以很有把握的说基因g在不同条件下表达发生了改变——
因为基因g在条件2下的最小值也比条件1下的最大值来的大。
然而,在均值不变的前提下,只是对方差进行调整,结论就可能完全不同。
现在可以看到,基因g在条件2下的最小值较条件1下的最大值来的小,
从而使得我们不得不考虑另外一种可能性:也许基因g在两个条件下的真实表达并没有差异——
换句话说我观察到均值差异d可能只是由随机误差引起的假象
因此,就需要利用统计学的方法,基于概率模型进行统计推断。
具体来说,我们需要构造一个考虑了方差的统计量(statistic),
而后基于这个统计量的零分布(NULL distribution)来计算每个基因的p-value,
最后选择小于给定cut-off p-value的基因作为有统计显著差异表达的基因。
例如,在经典的t-test中构造的t统计量即可视为两个分布均值之差与其标准差之间的比值(ratio)。
在假定两个分布均为正态的前提下,t统计量的零分布即为t分布,从而可以方便的根据t统计量计算出p-value。
然而,经典的t检验除了对分布有要求外,还需要对每个条件下均有足够多的重复,
这对于RNA-Seq数据分析来说往往是不现实的。
因此,针对RNA-Seq数据的特点,不同研究组构基于Possion、负二项分布等构造了不同的统计量和差异表达计算方法。
由于这些方法基于不同的假设,其零分布之间也存在显著的差异,从而导致了最终p-value乃至calling结果的差异。
为了便于选择合适的方法,
Doron Betel等人基于多组数据集对常用的差异表达工具进行了系统评估,
有兴趣的同学可以参考,同时相关的文章也在本周的student presentation中进行了报告
P-value本质上是对统计错误可能性的一个概率表示。
具体来说,我们在实际中可能会碰到两类错误:
一类错误又称假阳性错误,是指将实际并没有差异表达的基因错当成了有差异表达的基因;
二类错误又称假阴性错误,是指将实际表达有差异的基因错当成了没有差异表达。
这两类错误存在着此消彼长的关系。
一般来说,我们会用p-value表示一次检验中发生一类错误——也就是假阳性错误——的概率
在实践中,我们通常要对多个基因重复进行统计检验。
这时,就会遇到多重检验问题(Multiple Testing Issue)。
例如,我们对20个不同的基因依次进行统计检验,每次检验的p-value都为0.05,那么
也就是说,每次我们犯错误的概率是0.05
换言之,每次我们不犯错误的概率就是1-0.05=0.95
根据乘法原理,连续20次都不犯错误的概率就是0.95的20次方,约等于0.358