Gene ontology的注释主要有三大类
一大类是雇佣大量的人来看文献,把文献里的研究的基因分子功能录入到数据库里,所以庞大的Gene Ontology背后有很多的工作人员。
第二类是利用BLAST类似的方法把没有实验证据的基因通过序列相似性连接到与它相似的功能已知的基因,
这也是一类证据,但同样也需要人来审查,所以叫manually-reviewed computational analysis evidence
随着测序技术的发展,现在测序的速度远远超过了世界上所有实验室研究基因功能的速度
同时也远远地超过了任何团队一个一个来检查预测结果的速度
这怎么办呢?在Gene Ontology 还有一类完全自动生成的预测结果,没有人看过。
一般这一类大家认为作为证据要弱一些。通过人工审查的证据又包括以下几大类
每一类都有明确的标号来标注,比如说从direct assay , 从physical interaction,从mutant phenotype
从Genetic interaction,从表达模式来推断功能
比如说表达模式包括在这个生物过程中有明显的差异表达,就可能是这个过程有关
或者说它和一个已知的乳腺癌基因有非常强的共表达,就有可能和乳腺癌相关
还有一些没有特别明确哪一类实验证据,就称为EXP,
第二大类是人工审查过的计算结果,包括序列同源性如BLAST的方法,或者序列比对
像Smith-waterman等方法,还有通过序列的模体,像用Hidden Markov Model找到的functional domain 的motif
还有通过序列和结构的相似性来做的预测,还有通过Genomic Context,
还有通过祖先蛋白,通过推断祖先蛋白是什么功能,最后两类IKR和IRD比较有趣
叫做Inferred from Key Residues,但其实是反的,也就是说,这个基因虽然是已知功能的基因
但是丢失了最关键的几个残基,
所以不属于这个功能区域。
还有叫Inferred from Rapid Divergence,也就是通过建系统发育树,发现这个家族的基因演化过快,
就不能用家族中的一个基因的功能信息来注释其他的家族成员
如果是没有人工看过,只是电子生成的,就会被标注成IEA,也就是Infered from electroni annotation
还有其他几类人工的标识,一个叫TAS,它没有明确的实验证据支持,但作者在Disscussion里提及过。
或者是一个review paper里提及。这种时候如果有cite reference就称为Traceable Author Statement。如果没有cite reference,
就标注为Non-traceable Author Statement。
还有搞不清楚是什么证据,但工作人员也会给一个标注为IC。
一些没有data,但也有这样一个分类,大家要注意。
一定要自己去追究supporting evidence是什么证据
所以请大家想象一下哪一类的证据会比较多呢?
最近统计了一下,这是所有的实验证据,这是人工看过的计算证据,这些是刚才比较奇怪的证据,这是IEA,也就是完全电脑生成的。
对于fruit fly,绝大多数都是实验证据,或者是人工review的证据
或者是在文章里提及过,真正完全电脑生成,没有review过就只有20%而已
但是如果是猪的基因,90%都是电脑注释,没有任何的实验证据
有了Gene Ontology和Pathway这两种结构
然后又有几十万的基因被注释到这两个结构上,比如说你自己在实验里做了一组高通量的RNA-seq,你发现肿瘤组织和正常的癌旁组织
有300,400个基因有明显的表达差异。这些基因是落在哪些通路,哪些是有生物学意义,哪些真的和你研究的生物学过程有关,
是你的实验要跟踪的一个问题。
这个问题是我们下一节要讲的问题。