|
UniGene Resources |
》》》NCBI 资源介绍 |
|||
UniGene是从属于GeneBank的一部分,专门收集非冗余性的基因来源的clusters数据。每一个UniGene Cluster包含代表单一基因的序列和相关的信息,例如基因表达的组织类型和图谱定位信息。 除了这些具有具有特征的序列以外,成千上万的EST也被收录在内。因此,相应的,这些收集的资源可以作为基因发现的来源。现在,许多实验室研究人员已经利用UniGene进行大规模的基因表达图谱分析,并且所有这些序列并没有被用来尝试产生Contigs或Consensus。这里存在一些原因解释为什麽同属于某一基因的序列不用来产生一个单一的Contig.
当前,Unigene已收录了Human 、Rat、Mouse和Cow、Zebrafish的序列。选择这些物种是因为它们有大量的EST可用数据,其它物种的序列将在今后陆续被加入。 UniGene的数据可通过FTP下载 UniGene Build Procedure: 聚类是一个发现同属于一个大类中的小的亚序列的过程,可通过转换离散相似值为序列之间的布尔数学体系联系。也就是说,如果序列间的相似性超过某一阈值,则认为它们具有相关性。UniGene clustering 对于这种相关性分析提供更多的生物学意义上的考虑,聚类过程大致如下: 1.对序列中的载体、寡核苷酸、重复片段以及线粒体、核糖体等污染序列进行过滤。去除污染序列之后的序列至少要含有100bp的带有信息的序列才可作为候选序列。 2.Gene links
3.EST to Gene links and EST to EST
4 根据克隆信息设定Cluster的边界。
由于新的序列数据的加入和每星期的不断更新,因此在UniGene中的resulting Cluster每星期也随之重新整理,不断更新。Clusters之间会发生融合,因此使用Cluster的ID作为标识,是不明智之举,最好利用GB accession numbers比较安全。 目前,在UniGene中包括有48,000clustes,Clusters 大部分依据EST序列形成,每一个Cluster代表一个human gene 的转录子,当前估计人类基因组约有80,000到100,000基因。利用UniGene Clusters的一个重要的目的是识别新的,非冗余的候选b表达图谱,为产生一个转录子图谱-识别基因组所有的编码序列。
一篇发表在NCBI NEWS(1997年8月)上的文章对clustering算法以及UniGene项目作了介绍,为我们提供了了解UniGene&Transcript Map project的背景知识(see Schuler et al., 1996, below). 其它参考文献: Schuler (1997). Pieces of the puzzle: expressed sequence tags and the catalog of human genes. J Mol Med 75(10),694-698. [PubMed] Schuler et al. (1996). A gene map of the human genome. Science 274, 540-546. [PubMed] [SCIENCE On-line] Boguski & Schuler (1995). ESTablishing a human transcript map. Nature Genetics 10, 369-371. [PubMed] [Full Text] | ||||
|
编译:Oriole |
||||
|
|
|
1999-2004 中国科学院上海生命科学研究院生物信息中心 |