|
A generic motif discovery algorithm for sequential data |
|
该文描述了在线性序列中寻找motif的一般性算法——Gemoda,并且列举了从氨基酸序列、核苷酸序列以及蛋白质结构中寻找motif的三个算例。Gemoda算法的输入是一组序列(可为列表性质的字符串序列,如{A、C、G、T};也可以是实数向量;)、窗口的长度、度量向量间相似性程度的函数以及聚类函数。其中,度量向量间相似性程度的函数可以是identity、相似性序列比对的评判方法;聚类函数可以是层聚类方法、图聚类或者K-Means聚类方法等。和以往搜索motif算法(如EM算法或者基于Gibbs采样的算法)不同,Gemoda利用穷举法可以搜索到原始数据空间所有的motif。当然,这也带来一个不可回避的问题,算法的时间和空间复杂度都很高。
|
|
|
|
1999-2005 中国科学院上海生命科学研究院生物信息中心 |