廣州市天河區(qū)黃埔大道中124號(hào)2705室
電話:020-29031124
手機(jī):18102256923
Email:servers@gzscbio.com
Fax:020-85625352
QQ:2913120624
隨著新一代測(cè)序技術(shù)的不斷發(fā)展,越來越多物種的基因組和轉(zhuǎn)錄組獲得了高通量測(cè)序,給人們帶來了海量的核酸序列數(shù)據(jù),如何對(duì)海量序列中隱含的生物信息進(jìn)行高通量的解讀是研究者要面對(duì)的問題。序列信息解讀的一個(gè)核心內(nèi)容是對(duì)基因進(jìn)行功能注釋,具體操作上就涉及到一個(gè)概念:基因的本體論(Gene Ontology,GO)注釋。大多數(shù)基因在不同生物中的同源基因擁有相同的主要生物學(xué)功能,因此,在某些物種里已知的基因功能信息可以用來解釋其他物種對(duì)應(yīng)的同源基因。但是這些已知的功能信息包含在先前積累的浩瀚文獻(xiàn)之中,不同的文獻(xiàn)會(huì)用不同的詞匯來描述同一生物學(xué)功能,這為功能檢索和注釋帶來諸多不便。
而GO項(xiàng)目就是建立一套特定的詞匯集合來描述生物學(xué)功能,以此對(duì)基因功能注釋統(tǒng)一化。用于描述生物學(xué)功能的詞匯必然要反映生物學(xué)功能的本質(zhì),此即本體論(Ontology)的由來。
GO項(xiàng)目對(duì)基因功能進(jìn)行了一致性描述,開發(fā)了可控制的詞匯表,且無物種特異性。目前已經(jīng)建立了三大獨(dú)立的本體論詞匯表:生物過程(biologicalprocess)、細(xì)胞組分(cellular component)和分子功能(molecular function)。這三大本體論詞條下面又可以獨(dú)立出不同的亞層次,以“有向非循環(huán)圖(directed acyclicgraphs)”的方式層層向下,將每一個(gè)本體論詞條串聯(lián)起來形成樹狀結(jié)構(gòu)。將GO詞條分配給基因序列的行為即GO注釋。目前,GO注釋已經(jīng)成為高通量測(cè)序序列的主要注釋方法。
一個(gè)基因編碼的蛋白質(zhì)可以在多種水平上被賦予本體論定義,GO注釋的原理就是通過計(jì)算機(jī)程序建立基因產(chǎn)物與用于定義它們的本體論詞條之間的聯(lián)系。自從1998年基因本體論項(xiàng)目(GeneOntology Project)創(chuàng)立以來,已經(jīng)有多款GO 注釋軟件發(fā)表,實(shí)現(xiàn)了基因產(chǎn)物的標(biāo)準(zhǔn)化注釋。
GO注釋是對(duì)基因產(chǎn)物功能研究的重要手段,隨著海量的基因組或轉(zhuǎn)錄組數(shù)據(jù)的涌現(xiàn),對(duì)GO注釋的通量要求也越來越高。值得一提的是,目前所有的生物信息學(xué)注釋軟件均不能保證完全正確。但是,我們可以通過其他互補(bǔ)的方法提高注釋的準(zhǔn)確度,如將序列平行地同Swissprot、Nr或者CDD(conserved domain database)等數(shù)據(jù)庫(kù)進(jìn)行比對(duì),若均有搜索到相似序列,那么這些序列的比對(duì)分值也勢(shì)必較高,注釋結(jié)果也越準(zhǔn)確;或者可以采用PSIBLAST(position-specific iterated BLAST),此程序靈敏度高于BLASTP程序,對(duì)于發(fā)現(xiàn)遠(yuǎn)源相似蛋白或者某個(gè)蛋白家族的新成員非常有效。