廣州市天河區(qū)黃埔大道中124號2705室
電話:020-29031124
手機(jī):18102256923
Email:servers@gzscbio.com
Fax:020-85625352
QQ:2913120624
隨著生物實(shí)驗(yàn)所驗(yàn)證的轉(zhuǎn)錄因子結(jié)合位點(diǎn)的不斷積累,目前出現(xiàn)了專門收集TFBS相關(guān)信息而各具特色的數(shù)據(jù)庫。TRANSFAC是真核生物轉(zhuǎn)錄調(diào)控信息的數(shù)據(jù)庫,包含轉(zhuǎn)錄因子,轉(zhuǎn)錄調(diào)控關(guān)系以及轉(zhuǎn)錄因子結(jié)合位點(diǎn)等相關(guān)信息,涵蓋的物種有酵母、擬南芥、線蟲、果蠅、大鼠、小鼠、人等。它通過文獻(xiàn)挖掘來收集數(shù)據(jù),并有嚴(yán)格的質(zhì)量控制。TRANSFAC中收錄的TFBS都是經(jīng)過實(shí)驗(yàn)驗(yàn)證的, 并且在每一個(gè)結(jié)合位點(diǎn)的條目中都標(biāo)注了相應(yīng)的實(shí)驗(yàn)技術(shù), 實(shí)驗(yàn)條件并對該TFBS的可信度進(jìn)行了評價(jià)。TRANSFAC中不僅有TFBS的標(biāo)注,還提供了相應(yīng)轉(zhuǎn)錄因子與靶基因的信息,如物種、蛋白質(zhì)一級序列、蛋白質(zhì)功能域等。TRANSFAC 11.3中,共收集了10 018個(gè)轉(zhuǎn)錄因子,以及20 431個(gè)轉(zhuǎn)錄因子結(jié)合位點(diǎn),為TFBS預(yù)測算法提供了高質(zhì)量的訓(xùn)練集和驗(yàn)證集。JASPAR收錄了多細(xì)胞真核生物轉(zhuǎn)錄因子結(jié)合位點(diǎn)的信息,并以矩陣的形式保存,這些矩陣是由實(shí)驗(yàn)驗(yàn)證的結(jié)合位點(diǎn)統(tǒng)計(jì)得來的。JASPAR包括3個(gè)子庫,JASPAR CORE、JASPAR FAM、JASPAR PHYLOFACTS。目前,JASPAR CORE中包含123個(gè)頻數(shù)矩陣,矩陣中的元素表示某個(gè)位置上出現(xiàn)某個(gè)堿基的頻數(shù),JASPAR FAM中將轉(zhuǎn)錄因子按其DNA結(jié)合域的結(jié)構(gòu)特性分成若干家族,并提供了11個(gè)“家族共有”的TFBS的位置權(quán)重矩陣,為從結(jié)構(gòu)角度進(jìn)行TFBS研究提供了方便,JASPAR PHYLOFACTS中包含174個(gè)從在進(jìn)化上保守的基因上游元件中提取的頻數(shù)矩陣。值得一提的是,與商業(yè)數(shù)據(jù)庫TRANSFAC不同,JASPAR是完全開放的資源,JASPAR與TRANSFAC的另一個(gè)主要區(qū)別是,JASPAR中含有的TFBS信息是非冗余的,即一個(gè)轉(zhuǎn)錄因子對應(yīng)至多一個(gè)TFBS條目。SELEX_DB和HTPSELEX中收集了經(jīng)SELEX實(shí)驗(yàn)驗(yàn)證的TFBS信息。它們不同于綜合型的數(shù)據(jù)庫,除了實(shí)驗(yàn)驗(yàn)證的結(jié)合位點(diǎn)信息,還盡可能詳盡的提供了實(shí)驗(yàn)中間產(chǎn)物。此類數(shù)據(jù)庫包含的TFBS相對較少,但針對每一個(gè)TFBS提供了更為豐富的實(shí)驗(yàn)信息,這為致力于建立更精準(zhǔn)TFBS模型的研究者提供了寶貴的數(shù)據(jù)。
另外,還有一些收集特定物種轉(zhuǎn)錄因子以及TFBS信息的數(shù)據(jù)庫:PlantTFDB中包含22種植物中的26 402個(gè)轉(zhuǎn)錄因子的信息,AGRIS中包含了模式生物擬南芥的轉(zhuǎn)錄因子及其結(jié)合位點(diǎn)的信息,SCPD是收集酵母啟動子區(qū)域序列的數(shù)據(jù)庫,里面包含轉(zhuǎn)錄起始位點(diǎn)以及轉(zhuǎn)錄因子結(jié)合位點(diǎn)的注釋,TRED是收集哺乳動物轉(zhuǎn)錄調(diào)控元件的數(shù)據(jù)庫,對人、小鼠、大鼠等物種的啟動子區(qū)域有相對完整的注釋,ITFP中收集了哺乳動物的轉(zhuǎn)錄因子與靶基因之間的調(diào)控關(guān)系信息。
主要是ENCODE這個(gè)數(shù)據(jù)庫DNA元件百科全書(英語:Encyclopedia of DNA Elements,簡稱為ENCODE計(jì)劃)是一個(gè)由美國國家人類基因組研究所在2003年9月發(fā)起的一項(xiàng)公共聯(lián)合研究項(xiàng)目,旨在找出人類基因組中所有功能組件。這是既完成人類基因組計(jì)劃后國家人類基因組研究所開始的最重要的項(xiàng)目之一。所有在該項(xiàng)目中產(chǎn)生的數(shù)據(jù)都會被迅速的在公共數(shù)據(jù)庫中公開。
2012年9月5日,該項(xiàng)目的初步結(jié)果被整理為30篇論文并發(fā)表于《自然》、《基因組生物學(xué)》及《基因組研究》中。這些發(fā)表的論文顯示人類基因組內(nèi)的非編碼DNA至少80%是有生物活性的,而非像之前認(rèn)為的僅僅是“垃圾”。這個(gè)結(jié)果非常重要,因?yàn)槿祟惢蚪M中98%的DNA是非編碼的,意味著它們并不直接編碼任何蛋白質(zhì)序列。