項目名稱: 基因組生物信息學分析的系統新算法研究及其應用
推薦單位: 天津市
項目簡介: 本項目屬于生物學一級學科下屬的生物信息學和基因組學領域,是一門學科高度交叉的研究領域。人類及模式生物基因組等計劃的快速進展積累了大量的DNA序列信息。本項目以近十年的努力,致力于基因組序列分析的新算法研究與應用,提出了基于幾何學途徑的基因組序列分析的4個新算法,即:基因識別;GC輪廓圖;差異曲線及基因組段落化算法。這4個算法相互獨立又相互印證與協調,構成了一個內部和諧的系統的算法集合。
本項目利用這4個新算法對大量基因組序列進行分析,研發了適用于細菌、古細菌、病毒、噬菌體以及酵母基因組的基因識別軟件,它們已經被國內外學者應用于許多新測序基因組(如細菌,噬菌體及SARS冠狀病毒基因組等)的注釋。論證了人、小鼠、雞和擬南芥等生物基因組Isochore結構的存在性,制定出人類基因組在DNA序列水平上的Isochore結構圖譜。根據GC輪廓圖算法提出了識別細菌與古細菌水平轉移基因組島的系統方法,并識別出一些重要的基因組島。利用差異曲線算法和基因組分段算法在國際上首先預測出硫磺礦硫化葉菌具有3個復制原點及它們的準確位置。由于原核生物長期被認為只具有單一的復制原點,所以該預測引起廣泛關注并很快被實驗所證實。
本項目從1998年元月開始至2006年12月為止經歷了近10年的努力。先后發表SCI論文54篇,包括5篇 Bioinformatics, 4篇 Nucleic Acids Research 以及 Nature Biotech, Genomics 等本領域重要刊物,累積影響因子(按2005年JCR報告)達208.7點。被SCI刊物引用489次,其中他人引用355次?颬hysiol. Genomics 曾專門刊發2頁的評論文章,對GC輪廓圖算法及其在水平基因轉移研究中的貢獻予以積極評價。受邀在重要國際刊物撰寫綜述論文2篇;被邀在國際會議上做大會報告3次。被近20種國際刊物邀請為審稿人,評審論文數十篇。
主要發現點: 核心發現點:本項目基本屬于基因組研究方法學上的創新,在Z 曲線(一種DNA序列的等價三維表示)的基礎上發明了四個新算法,并用其對大量生物基因組進行分析,發現了一些較重要的生物學新知識。
1、基因識別算法。我們發現蛋白質編碼序列和非編碼序列的Z曲線的三維及多維空間特征完全不同,可利用這一特點對其進行識別。這是一項全新的,基于幾何學的方法,識別準確率高而偽正率較低,尤其對于高GC含量的微生物基因組表現尤為優秀。此外,它還具有參數少、運行速度快,同樣適用于大、小各種基因組等優點。這一新算法已成功應用于單細胞真核生物(如酵母)[1]、細菌與古細菌[2]、病毒與噬菌體基因組的基因識別[8,9],(計算生物學;計算基因組學;細菌學)。
2、基因組GC含量無窗口計算方法(累積GC輪廓圖算法)。傳統的GC含量窗口計算方法不能精確反映基因組GC含量的局部突變位點,而它們往往具有重要生物學意義。我們定義在基因組中某一點的GC含量正比于基因組Z曲線的z分量在該點處的導數, 從而使GC含量在基因組處處都有定義, 并能精確顯示基因組GC含量的突變位點。這一算法廣泛應用于原核生物基因組的水平基因轉移研究,識別出一些具有重要功能的基因組島[4],并發現基因組島的獲得有兩種模式:單純地插入;或插入同時伴隨原基因組部分基因簇的丟失。這兩種模式被認為在微生物進化中具有普遍性的意義[3]。該方法還被用于多種真核生物基因組Isochore結構研究,并制定出人類基因組在DNA序列水平上的Isochore結構圖譜[6](計算生物學;細菌學;計算基因組學)。
3、 RY, MK, GC 和AT差異曲線算法。DNA序列的堿基可分為嘌呤(R)、嘧啶(Y)、氨基(M)和酮基(K)四種類型。而Z曲線的x和y分量和它們的線性組合可表示RY, MK, GC和AT沿序列的分布,分別稱為RY,MK,GC和AT差異曲線,它們的突變點往往對應于基因組的復制起始和終止位點。針對這四種差異曲線設計了求其突變點的具體算法,并成功地應用于預測多種微生物基因組復制原點[5,6](計算生物學;細菌學)。我們在國際上首先預測硫磺礦硫化葉菌基因組具有3個復制原點及它們的準確位置。由于原核生物長期被認為只有單一復制原點,所以該預測引起廣泛關注并很快被實驗所證實[5](細菌學)。
4、基因組分段算法。由Z曲線導出基因組序指標的概念,該指標可以很好的反映基因組序列的有序程度及堿基組成的突變。在序指標的基礎上,我們發明了計算基因組的分段點算法,可以有效地、高精度地計算基因組的分段點,而這些分段點通常具有明確生物學意義。這一算法在基因組島識別,復制原點預測,Isochore結構邊界確定等方面得到具體的應用[7] (計算生物學;細菌學)。
以上4個算法是在Z曲線基礎上用幾何學方法對基因組進行分析,在國際上獨樹一幟,具有獨創性和系統性的特點。越來越多的國內外同行已經加入此項研究;谶@些算法開發的系列軟件已經獲得廣泛應用。
主要完成人: 張春霆
張春霆是所有科研項目的唯一負責人,是所有論文的唯一通訊作者,是本項目的唯一完成人。張春霆在近十年里為本項目投入了主要精力,并全部在國內完成。
|