生物資訊學與植物病毒基因體資料庫之應用(農業部全球資訊網)

92年9月（第135期）

生物資訊學與植物病毒基因體資料庫之應用

中興大學生物科技學研究所　胡仲祺
動植物防疫檢疫局　張世忠

一、前言

　　生命的起源普遍認為是由大爆炸開始，在當時地球的各項條件包括溫度、空氣、壓力、物質、水分、閃電、磁場等催化下，基本粒子聚集成原子，原子進一步組成小分子，小分子再組合成小型有機分子，小型有機物經聚合作用形成巨分子如核酸、蛋白質，這些巨分子可自行複製，並攝取週遭物質繁衍世代，再經各種演化過程，由單細胞至多細胞，造就出多樣化之生物界。

　　儘管生物經歲月累積與不斷的演化後，以不同的型態樣貌呈現，但本質上仍是相同的，有共同的語言DNA與RNA，其差別僅在組成分子A(Adenine)、G(Guanine)、C(Cytosine) 、T(Thymine)或U(Uracil)等鹼基的排列組合與數目。每一個生命體，都擁有一組核酸遺傳物質，能準確完整複製自身，且依照遺傳訊息製造蛋白質，並表現出其生物特性，如病原菌的致病性、害蟲的食性、花的顏色、人體特徵......等，均是透過基因體的功能表現而來。這些內在的基本組成因子如何演譯成外在表現形態的探討，便構築成為生物資訊學研究之核心。

二、生物資訊學的定義

　　生命體的遺傳物質RNA、DNA經解序後，若無法分析其所蘊含之訊息，將只是件虛耗時間，浪費精力的工作。如人類細胞核之23對染色體，有高達30億對以上之鹼基，單單將鹼基序列儲存成文字檔，就需兩千片1.44Mb磁碟片才足夠，若只是為把AGCT等符號排列出來，又何需集合十多國科技人才，歷時8年以上才完成定序？其著眼點當然是在各個基因體所可能透露出之有用訊息。但假如沒有現代資訊設備與系統的輔助，這麼大量的資料就如同一間毫無規劃卻藏書千萬的圖書館，明知資訊豐富，卻不知從何取用，而失去其應有之價值。

　　隨著電子與資訊科技產業的高速發展，生技領域結合資訊科學情形更趨普遍，使得全球科學家數十年辛苦建立的生物資料庫，得以透過資訊系統強大的運算分析及預測功能，逐步在生物醫學與製藥研究上綻放光芒，也創造出「生物資訊學」一詞。何謂生物資訊學（Bioinformatics）？依據舊金山州立大學Dr. R. L. Bernstein的解釋，狹義的定義是使用電腦工具去儲存、應用、分析核酸與胺基酸序列及蛋白質結構資料（The use of computer tools to store, access, and analyze nucleic acid and amino acid sequence data and protein structural data.）；廣義的定義則是使用電腦工具儲存、應用、分析所有的生物資料，包含文字資料、血緣分類樹、代謝圖等（The use of computer tools to store, access, and analyze all types of biological data, including text data, phylogenetic trees, metabolic maps.）；一般來說生物資訊學是一門結合生物學、電腦資訊學及統計學的科學，可細分為下列三個主要研究領域：

　　(一) 生物統計與演算法之研發

　　此部份由生物統計學家與數學家等之研究為主，藉由目前已知之生物巨分子序列資料及其已確定之生物功能，以各種生物統計法分析歸納出序列與功能之間的關係，或發展出新的統計方法或演算式(algorithm)以探討目前方法所無法分析之關聯性；例如由最早的全域比對演算法(global alignment algorithm)逐漸演變出區域比對演算法(local alignment algorithm)，再演變為加入統計分析之期望值門檻(E-value cut-off)與極端值分布統計(extreme value distribution)，而成為目前最快速且流行的BLAST工具。

　　(二) 電腦軟體工具之研發

　　此部份研究以資訊學家與生物學家之共同研究為主，主要為利用上述第一項領域所研發之統計結果與新演算式作基礎，開發出適合某種特定電腦平台(或是整合所有平台)之軟體工具，特別著重於使用者介面之設計，以符合"user-friendly"的要求。例如目前在學術界廣泛使用的GCG package與Vector NTI等軟體，即為整合了許多不同研究學者所撰寫的單一目的程式，賦予相同的指令組與使用者介面(分別針對UNIX與Windows操作系統)，而成為一般使用者皆能輕易上手的套裝軟體組。

　　(三) 生物巨分子資料之分析與解譯

　　此部份研究以生物學家為主，包括應用上述2項領域所產生之工具以分析並解譯經由實際進行的生物實驗所產生的結果，以及將所分析解譯後所歸納的知識，再交由上述2項領域的專家研究以產生更新更好的演算法與軟體工具，此即所謂的"dry-bench-to-wet-bench" 與"wet-bench-to-dry-bench"相輔相成的工作。例如由人類全部基因體的解序完成，我們可以利用各種電腦分析方法與軟體工具歸納出某種基因與某種表現性狀之間的關聯性。而這種關聯性的假說，又可以提供給生物學家設計一連串的具體實驗工作加以驗證。

　　綜合而言，生物資訊學應用之整體目的在於使用資訊系統來解決生命科學相關問題，其範圍包括原始數據的註解與解讀、生物資訊的整合與解讀、開發具前瞻性的生物資訊工具、生物資訊的應用、生命現象的模擬與系統生物學等，重點工作包括如何建立、儲存、管理、傳輸相關之生物資料庫，進而分析、預測及運用有用之生物訊息，降低錯誤試驗機率，縮短研發時程。

三、生物資訊學的發展

　　生物資訊起始於生物資料庫的建立，全球第一個蛋白質胺基酸序列資料庫則於1960年代中期建立；1970年時，生物學家Needleman與Wunsch利用動態程式設計方法(dynamic programming)去分析兩種蛋白質氨基酸序列的相似度，成為第一個利用電子計算機去分析生物遺傳訊息的案例；不僅是生物學家，在1974年時，計算機科學家Wagner及Fisher也以類似的方法去計算兩蛋白質胺基酸序列間的編輯距離(edit distance)。在1980年代，有很多的期刊雜誌大幅報導新的序列與生物學資料，然序列的書面發表卻是難以分析的，易有編排與打字上的錯誤，且佔據了期刊上相當多珍貴的空間；也因有了這些問題，促使眾多科學家去思考如何利用簡便有效的工具去分析管理這些資料庫。1983年，Doolittle等人利用分析初期的遺傳序列資料庫去證實正常生長因子(factor)與致癌基因有密且關聯，使得世界各地之分子生物實驗室開始建置電腦或利用網路連結進行資料庫之搜尋。自此之後，有了電腦資源的挹注，生物學的應用更多元化，也通暢了領域間原有的隔閡。

　　1988年，美國政府鑑於生物資料庫所扮演之角色日趨重要，成立了國家生物技術資訊中心（National ter for Biotechnology Information，簡稱NCBI），隸屬於美國國家醫學圖書館，其任務為建立生物資訊儲存分析自動化系統，改善生物資訊搜尋及分析方法，促進生物醫學工作者對生物資訊及軟體之使用，並於1992年開始提供序列資料庫查詢，即全世界最著名之核酸序列資料庫GenBank，至2002年底已收集有285億對以上之鹽基，約2千2百多萬條之序列資料(如圖1DOCX / odt / pdf)。同1988年，連接歐洲從事生物計算及生物資訊等分子生物研究實驗室之歐洲分子生物實驗室(The European Molecular Biology Laboratory，簡稱EMBL)資料庫亦被建立，可提供資料庫、軟體及線上訓練等服務，促進生物科技研究與發展。1990年，日本亦建立了日本DNA資料庫 (DNA DataBank of Japan，簡稱DDBJ)。GenBank、EMBL、DDBJ為目前世界上3個最常被運用之基因序列資料庫。

　　除了基因序列資料庫外，目前最主要的蛋白質序列資料庫為1986年George等人所建立之蛋白質鑑定資源(Protein Identification Resource，簡稱PIR)，在歐洲由日內瓦大學醫學生化系(目前改為瑞士生物資訊學研究所，SwissInstitute of Bioinformatics)在1986年建立的Swiss-Prot蛋白質資料庫，以及由EMBL核酸資料庫所轉譯(Translate)出的TrEMBL資料庫，這些都是目前世界上使用頻率最高的蛋白質資料庫。在蛋白質資料庫方面，瑞士生物資訊學研究所提供的伺服器將目前最常用的蛋白質分析軟體全部整合為同一系統，稱為Expert Protein Analysis System，簡稱ExPASy，包含蛋白序列、二級與三級結構、酵素、二維電泳圖譜等重要資料庫，以及常用的分析軟體、教育資源與服務、文獻資料與各式超連結，堪稱為蛋白質研究之第一入口網站。台灣地區也設有其鏡像站(mirror site, http://tw.expasy.org)，對於從事蛋白質研究相關工作人員提供極為重要的服務，對於從事蛋白質研究相關工作人員提供極為重要的服務。

　　此外，目前的趨勢朝向將各種不同的資料庫加以整合，並將所有相關資料以關聯式資料庫(relationaldatabese)方法連接，以利查詢，例如NCBI以將其文獻資料庫(PubMed)、核酸蛋白質資料庫(GenBank)、人類孟德爾遺傳性狀資料庫(OMIM)、巨分子結構資料庫(Structure)等、與相關搜尋工具與軟體(如BLAST, ENTREZ)全部整合，使用者可由每次查詢所獲得的資料不斷深入各種連結，而獲得最完整的所有資訊。未來，甚至可能有全自動分析的軟體或服務網站出現，真正實現「一指定乾坤」的理想。

四、生物資訊學的應用與市場

　　生物資訊學的應用範圍主要著重在蛋白質結構的預測、同源相似性之搜尋比對分析、多重序列比對(multiple sequence alignment)及種系發生之構築(phylogeny construction)、基因組序列分析(genomesequence analysis)與基因預測(gene prediction)等。而目前大多數生技公司研究重點均著重於基因組序列分析和基因預測，預測基因的電腦方法可分為兩種：一是根據機率與統計的方法，另一是尋找相似性 (similarity or homology)的方法，隨著已知的基因的大量累積，新的電腦程式大都採用尋找相似性的方法。此部份最主要的任務是應用電腦程式將已定序之DNA序列分析及拼湊出完整的基因，進一步轉移至功能性基因體(functional nomics)、蛋白質體學(proteomics)、及單一核?酸多型性(single-nucleotide polymorphism,簡稱SNP)上，主要的著眼點在於第一時間申請基因專利，取得最大商機。然而目前真正具有商業利益的資料庫多半由少數的大製藥廠所維持，且並不對外公開，學術界若欲取得這些資料，必須與其簽約或付費方能進行。而在已公開的資料庫中(如GenBank, DDBJ, EMBL等)則多半儲存已經申請專利或不能申請專利的資料；由於龐大的維持經費，這些公開的資料庫將來很有可能也必須開始收費；因此，有志於此的研究者應早作準備，而我國亦應設立國內所專有的各級資料庫，以因應未來變局。

　　在應用軟體方面，目前市場上已有適用於各種不同電腦平台的生物資訊軟體，如UNIX系統上的GCG ckage、EMBOSS，Windows系統的Vector NTI、DNAStar、DNASIS，與Macintosh系統的DNAstider等通用目的軟體，如前述，這些軟體均為整合許多單一功能之小程式，提供一般常用的生物資訊學應用功能，包含核酸與蛋白質序列比對分析、引子對設計、限制酵素切位分析、圖譜繪製與分析、二級與三級結構預測分析、相關文獻搜尋等。由於這些軟體均已提供相當友善的使用者介面與經過多人使用驗證且為科學期刊所接受的分析方法，這些軟體已經佔有絕大部分的市場，目前仍有待突破並有利可圖的部分可能為各種特殊功能性資料庫之構建，與整合多種分析功能並自動化進行分析之應用軟體，這也將是我們努力的方向。

五、應用實例與台灣地區植物病毒生物資訊庫簡介

　　現在以一些實際應用的例子說明生物資訊學在防疫檢疫工作上的應用並簡介目前正在建置中的「台灣地區植物病毒生物資訊庫」。

　　(一) SARS病毒之追蹤：

　　根據新加坡基因體研究所(Genome Institute of Singapore)今年在SARS流行期間發表於The Lancet期刊之報告，研究人員解出14個株系的SARS病毒全長基因體序列，經由生物資訊軟體進行相似性比對分析即親緣性分析，可以清楚區分出北京、廣東、香港、新加坡、加拿大、與越南河內等不同病毒株系，並可明確追蹤到SARS病毒由廣東的病人A傳播到香港的M旅館，再傳到新加坡的不同病人或越南、加拿大的感染途徑。在疾病的防治上以及未來的預防工作，均可提供極為重要的參考資訊。

　　(二) 雙生病毒之地理分布關係：

　　根據筆者等所做之「台灣地區雙生病毒診測」研究，研究人員進行40個台灣各地區雙子葉雙生病毒之外鞘蛋白基因序列解析，並以生物資訊軟體進行親緣性比對，發現台灣地區的雙生病毒有依據地理關係分布之情況，亦即不論其寄主植物為何，各雙生病毒間的相似性以地理位置區分，台灣中部地區的雙生病毒多集中於同一親緣分支(如圖2DOCX / pdf)，而歐洲地區或美洲地區之病毒也各自成一分支。這些資訊說明我們可以藉由病源之特定基因序列判定其來源地區(如圖3DOCX / odt / pdf)，在檢疫工作或貿易談判中均可作為極佳的工具。

　　(三) 台灣地區植物病毒生物資訊庫簡介：

　　目前因分子生物技術之發達，許多植物病毒之基因體序列皆已被解讀，國際上知名之病毒基因體資料庫包括美國NCBI所維持之GenBank (http://ncbi.nlm.nih.gov; Benson et al., 2002)與澳洲VIDE之Plant Virus Online (http://image.fs.uidaho.edu/vide/; Brunt et al., 1996)等。在GenBank中台灣地區之動植物病毒資料約有1,490筆(含全長與部分基因體序列)。然而這些資料庫均為英文介面，主機亦均設於國外，查詢時受限於國際網路之流量與頻寬，且功能僅限於核酸或蛋白質序列資料之儲存、擷取與快速比對分析等，並無針對寄主植物與其地理位置所設之欄位，而目前國內亦無類似之病毒基因體資料庫可供防疫檢疫相關單位查詢、比對、及通報案例。為因應加入WTO後，不同地區植物病毒大量流通所帶來的衝擊，實需在國內建立台灣地區植物病毒基因體資料庫與通報介面，以作為前述工作之基本工具，除可協助政府相關單位隨時掌控疫情資料外，更可作為貿易諮商談判時之具體籌碼。

　　目前筆者等已著手進行中文化之台灣地區植物病毒基因體資料庫及通報介面之建立，以作為防止境外植物病毒入侵、追蹤境外病毒、及協助政府相關單位隨時掌控疫情資料或進行貿易諮商談判之基本工具，初步完成公用資料庫中台灣地區植物病毒序列資料之蒐集與資料庫建置(如圖4DOCX / odt / pdf)，可提供核酸、蛋白質序列資料比對(如圖5DOCX / odt / pdf)、與資料庫查詢等基本生物資訊學應用功能，並設立討論區與新聞快報，以方便台灣地區之植物病毒相關研究人員交換工作心得或互相分享資源與解答問題。

六、結語

　　生物資訊學在後基因體時代(post-genomics era)已成為解答生命奧秘的必備工具，尤其在高唱知識經濟的現代，更成為先進國家創造經濟利益的主要手段之一。在我國已加入WTO後，生物資訊學的相關應用可增進對我國農產品、商品或資訊軟體等之保護，並可提供作為貿易諮商談判的籌碼，其預期經濟效益極為可觀。本文僅提供生物資訊學方面之簡單介紹，有志從事生物資訊學研究的相關工作人員可在本文所列舉的網站及文章中獲得更詳細的資料與說明，讓我們共同期待生物資訊學的應用為台灣農業與經濟帶來更美好的明天。

本網站刊載之「農政與農情」其所有內容，包含文字、圖像等皆可轉載使用，惟須註明出處。

回上一頁

94-03-01:26,374