免疫信息学
http://blog.sciencenet.cn/blog-204973-845856.html
第一節(jié) 免疫信息學(xué)源流
上個(gè)世紀(jì)中葉充滿(mǎn)科學(xué)傳奇。那不僅是個(gè)DNA雙螺旋結(jié)構(gòu)闡明、分子生物學(xué)產(chǎn)生與興起的時(shí)代,也是系統(tǒng)論、控制論、信息論紛紛形成問(wèn)世并引起全球廣泛關(guān)注的時(shí)代,還是電子計(jì)算機(jī)走進(jìn)人類(lèi)社會(huì)并產(chǎn)生重要影響的時(shí)代。香農(nóng)發(fā)表了《通信的數(shù)學(xué)理論》,奠定了他信息論之父的地位;維納出版了專(zhuān)著《控制論-關(guān)于在動(dòng)物和機(jī)器中控制和通訊的科學(xué)》;貝塔朗菲出版了系統(tǒng)論的代表作《一般系統(tǒng)理論:基礎(chǔ)、發(fā)展與應(yīng)用》。信息科學(xué)與計(jì)算機(jī)注定從一開(kāi)始就與生命科學(xué)有著千絲萬(wàn)縷的聯(lián)系。維納專(zhuān)著的標(biāo)題就有動(dòng)物一詞,貝塔朗菲本身就是生物學(xué)家。也就在那時(shí),計(jì)算生物學(xué)(ComputationalBiology)、理論生物學(xué)(TheoreticalBiology)悄然問(wèn)世。進(jìn)入上個(gè)世紀(jì)八十年代,隨著人類(lèi)基因組計(jì)劃的醞釀與實(shí)施,數(shù)據(jù)驅(qū)動(dòng)的生命科學(xué)研究開(kāi)始橫掃一切,生物信息學(xué)應(yīng)運(yùn)而生,日新月異,并不斷滲透或應(yīng)用到生命科學(xué)各學(xué)科甚至信息科學(xué)的一些前沿領(lǐng)域。
免疫學(xué)也不例外,生物信息學(xué)與免疫學(xué)的交叉融合形成了生物信息學(xué)的一個(gè)分支學(xué)科:免疫信息學(xué)(immunoinformatics)。俄亥俄州立大學(xué)已故外科與病理學(xué)系教授、移植免疫學(xué)家Charles G. Orosz在本世紀(jì)初首先創(chuàng)造了immuno-informatics一詞,并將其定義為研究免疫系統(tǒng)產(chǎn)生、傳遞、處理及存儲(chǔ)信息規(guī)律的學(xué)科(the study of the principles by which the immune system generates, posts, processes, and stores information)[1, 2]。或許人類(lèi)偷懶的天性使然,在第239期的諾華基金研討會(huì)(Novartis Foundation Symposium)*上,以色列魏茨曼科學(xué)院計(jì)算機(jī)科學(xué)與應(yīng)用數(shù)學(xué)系的Lee A. Segel教授省掉該詞中間的連字符,immunoinformatics這一詞匯第一次出現(xiàn)在文獻(xiàn)中[3]。在這篇題為“通過(guò)擴(kuò)散信息網(wǎng)絡(luò)的擴(kuò)散反饋控制免疫系統(tǒng)”的文章中,Segel教授在文中寫(xiě)道[3]:“
免疫系統(tǒng)是研究生物信息處理的絕佳對(duì)象。由于免疫系統(tǒng)本身極為有趣,加上它在醫(yī)學(xué)上的重要性,因此,雖然還有許多研究要做,但免疫系統(tǒng)的硬件相對(duì)已研究得較為清楚。在分子水平,顯著的高頻體細(xì)胞突變改變了遺傳信息,使B細(xì)胞受體更具多樣性。然而,更為吸引我的是在細(xì)胞水平,因?yàn)槲蚁嘈牛@一水平的規(guī)律,不僅決定免疫系統(tǒng)的行為,而且也能用于其它主要的生物系統(tǒng),以及非生物的分布式自主系統(tǒng)。
脊椎動(dòng)物擁有許多不同類(lèi)型免疫細(xì)胞,總數(shù)可達(dá)1018個(gè),卻沒(méi)有明顯的老王(Boss)。不同類(lèi)型的細(xì)胞群調(diào)動(dòng)起來(lái)對(duì)付、攻擊各種病原及毒株。此外,免疫系統(tǒng)也參與傷口愈合、組織重建等其它自身穩(wěn)定任務(wù)。大量被稱(chēng)為細(xì)胞因子的信號(hào)分子指導(dǎo)著免疫系統(tǒng)。每種細(xì)胞因子具有幾種功能,每種功能受幾種細(xì)胞因子的影響。當(dāng)配體與相應(yīng)受體結(jié)合,通常分泌多種而非一種細(xì)胞因子。
這一超級(jí)復(fù)雜的分布式自主系統(tǒng)是如何確定做什么,何時(shí)做,做到何等程度的?我將從各個(gè)方面討論這一問(wèn)題,著重強(qiáng)調(diào)信息的作用。我尤其要論證基于細(xì)胞因子的擴(kuò)散信息網(wǎng)絡(luò)(diffuse informational network)所起的決定性作用。這樣,我也就回應(yīng)了Orosz關(guān)于免疫信息學(xué)(immunoinformatics)關(guān)鍵作用的建議。其中,免疫信息學(xué)被定義為研究免疫系統(tǒng)產(chǎn)生、傳遞、處理及存儲(chǔ)信息的學(xué)科。”
2002年10月,諾華基金會(huì)資助下的史上首次免疫信息學(xué)研討會(huì)在倫敦召開(kāi),來(lái)自實(shí)驗(yàn)免疫學(xué)、理論免疫學(xué)、生物信息學(xué)等各個(gè)領(lǐng)域?qū)W者暢所欲言[4]。在這次會(huì)議上(即第254期的諾華基金研討會(huì)),會(huì)議主席德國(guó)教授Rammensee提出:免疫信息學(xué)可分為硬的、半軟及軟的三個(gè)領(lǐng)域,硬領(lǐng)域主要指免疫學(xué)相關(guān)核酸、多肽序列等數(shù)據(jù)及數(shù)據(jù)庫(kù)工作,半軟領(lǐng)域指處理免疫數(shù)據(jù)的方法及各種預(yù)測(cè)算法、軟件等,軟領(lǐng)域指免疫相關(guān)數(shù)學(xué)模型及其它各類(lèi)理論免疫學(xué)研究[5]。此次研討會(huì)迄今,免疫信息學(xué)已經(jīng)過(guò)十余年發(fā)展,已經(jīng)成為免疫學(xué)、生物信息學(xué)、計(jì)算機(jī)科學(xué)相結(jié)合的前沿領(lǐng)域。
廣義地講,當(dāng)前免疫信息學(xué)可大體以下兩大領(lǐng)域:
一是人工免疫系統(tǒng)(Artificial Immune System, AIS)及其應(yīng)用[6, 7]。所謂人工免疫系統(tǒng)是指根據(jù)免疫系統(tǒng)的機(jī)理、特征、原理開(kāi)發(fā)的人工智能算法與系統(tǒng),如克隆選擇算法、B細(xì)胞算法、陰性選擇算法、樹(shù)突狀細(xì)胞算法等。人工免疫系統(tǒng)已應(yīng)用到聚類(lèi)分類(lèi)、異常檢測(cè)、信息安全、智能優(yōu)化、圖像處理、機(jī)器人控制、網(wǎng)絡(luò)數(shù)據(jù)及文本挖掘等眾多領(lǐng)域。該領(lǐng)域?qū)W者主要來(lái)自計(jì)算機(jī)與信息科學(xué)背景,模擬免疫機(jī)制,構(gòu)建新的算法來(lái)解決各種科學(xué)及工程實(shí)踐問(wèn)題。該領(lǐng)域的研究?jī)?nèi)容從字面上看,非常貼近免疫信息學(xué),源自免疫原理,落腳于信息方法。由于筆者對(duì)此領(lǐng)域沒(méi)有深入研究,本章也不再贅述。
二是計(jì)算免疫學(xué)(Computational Immunology)及其應(yīng)用。所有應(yīng)用數(shù)學(xué)、計(jì)算機(jī)、人工智能、生物信息學(xué)方法來(lái)處理免疫學(xué)數(shù)據(jù)、分析免疫學(xué)問(wèn)題的研究都屬于計(jì)算免疫學(xué),具體內(nèi)容涵蓋:理論免疫學(xué)(TheoreticalImmunology)分析,免疫相關(guān)數(shù)學(xué)模型,各類(lèi)免疫相關(guān)數(shù)據(jù)庫(kù)構(gòu)建,各種免疫相關(guān)預(yù)測(cè)算法、計(jì)算工具、網(wǎng)絡(luò)服務(wù)及其應(yīng)用如計(jì)算疫苗學(xué)(Computational Vaccinology)[8, 9]、反向疫苗學(xué)(Reverse Vaccinology)[10, 11]、計(jì)算機(jī)輔助疫苗設(shè)計(jì)[12]、計(jì)算機(jī)輔助抗體設(shè)計(jì)[13]等。一言以蔽之,用計(jì)算的方法解決免疫相關(guān)科學(xué)或工程實(shí)踐問(wèn)題就是計(jì)算免疫學(xué),這也是當(dāng)前免疫信息學(xué)的主流方向[14]。有趣的是,這一方向的工作從字面上看,用“信息免疫學(xué)”一詞或許更為貼切,即源自信息學(xué)方法,落腳于免疫學(xué)問(wèn)題。本章將結(jié)合筆者的科研工作,主要介紹計(jì)算免疫學(xué)資源及其應(yīng)用。
第二節(jié) 免疫信息學(xué)資源
所謂免疫信息學(xué)資源,主要是指免疫相關(guān)的數(shù)據(jù)集、數(shù)據(jù)庫(kù)、單機(jī)及網(wǎng)絡(luò)程序等能夠給用戶(hù)解決相關(guān)問(wèn)題提供便利與幫助的數(shù)據(jù)資料和軟件工具。實(shí)驗(yàn)免疫學(xué)家、生物技術(shù)企業(yè)、咨詢(xún)機(jī)構(gòu)等作為這些資源的普通用戶(hù),可能并不太關(guān)心相關(guān)數(shù)據(jù)庫(kù)如何構(gòu)建、程序算法細(xì)節(jié),但需要了解到哪兒去找特定數(shù)據(jù),對(duì)于特定問(wèn)題,什么軟件好用等等。對(duì)于生物技術(shù)專(zhuān)業(yè)的同學(xué)——未來(lái)生命科學(xué)的研究者、生物技術(shù)的探索者、生物產(chǎn)業(yè)的創(chuàng)業(yè)者與經(jīng)營(yíng)者、政策的制定者與管理者,亦復(fù)如是。本節(jié)著重介紹開(kāi)源、免費(fèi)、共享、方便的網(wǎng)絡(luò)免疫信息學(xué)資源。
1、免疫學(xué)數(shù)據(jù)庫(kù)
在生物信息學(xué)研究中,構(gòu)建專(zhuān)業(yè)的數(shù)據(jù)庫(kù)、高質(zhì)量的數(shù)據(jù)集是關(guān)鍵的基礎(chǔ)性工作。沒(méi)有相應(yīng)的專(zhuān)業(yè)數(shù)據(jù)支持,后續(xù)研究工作無(wú)法開(kāi)展。當(dāng)然,有了數(shù)據(jù)仍不夠,還必須有質(zhì)控標(biāo)準(zhǔn)與措施來(lái)保證數(shù)據(jù)的質(zhì)量,否則,生物信息學(xué)研究就是垃圾進(jìn)、垃圾出。這就好比實(shí)驗(yàn)生物學(xué)研究,必需要有合適的模式生物及獨(dú)到可靠的研究材料一樣。
由于生物技術(shù)的飛速發(fā)展與信息技術(shù)的進(jìn)步,海量的生物數(shù)據(jù)產(chǎn)生了,這就需要各種類(lèi)型的數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)、管理、檢索各種類(lèi)型數(shù)據(jù),如核酸序列、蛋白序列、空間結(jié)構(gòu)、表達(dá)譜芯片、網(wǎng)絡(luò)與通路等。大量生物信息學(xué)數(shù)據(jù)庫(kù)產(chǎn)生了,如GenBank[15]、UniProt[16]、MMDB[17]、KEGG[18]等。這些數(shù)據(jù)庫(kù)當(dāng)然也包含了部分免疫學(xué)相關(guān)數(shù)據(jù),但構(gòu)建專(zhuān)門(mén)的免疫學(xué)數(shù)據(jù)庫(kù)對(duì)免疫學(xué)研究而言無(wú)疑更為專(zhuān)業(yè)與方便。自從1970年第一個(gè)免疫學(xué)數(shù)據(jù)庫(kù)KABAT誕生以來(lái),大批高度專(zhuān)一或涵蓋廣泛的免疫學(xué)數(shù)據(jù)庫(kù)紛紛登場(chǎng)。本節(jié)我們重點(diǎn)介紹幾個(gè)重要的門(mén)戶(hù)型綜合數(shù)據(jù)庫(kù)及一些具有歷史意義或特色鮮明的專(zhuān)一型數(shù)據(jù)庫(kù)。
(1)免疫遺傳信息的門(mén)戶(hù)IMGT[19]
IMGT數(shù)據(jù)庫(kù)最初由Marie-Paule Lefranc (Université Montpellier II, CNRS)創(chuàng)建于1989年,目前已發(fā)展成為全球免疫遺傳信息的門(mén)戶(hù)。IMGT是“免疫遺傳學(xué)(ImMunoGeneTics)”的縮寫(xiě),目前包括7個(gè)子數(shù)據(jù)庫(kù)。這些子數(shù)據(jù)庫(kù)可分為序列數(shù)據(jù)庫(kù)(IMGT/LIGM-DB、IMGT/MH-DB、IMGT/PRIMER-DB、IMGT/CLL-DB),基因數(shù)據(jù)庫(kù)(IMGT/GENE-DB)、結(jié)構(gòu)數(shù)據(jù)庫(kù)(IMGT/3D structure-DB)和單克隆抗體數(shù)據(jù)庫(kù)(IMGT/mAb-DB)。IMGT/LIGM-DB是一個(gè)具有詳細(xì)注釋的人類(lèi)和其他脊椎動(dòng)物免疫球蛋白(IG)與T細(xì)胞受體(TCR)的序列數(shù)據(jù)庫(kù),目前收錄了來(lái)自303個(gè)物種的16萬(wàn)多條序列。IMGT/MH-DB是一個(gè)人類(lèi)主要組織相容性復(fù)合物(HLA)的專(zhuān)門(mén)數(shù)據(jù)庫(kù),其中包括世界衛(wèi)生組織HLA系統(tǒng)命名委員會(huì)的官方序列;目前,該數(shù)據(jù)庫(kù)服務(wù)器主機(jī)放在歐洲生物信息學(xué)研究所(EBI)。IMGT/PRIMER-DB是標(biāo)準(zhǔn)化的IG和TCR寡核苷酸探針或引物數(shù)據(jù)庫(kù);目前該數(shù)據(jù)庫(kù)有來(lái)自11個(gè)物種的1864條記錄。IMGT/PRIMER-DB提供的信息尤其適用于正常和病理情況下的IG和TCR的表達(dá)研究、單鏈抗體、噬菌體展示、基因芯片設(shè)計(jì)。IMGT/CLL-DB是一個(gè)新的數(shù)據(jù)庫(kù),主要收集來(lái)自慢性淋巴細(xì)胞性白血病患者的IG序列。IMGT/GENE-DB是人類(lèi)、小鼠、大鼠、家兔IG和TCR基因的數(shù)據(jù)庫(kù);到目前為止,它收錄了IG和TCR基因2893個(gè)、等位基因4139個(gè)。IMGT結(jié)構(gòu)數(shù)據(jù)庫(kù)收錄IG、TCR、MHC空間結(jié)構(gòu)及相關(guān)信息,目前有2686個(gè)記錄。IMGT/mAb-DB收錄已上市及臨床試驗(yàn)中的單克隆抗體、抗體-受體融合蛋白及其他免疫應(yīng)用的融合蛋白,目前有單抗272個(gè)、抗體-受體融合蛋白18個(gè),共計(jì)420個(gè)條目。此外,IMGT網(wǎng)站目前還提供了15個(gè)與數(shù)據(jù)庫(kù)配套的在線分析工具。IMGT已廣泛用于自身免疫、感染、腫瘤的相關(guān)醫(yī)學(xué)研究、獸醫(yī)學(xué)研究及抗體生物技術(shù)研究中。IMGT的所有資源都可通過(guò)其主頁(yè)http://www.imgt.org免費(fèi)使用。
(2)免疫表位信息的門(mén)戶(hù)IEDB[20]
所謂表位(epitope)就是抗原中能被免疫細(xì)胞特異性識(shí)別的線性片段或空間構(gòu)象性結(jié)構(gòu),是引起免疫應(yīng)答和免疫反應(yīng)的基本單位。表位在免疫學(xué)基礎(chǔ)與應(yīng)用研究中具有核心地位,是疫苗、抗體藥物、腫瘤免疫、移植免疫、超敏反應(yīng)的結(jié)構(gòu)基礎(chǔ)。IEDB是免疫表位數(shù)據(jù)庫(kù)(Immune Epitope DataBase)的縮寫(xiě),創(chuàng)建于2003年。IEDB雖然不是最早出現(xiàn)的表位數(shù)據(jù)庫(kù),但在NIAID的資助下,經(jīng)過(guò)10年的發(fā)展,它已毫無(wú)疑問(wèn)地發(fā)展成為全球免疫表位信息的門(mén)戶(hù)。目前IEDB收錄的表位及相關(guān)信息涵蓋除腫瘤和HIV以外的99%已發(fā)表文獻(xiàn)。文本挖掘程序自動(dòng)掃描了2200萬(wàn)多篇PubMed文摘;大量專(zhuān)家對(duì)其中13000多篇文獻(xiàn)(含7000多篇感染相關(guān)文獻(xiàn)、1000多篇變態(tài)反應(yīng)相關(guān)文獻(xiàn)、約4000篇自身免疫相關(guān)文獻(xiàn)、1000篇移植免疫相關(guān)文獻(xiàn))進(jìn)行了人工歸類(lèi)、信息提取與注釋。到筆者撰寫(xiě)此節(jié)為止,IEDB已提取文獻(xiàn)14718篇,收錄了人類(lèi)及其它各種動(dòng)物識(shí)別的多肽表位92407個(gè),非多肽表位1831個(gè)。IEDB還包含了直接提交及來(lái)自FIMM、TopBank等一系列MHC配體數(shù)據(jù)庫(kù)的數(shù)據(jù),共有MHC配體(抗原肽)214704條。IEDB收錄的表位不僅數(shù)量最多,而且質(zhì)量最好,包含的表位相關(guān)的各種背景信息最為豐富,甚至連實(shí)驗(yàn)細(xì)節(jié)也不放過(guò)。此外,IEDB還提供了一些配套工具用于表位預(yù)測(cè)與分析[21]。所有IEDB數(shù)據(jù)及工具均可通過(guò)www.immuneepitope.org免費(fèi)訪問(wèn)與使用。
(3)免疫多態(tài)性數(shù)據(jù)庫(kù)IPD[22]
該數(shù)據(jù)庫(kù)由安東尼.諾南研究所(Anthony Nolan Research Institute)#的HLA信息學(xué)小組與歐洲生物信息學(xué)研究所緊密合作,創(chuàng)建于2003年,旨在為研究免疫系統(tǒng)基因的多態(tài)性提供方便。IPD目前包括MHC、KIR、HPA、ESTDAB等四個(gè)子數(shù)據(jù)庫(kù)。IPD-MHC數(shù)據(jù)庫(kù)收錄了大量物種的MHC序列。這些物種包括:家犬、狼、山狗,家貓,僧帽猴、狨猴、梟猴、松鼠猴、絹猴、葉猴、狒狒、獼猴、白眉猴以及其它猴類(lèi),倭黑猩猩、黑猩猩、長(zhǎng)臂猿、大猩猩、猩猩等。ESTDAB是一個(gè)腫瘤細(xì)胞系的數(shù)據(jù)庫(kù)。IPD最具特色的是KIR數(shù)據(jù)庫(kù)和HPA數(shù)據(jù)庫(kù);KIR收錄了人類(lèi)殺傷細(xì)胞免疫球蛋白樣受體(Killer-cell Immunoglobulin-like Receptors, KIR)共614個(gè)各等位基因及相應(yīng)蛋白質(zhì)的序列;HPA收錄了人類(lèi)同種異體血小板抗原數(shù)據(jù)。這些數(shù)據(jù)庫(kù)均可通過(guò)http://www.ebi.ac.uk/ipd免費(fèi)使用。
(4)HIV數(shù)據(jù)庫(kù)
這是第一個(gè)面向病原體的數(shù)據(jù)庫(kù),收錄獲得性免疫缺陷病毒(HIV)的核酸序列、免疫表位、耐藥相關(guān)突變及疫苗試驗(yàn)。其中,HIV分子免疫學(xué)數(shù)據(jù)庫(kù)始建于1987年,由洛斯阿拉莫斯國(guó)家實(shí)驗(yàn)室開(kāi)發(fā),最初的目的只是提供一個(gè)已知HIV表位的全面列表,包括細(xì)胞毒性T細(xì)胞表位、輔助性T細(xì)胞表位和抗體結(jié)合位點(diǎn)。目前這一模式已推廣到其他病原體,如丙型肝炎病毒(Hepatitis C Virus, HCV)和出血熱病毒(Hemorrhagic Fever Viruses,HFV)。HIV數(shù)據(jù)庫(kù)提供了大量分析工具,如表位比對(duì)(QuickAlign)、PeptGen、基序檢索(Motif Scan)、序列定位(Sequence Locator)、ELF(Epitope Location Finder)等等。QuickAlign可用于比對(duì)表位、功能域或其它任何感興趣的蛋白質(zhì)區(qū)域。PeptGen可創(chuàng)建蛋白質(zhì)的重疊肽圖譜,有助于多肽設(shè)計(jì)與表位確定。基序檢索工具可找出蛋白序列中具有某一指定HLA基因型、血清型或超型基序的亞序列。序列定位工具能給出用戶(hù)序列相對(duì)于HIV參考序列(HXB2)或SIV參考序列(SIVMM239)的位置。整個(gè)項(xiàng)目受NIAID資助,所有數(shù)據(jù)及工具均可通過(guò)http://www.hiv.lanl.gov免費(fèi)獲得或使用。
(5)KABAT數(shù)據(jù)庫(kù)[23]
為了確定抗體序列中的抗原結(jié)合部位,著名免疫學(xué)家Elvin A Kabat(1914-2000)和他的研究小組于1970年創(chuàng)立了KABAT數(shù)據(jù)庫(kù);這也是第一個(gè)免疫學(xué)數(shù)據(jù)庫(kù)。現(xiàn)在的KABAT數(shù)據(jù)庫(kù)包括來(lái)自許多物種的IG、TCR、MHC及其它免疫相關(guān)分子的序列。一方面,新的序列仍在不斷加入KABAT數(shù)據(jù)庫(kù);另一方面,該數(shù)據(jù)庫(kù)相關(guān)信息分析工具也越來(lái)越多,這些工具包括關(guān)鍵詞搜索、變異性分析和序列比對(duì)等。KABAT數(shù)據(jù)庫(kù)及相應(yīng)工具曾經(jīng)可以從http://immuno.bme.nwu.edu免費(fèi)獲得;但現(xiàn)在只有付費(fèi)注冊(cè)才能使用。2003年以后,該數(shù)據(jù)庫(kù)不再更新,第一個(gè)免疫學(xué)數(shù)據(jù)庫(kù)就這樣在不適宜的商業(yè)模式下成為僵尸數(shù)據(jù)庫(kù)。
(6)SYFPEITHI數(shù)據(jù)庫(kù)[24]
1999年,Hans-Georg Rammensee教授及其同事開(kāi)發(fā)了一個(gè)關(guān)于MHC配體和基序的數(shù)據(jù)庫(kù)—SYFPEITHI。該數(shù)據(jù)庫(kù)的名字來(lái)源于第一個(gè)直接測(cè)序的天然MHC配體,即SYFPEITHI九肽;該配體洗脫自小鼠P815腫瘤細(xì)胞的H-2Kd分子。目前,SYFPEITHI數(shù)據(jù)庫(kù)收錄了來(lái)自人類(lèi)和其他物種(如猿、牛、雞、小鼠等)MHC-I類(lèi)和II類(lèi)配體的序列7000多條,基序200多種,所有的數(shù)據(jù)僅來(lái)源于文獻(xiàn)。SYFPEITHI數(shù)據(jù)庫(kù)工具可檢索等位基因、基序、天然配體、T細(xì)胞表位、源蛋白質(zhì)/物種及參考文獻(xiàn)。數(shù)據(jù)庫(kù)與EMBL和PubMed數(shù)據(jù)庫(kù)有超鏈接。SYFPEITHI數(shù)據(jù)庫(kù)提供了一個(gè)基于基序打分的表位預(yù)測(cè)界面,可預(yù)測(cè)人類(lèi)及小鼠的多種MHC分子配體,通過(guò)www.syfpeithi.de免費(fèi)在線使用。SYFPEITHI數(shù)據(jù)庫(kù)的脫機(jī)版本,可在個(gè)人電腦或局域網(wǎng)內(nèi)使用,但需付費(fèi)(單機(jī)每年3000歐元)。又一個(gè)具有歷史意義的數(shù)據(jù)庫(kù)在商業(yè)化模式中迷失。
(7)未完待續(xù)
從半抗原小分子、佐劑、表位、抗原、變應(yīng)原到抗體,但凡當(dāng)前免疫學(xué)課本上有的,互聯(lián)網(wǎng)往往已有相應(yīng)數(shù)據(jù)庫(kù)。例如:半抗原數(shù)據(jù)庫(kù)(HaptenDB[25]),佐劑數(shù)據(jù)庫(kù)(Vaxjo[26])表位數(shù)據(jù)庫(kù)(Bcipep[27]、CED[28]),保護(hù)性抗原數(shù)據(jù)庫(kù)(Protegen[29])、腫瘤抗原數(shù)據(jù)庫(kù)(TANTIGEN、CIDB[30]),變應(yīng)原及表位數(shù)據(jù)庫(kù)(ALLERDB[31]、Farrp、InformAll[32, 33]、SDAP[34]),抗體數(shù)據(jù)庫(kù)(SACS[35]、Abysis)等等,不一而足。從紙質(zhì)版到電子版,從平面文件(flat file)到關(guān)系型數(shù)據(jù)庫(kù),從單機(jī)到網(wǎng)絡(luò),免疫學(xué)數(shù)據(jù)庫(kù)經(jīng)過(guò)幾十年的發(fā)展,種類(lèi)與數(shù)量越來(lái)越多,數(shù)據(jù)庫(kù)的容量越來(lái)越大,結(jié)構(gòu)也越來(lái)越復(fù)雜。除了這些數(shù)據(jù)庫(kù)外,免疫學(xué)相關(guān)的測(cè)試數(shù)據(jù)集(Benchmarks)也是重要的資源。由于篇幅限制,我們不再列舉免疫學(xué)數(shù)據(jù)庫(kù)及數(shù)據(jù)集。好事者,可通過(guò)Google等搜索引擎,Nucleic Acids Research、Database及其它專(zhuān)業(yè)期刊查詢(xún)相關(guān)數(shù)據(jù)庫(kù)與數(shù)據(jù)集。
2.單機(jī)軟件與網(wǎng)絡(luò)程序
有了數(shù)據(jù)的支持,理論免疫學(xué)家就可以通過(guò)數(shù)學(xué)方法建立理論模型,進(jìn)行模擬仿真;計(jì)算免疫學(xué)家則可在此基礎(chǔ)上進(jìn)行數(shù)據(jù)挖掘,建立新的算法,或用這些數(shù)據(jù)訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī),建立新的預(yù)測(cè)模型并進(jìn)行測(cè)試、評(píng)估與分析。這些模型、仿真、算法及預(yù)測(cè)器往往最終實(shí)現(xiàn)為單機(jī)或網(wǎng)絡(luò)程序。如前所述,網(wǎng)絡(luò)程序已經(jīng)成為免疫信息學(xué)乃至生物信息學(xué)軟件開(kāi)發(fā)的大趨勢(shì),但出于數(shù)據(jù)安全保密等各種考慮,單機(jī)軟件仍受一些公司與研究組的青睞。另外一個(gè)趨勢(shì)是數(shù)據(jù)庫(kù)自帶的分析工具越來(lái)越多,數(shù)據(jù)庫(kù)與網(wǎng)絡(luò)程序的界限日漸模糊。此外,不少時(shí)候,解決一個(gè)免疫學(xué)問(wèn)題往往需要一系列小的軟件工具與步驟,由于這些小軟件大都是現(xiàn)成的,因此只需要進(jìn)行系統(tǒng)集成,形成合理的工作流程即可,這樣的工作可通過(guò)諸如Accelrys公司的Pipeline Pilot等平臺(tái)來(lái)自動(dòng)化。由于免疫學(xué)相關(guān)網(wǎng)絡(luò)程序不可勝數(shù),本節(jié)不再具體羅列,而在免疫信息學(xué)的具體應(yīng)用中部分提及。
第三節(jié) 免疫信息學(xué)的應(yīng)用
免疫學(xué)不僅是研究分子識(shí)別與相互作用的基礎(chǔ)學(xué)科,而且貼近應(yīng)用。FDA近年批準(zhǔn)進(jìn)入市場(chǎng)銷(xiāo)售或臨床試驗(yàn)的藥物中,新型抗體與新型疫苗屢拔頭籌。由于抗體藥物的巨大成功,以新型抗體、新型疫苗開(kāi)發(fā)為核心的免疫學(xué)研究已經(jīng)成為世界各國(guó)生物技術(shù)學(xué)術(shù)界與產(chǎn)業(yè)界全力追捧與投入的領(lǐng)域。與生物信息學(xué)相結(jié)合免疫信息學(xué)研究不僅可以解決一些分子識(shí)別的基本生物學(xué)問(wèn)題,而且也必將為產(chǎn)業(yè)界提供新的工具。免疫信息學(xué)資源已在生命科學(xué)基礎(chǔ)研究與應(yīng)用開(kāi)發(fā)研究中廣泛應(yīng)用。這里,筆者結(jié)合自己的研究工作進(jìn)行部分介紹。
1.表位預(yù)測(cè)
表位預(yù)測(cè)是免疫信息學(xué)研究的核心問(wèn)題之一,也是抗體、疫苗、移植免疫、變態(tài)反應(yīng)計(jì)算分析的基礎(chǔ)。因此,發(fā)現(xiàn)一個(gè)重要的新表位和發(fā)現(xiàn)一個(gè)新基因一樣,都蘊(yùn)藏著巨大的財(cái)富。因此,從IT巨人微軟到世界500強(qiáng)的生物醫(yī)藥公司羅氏,都有人在做表位預(yù)測(cè)研究。1999年,納斯達(dá)克上市公司Epimmune(Nasdaq:EPMN)將其發(fā)現(xiàn)鑒定的一個(gè)可能用于乳癌、肺癌、結(jié)腸癌治療的候選"先導(dǎo)表位"作價(jià)200萬(wàn)美元賣(mài)給了給美國(guó)Searle公司(世界500強(qiáng)的轉(zhuǎn)基因寡頭孟山都公司的制藥部)。靠著它的另一項(xiàng)專(zhuān)利成果泛DR表位PADRE,Epimmune公司還從Elan公司、Pharmexa公司獲得了不菲的非獨(dú)占授權(quán)費(fèi),而后,Genencor公司更為此付出了6000萬(wàn)美元的獨(dú)占性授權(quán)費(fèi);不僅如此,Epimmune公司今后還將享有上述3家公司所有PADRE相關(guān)產(chǎn)品的銷(xiāo)售提成。
回到現(xiàn)實(shí),如果我們將抗原比作一篇文章,那么表位就好比文章的關(guān)鍵詞;而表位簇集區(qū)域就好比是摘要。根據(jù)表位特異性免疫應(yīng)答的程度,可將抗原中的表位分為免疫優(yōu)勢(shì)表位、亞優(yōu)勢(shì)表位和隱性表位;根據(jù)表位對(duì)機(jī)體的影響,可分為保護(hù)性表位(免疫位)、致病性表位(變應(yīng)位)、耐受性表位(耐受位);根據(jù)識(shí)別的免疫細(xì)胞,可分為B細(xì)胞表位、輔助性T細(xì)胞(Th)表位、細(xì)胞毒性T細(xì)胞(Tc)表位等。表位預(yù)測(cè)就好比對(duì)抗原這篇文章進(jìn)行鉤玄摘要。目前有關(guān)研究主要是B細(xì)胞表位、Th表位、Tc表位的預(yù)測(cè)上。
(1)B細(xì)胞表位預(yù)測(cè)
B細(xì)胞表位要被抗體識(shí)別,只能位于抗原表面。因此,早期的線性B細(xì)胞表位預(yù)測(cè)采用唯象方法(Phenomenological theory),通過(guò)計(jì)算蛋白亞序列的理化性質(zhì)或二級(jí)結(jié)構(gòu),利用B細(xì)胞表位與上述理化特性或二級(jí)結(jié)構(gòu)的相關(guān)性進(jìn)行預(yù)測(cè)。例如,親水的氨基酸更多位于液相面,而疏水的更多地深埋在抗原內(nèi)核,因此可以計(jì)算蛋白質(zhì)序列局部的親水性來(lái)間接推斷B細(xì)胞表位。對(duì)蛋白序列局部理化性質(zhì)或二級(jí)結(jié)構(gòu)傾向的理論計(jì)算大多依據(jù)相應(yīng)的屬性量表,這些量表可通過(guò)實(shí)驗(yàn)或統(tǒng)計(jì)分析得到。常用的量表如Janin可及性量表、Hopp和Woods親水量表、Parker親水量表(示例見(jiàn)圖7-1)、Thornton突出指數(shù)量表、Welling抗原性量表等。30多年來(lái),經(jīng)典量表時(shí)有優(yōu)化更新,對(duì)滑窗法的預(yù)測(cè)性能也有所改進(jìn)。
圖7-1基于Parker親水量表的線性B細(xì)胞表位預(yù)測(cè)示例
復(fù)雜網(wǎng)絡(luò)(Complex networks)已經(jīng)成為近年自然科學(xué)乃至社會(huì)科學(xué)諸多學(xué)科領(lǐng)域研究的一個(gè)焦點(diǎn)與超級(jí)熱點(diǎn)。現(xiàn)實(shí)世界中的很多系統(tǒng)都可以用復(fù)雜網(wǎng)絡(luò)的模型來(lái)描述與研究,如互聯(lián)網(wǎng)、集成電路、電力網(wǎng)、通訊網(wǎng)、鐵路網(wǎng)、食物鏈、人際關(guān)系網(wǎng)等等。各種網(wǎng)絡(luò)在數(shù)學(xué)上都可以用圖(Graph)來(lái)表述。圖論(Graph theory)源于18世紀(jì)大數(shù)學(xué)家歐拉(Leonhard Euler)對(duì)規(guī)則圖(regular graph)的研究;20世紀(jì)50年代,兩位匈牙利科學(xué)家Erdös和Rényi的研究使經(jīng)典圖論出現(xiàn)重大突破,確立了隨機(jī)圖理論(Random Graph Theory)。但不管是表征何種網(wǎng)絡(luò)的圖,它們都是由一些基本單元和它們之間的連接構(gòu)成的;在圖論中,我們通常把前者稱(chēng)為節(jié)點(diǎn)(nodes)、頂點(diǎn)(vertices)或點(diǎn)(point),把后者稱(chēng)為邊(edges)、連接(links)或者線(lines)。基于圖論的系統(tǒng)生物學(xué)研究已經(jīng)取得了許多重大成果,食物鏈網(wǎng)絡(luò)、大腦皮層神經(jīng)元網(wǎng)絡(luò)、代謝網(wǎng)絡(luò)、基因調(diào)節(jié)網(wǎng)絡(luò)等許多生物系統(tǒng)的復(fù)雜網(wǎng)絡(luò)已被證實(shí)具有小世界(small-world)或/和標(biāo)度無(wú)關(guān)(scale-free)特性。在基因調(diào)節(jié)網(wǎng)絡(luò)、代謝網(wǎng)絡(luò)的研究中,蛋白質(zhì)(或酶)被簡(jiǎn)單地看作為網(wǎng)絡(luò)節(jié)點(diǎn)。但是,當(dāng)把研究聚焦于蛋白質(zhì)本身或其部分片段的時(shí)候,例如對(duì)蛋白質(zhì)抗原,我們同樣可以把抗原看作一個(gè)復(fù)雜網(wǎng)絡(luò),一個(gè)大的“圖”。它的節(jié)點(diǎn)是氨基酸殘基,它的邊是氨基酸殘基之間在序列上與空間結(jié)構(gòu)上的聯(lián)系(如圖7-2)。
圖7-2:蛋白質(zhì)抗原氨基酸殘基網(wǎng)絡(luò)示意圖(家兔子宮珠蛋白: 1UTG)
我們從PDB數(shù)據(jù)庫(kù)中篩選出無(wú)冗于、高分辨率的代表性晶體結(jié)構(gòu)640個(gè),以氨基酸殘基為節(jié)點(diǎn),殘基之間序列上的聯(lián)系(實(shí)質(zhì)是肽鍵)或空間上的聯(lián)系(實(shí)質(zhì)是二硫鍵等其它共價(jià)鍵或氫鍵、疏水相互作用、范德華力等非共價(jià)相互作用)為邊,構(gòu)建了640個(gè)抗原的氨基酸殘基網(wǎng)絡(luò)。計(jì)算這些網(wǎng)絡(luò)中每個(gè)氨基酸殘基的連接度(Connectivity)、聚類(lèi)系數(shù)(Clustering coefficient)、完形度(Closeness)、間度(Betweeness)等復(fù)雜網(wǎng)絡(luò)參數(shù),統(tǒng)計(jì)推演出基于復(fù)雜網(wǎng)絡(luò)的4個(gè)新量表(見(jiàn)表7-1),即相對(duì)連接度(Rk)、相對(duì)聚類(lèi)系數(shù)(Rc)、相對(duì)完形度(Ro)、相對(duì)連接度(Rb)。
表7-1基于抗原氨基酸殘基網(wǎng)絡(luò)拓?fù)湫再|(zhì)的新屬性量表[36]
我們把上述新量表用于基于滑動(dòng)窗的B細(xì)胞表位殘基預(yù)測(cè)。結(jié)果顯示,在5個(gè)測(cè)試數(shù)據(jù)集中,相對(duì)連接度(Rk)表現(xiàn)穩(wěn)定優(yōu)越,在注釋最完整、質(zhì)量最佳的HEL數(shù)據(jù)集中,相對(duì)連接度的ROC曲線下面積最大,提示預(yù)測(cè)性能顯著優(yōu)于Parker親水性(Ph)及Levitt指數(shù)(Li)等兩個(gè)已知最好的B細(xì)胞表位預(yù)測(cè)量表(見(jiàn)圖7-3)[37]。因?yàn)橄鄬?duì)連接度反應(yīng)了一個(gè)氨基酸殘基在網(wǎng)絡(luò)中相鄰氨基酸殘基數(shù)目的傾向。偏愛(ài)在抗原內(nèi)核的,鄰居一般較多,在表面的,鄰居相對(duì)較少。因此,用相對(duì)連接度來(lái)預(yù)測(cè)B細(xì)胞表位能有如此表現(xiàn)也就不奇怪了。
圖7-3相對(duì)連接度、Parker親水性及Levitt指數(shù)預(yù)測(cè)性能比較
專(zhuān)門(mén)的線性B細(xì)胞表位預(yù)測(cè)工具有PREDITOP、ADEPT、PEOPLE、BepiPred[38]等;一些綜合性序列分析軟件,如OMIGA、UWGCG、ANTHEPROT等,也包含了的線性B細(xì)胞表位預(yù)測(cè)功能。線性B細(xì)胞表位預(yù)測(cè)往往是根據(jù)蛋白質(zhì)抗原的氨基酸序列,預(yù)測(cè)其上可能的B細(xì)胞表位區(qū)段。由于B細(xì)胞表位在沒(méi)有其對(duì)應(yīng)抗體時(shí)是不能確定的,它的存在取決于相應(yīng)抗體的存在,所以,從學(xué)術(shù)的角度,目前的線性B細(xì)胞表位預(yù)測(cè)似乎是個(gè)偽命題。但就是這個(gè)命題卻是目前大部分抗體公司急需解決,有著重大現(xiàn)實(shí)需求的。例如,根據(jù)預(yù)測(cè)結(jié)果,用從天然蛋白中篩選出的合成肽段來(lái)免疫動(dòng)物,以期獲得的抗多肽抗體能與天然蛋白本身發(fā)生交叉反應(yīng)。這具有重要的實(shí)用價(jià)值,相應(yīng)抗體既可用于親和層析,達(dá)到分離純化完整蛋白抗原的目的,又可用于免疫組化或其它免疫反應(yīng)而有助于基礎(chǔ)研究與臨床診斷,可以開(kāi)發(fā)為科研甚至臨床診斷試劑。當(dāng)前,人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等機(jī)器學(xué)習(xí)方法已用于線性B細(xì)胞表位預(yù)測(cè),但性能仍不令人滿(mǎn)意。此外,基于噬菌體展示或抗原空間結(jié)構(gòu)的構(gòu)象表位預(yù)測(cè)近年來(lái)也廣受關(guān)注。前者我們將在后文中單獨(dú)論述;后者包括Java語(yǔ)言編寫(xiě)的基于隨機(jī)森林的單機(jī)程序Bpredictor[39],網(wǎng)絡(luò)程序CEP[40]、DiscoTope[41]及SEPPA[42]等。
(2)T細(xì)胞表位預(yù)測(cè)
T細(xì)胞表位的預(yù)測(cè)研究肇始于對(duì)Th表位的預(yù)測(cè)。早期的Th表位預(yù)測(cè)明顯受線性B細(xì)胞表位預(yù)測(cè)思路的影響,不少研究試圖從實(shí)驗(yàn)證實(shí)的Th表位中找出它們?cè)诶砘匦曰蚨?jí)結(jié)構(gòu)上的共同特征并在一定程度上獲得了成功,第一個(gè)Th表位預(yù)測(cè)程序AMPHI就是早期研究的代表作品。二十世紀(jì)80年代末90年代初,MHC-I類(lèi)分子晶體結(jié)構(gòu)的闡明和多種Tc表位基序的發(fā)現(xiàn)使Tc表位預(yù)測(cè)研究率先取得突破。這帶動(dòng)了MHC-II類(lèi)分子晶體結(jié)構(gòu)與各種Th表位基序的揭示,使Th表位預(yù)測(cè)擺脫了B細(xì)胞表位預(yù)測(cè)思路的影響。目前,打分矩陣、隱馬爾可夫模型(Hidden Markov Model,HMM)、比較分子力場(chǎng)分析(comparative molecular field analysis, CoMFA)、比較分子相似性指數(shù)分析(comparative molecular silmilarity indices analysis, CoMSIA)、人工神經(jīng)網(wǎng)絡(luò)(artificial neural network , ANN)、支持向量機(jī)(Support Vector Machine,SVM)等各種方法都已用于T細(xì)胞表位預(yù)測(cè)。相關(guān)單機(jī)及網(wǎng)絡(luò)程序包括AMPHI、Tepitope、TSites、EpiMer、EpiMatrix、BIMAS、MHCPred、NetMHC、NetMHCpan、NetMHCcons、NetCTL、NetCTLpan、NetMHCII、NetMHCIIpan、MetaMHC[43]、TEPITOPEpan等。這個(gè)領(lǐng)域非常熱鬧,于是該領(lǐng)域元老Brusic教授于2009年組織了首屆機(jī)器學(xué)習(xí)在免疫學(xué)中的應(yīng)用——HLA-I類(lèi)配體預(yù)測(cè)(MLI)大賽[44]。行筆至此,2012倫敦奧運(yùn)與第二屆MLI大賽正如火如荼,發(fā)揚(yáng)奧運(yùn)精神,我們也參與其中。希望有興趣的同學(xué)今后能加入我們。
雖然對(duì)Tc表位預(yù)測(cè)的探索起步最晚,但進(jìn)展最快,研究最深入,預(yù)測(cè)最成功,尤其是基于支持向量機(jī)的方法。目前,對(duì)Tc表位的預(yù)測(cè),研究?jī)?nèi)容已經(jīng)不只限于對(duì)MHC-I類(lèi)分子結(jié)合及其結(jié)合能力的預(yù)測(cè),而且還拓展到對(duì)候選Tc表位自然產(chǎn)生可能性及其轉(zhuǎn)運(yùn)效率的預(yù)測(cè),即對(duì)蛋白酶體酶切位點(diǎn)及抗原處理相關(guān)轉(zhuǎn)運(yùn)蛋白(transporters associated with antigen processing, TAP)的轉(zhuǎn)運(yùn)進(jìn)行預(yù)測(cè),范圍涵蓋整個(gè)抗原處理與遞呈過(guò)程,相關(guān)程序如FragPredict、PAProC、NetChop等。此外,近些年的研究越來(lái)越重視雜合性T細(xì)胞表位、超型表位及表位簇集區(qū)域的預(yù)測(cè)。
2.噬菌體展示
(1)噬菌體與噬菌體展示
噬菌體(phage)是一類(lèi)感染細(xì)菌的病毒。有些噬菌體,如絲狀噬菌體M13、fd、f1等,是非常好的表達(dá)載體[45]。通過(guò)基因工程方法,可以將外源基因片段或隨機(jī)DNA序列插入噬菌體基因III或VIII中,表達(dá)后形成的融合蛋白仍能夠自主裝配成噬菌體外殼并將外源蛋白或多肽展示在噬菌體顆粒表面(見(jiàn)圖7-4)。
圖7-4:通過(guò)基因III或VIII展示外源序列的M13噬菌體示意圖
噬菌體易于培養(yǎng),增殖迅速。通過(guò)隨機(jī)PCR等分子生物學(xué)技術(shù),可以很方便地構(gòu)建多樣性從數(shù)百萬(wàn)到數(shù)百億的噬菌體文庫(kù)(phage library)[46]。這就使得生物學(xué)家可以像釣魚(yú)一樣,從“魚(yú)塘”(噬菌體文庫(kù))里高效地釣到能與“魚(yú)餌(bait)”結(jié)合的展示了特定多肽的噬菌體。通常,用來(lái)篩選噬菌體文庫(kù)的物質(zhì)被稱(chēng)為靶位(target);靶位的天然配體稱(chēng)為模板(template)。如圖7-5所示,使用靶位(如細(xì)胞、抗體、受體、酶、化合物、半導(dǎo)體材料等),經(jīng)過(guò)幾輪結(jié)合、洗脫、增殖的循環(huán)淘選(panning),通常能快速?gòu)氖删w文庫(kù)中篩出一系列可能與靶位特異性結(jié)合的噬菌體;通過(guò)DNA測(cè)序能快捷、可靠地推導(dǎo)出它們所展示外源多肽的氨基酸序列。這些能與靶位結(jié)合的外源多肽,通常模擬了相應(yīng)模板的特定位點(diǎn),因而被稱(chēng)為模擬肽(mimotope);而上述獲得模擬肽的分子生物學(xué)實(shí)驗(yàn)流程與技術(shù)則被稱(chēng)為生物淘選(biopanning)或噬菌體展示(phage display)[47]。
噬菌體展示技術(shù)一經(jīng)問(wèn)世便迅速發(fā)展,并在現(xiàn)代分子生物醫(yī)學(xué)研究中廣泛應(yīng)用。在基礎(chǔ)研究中,利用噬菌體展示技術(shù)可以預(yù)測(cè)出表位[48]、其他蛋白質(zhì)相互作用位點(diǎn)[49]與網(wǎng)絡(luò)[50, 51],確定藥物作用的靶標(biāo)蛋白;在應(yīng)用研究中,噬菌體展示技術(shù)可用于開(kāi)發(fā)器官靶向試劑[52]、新診斷試劑[53]、新生物技術(shù)藥物[54]和疫苗[55]。尤其值得一提的是,噬菌體展示技術(shù)在基于新型生物材料的新能源如生物鋰電池[56]、氫能源[57]等研究中大放異彩,美國(guó)總統(tǒng)奧巴馬曾因此專(zhuān)程參觀了麻省理工學(xué)院的相關(guān)實(shí)驗(yàn)室。
圖7-5噬菌體展示技術(shù)示意圖(Science 2002)[58]
(2)噬菌體展示數(shù)據(jù)中的信號(hào)與噪聲
在噬菌體展示實(shí)驗(yàn)的結(jié)果中,信號(hào)是研究者想要得到的模擬肽序列,也就是能特異性結(jié)合靶位的多肽。但是,由于噬菌體展示技術(shù)本身固有的原因,在淘選得到模擬肽的同時(shí),也將不可避免地得到一些噪聲序列,也就是所謂的靶位無(wú)關(guān)多肽(target-unrelated peptides, TUP)[59, 60]。這些噪聲序列可分為兩類(lèi)。一類(lèi)是選擇相關(guān)TUP (Selection-related TUP, SrTUP),專(zhuān)指發(fā)生在噬菌體的結(jié)合選擇環(huán)節(jié),能夠結(jié)合篩選體系中某種成分但并非與靶位特定位點(diǎn)結(jié)合的噬菌體展示多肽。由于靶位本身及淘選體系的復(fù)雜性,文庫(kù)中的噬菌體除了與研究者期待的靶位位點(diǎn)結(jié)合外,還可能與淘選體系中的固相基質(zhì)(如塑料和磁珠)、檢測(cè)放大分子(如鏈親和素、蛋白A)、封閉試劑(如牛血清白蛋白)、污染分子(如胎牛血清中的牛免疫球蛋白、大腸桿菌內(nèi)毒素)及靶位的其它位點(diǎn)結(jié)合。另一類(lèi)是增殖相關(guān)TUP (Propagation-related TUP, PrTUP),專(zhuān)指發(fā)生在噬菌體增殖環(huán)節(jié),不是因?yàn)槟芘c靶位結(jié)合,而是因?yàn)榫哂懈臁⒏鼜?qiáng)的增殖能力而進(jìn)入實(shí)驗(yàn)結(jié)果里的多肽[61]。與選擇相關(guān)TUP一樣,增殖相關(guān)TUP也極其常見(jiàn),尤其多見(jiàn)于最為常用的基于M13噬菌體的Ph.D.系列商業(yè)化文庫(kù)[62]。基于fd-tet噬菌體的文庫(kù)增加了抵抗增殖相關(guān)噪聲的設(shè)計(jì);即便如此,增殖相關(guān)噪聲序列仍不時(shí)出現(xiàn)在噬菌體展示實(shí)驗(yàn)結(jié)果中[61]。實(shí)驗(yàn)結(jié)果顯示,增殖相關(guān)TUP不僅可能混入噬菌體展示的結(jié)果中,有的時(shí)候甚至?xí)髟资删w展示數(shù)據(jù)[62]。計(jì)算機(jī)模擬結(jié)果顯示,噬菌體增殖能力的差異即便微小到10%,經(jīng)過(guò)幾輪增殖后也能引起噬菌體文庫(kù)克隆豐度的極顯著差異[63]。因此,噬菌體展示的實(shí)驗(yàn)結(jié)果往往是模擬肽與靶位無(wú)關(guān)多肽的混合物。
如果不加區(qū)分,將噪聲作為信號(hào),也就是把噬菌體展示實(shí)驗(yàn)結(jié)果中的靶位無(wú)關(guān)多肽當(dāng)作模擬肽,不言而喻,其研究結(jié)果往往是誤導(dǎo)的和悲劇的。令人遺憾的是,這種情況相當(dāng)常見(jiàn)。例如,全球有幾十個(gè)研究組都報(bào)道過(guò)一種序列為SVSVGMKPSPRP的神奇“模擬肽”。匯總各研究組的實(shí)驗(yàn)結(jié)果,提示它可能與40多種不同的靶位結(jié)合[64, 65]。這些靶位包括:多種器官與組織(如頭發(fā)、皮膚、小鼠腫瘤血管、小鼠胚胎),多種細(xì)胞(如神經(jīng)元、前列腺癌細(xì)胞、肝癌細(xì)胞、小鼠卵細(xì)胞、金黃色葡萄球菌),RNA,DNA,多種抗體,多種酶(如葡萄糖氧化酶、乙酰膽堿酯酶),多種蛋白(如神經(jīng)生長(zhǎng)因子、艾滋病毒Vif蛋白),多種多肽及各種材料(如磷脂酰絲氨酸脂質(zhì)體、腦膜炎球菌脂多糖、羥基磷灰石、聚四氟乙烯、墨水染料、單壁碳納米管、鈷納米顆粒、鉑鐵合金及磷化銦、砷化鎵、氮化鎵等半導(dǎo)體材料)結(jié)合。難道SVSVGMKPSPRP是無(wú)所不能的萬(wàn)能膠水?實(shí)際上,上述多數(shù)實(shí)驗(yàn)里它只是一條增殖相關(guān)的TUP。然而,具有諷刺意味的是,相當(dāng)多的實(shí)驗(yàn)小組把噪聲作為信號(hào),最終得出了一些錯(cuò)誤的結(jié)論還如獲至寶。
令人欣慰的是,在噬菌體展示領(lǐng)域,無(wú)論是實(shí)驗(yàn)研究者還是理論研究者,都已經(jīng)開(kāi)始注意到實(shí)驗(yàn)數(shù)據(jù)中的噪聲問(wèn)題。在進(jìn)行后續(xù)研究之前,很有必要預(yù)先減少或盡量消除實(shí)驗(yàn)數(shù)據(jù)中的靶位無(wú)關(guān)多肽,這已逐漸成為本領(lǐng)域研究者的共識(shí)。因此,靶位無(wú)關(guān)多肽的研究已經(jīng)成為近年來(lái)噬菌體展示領(lǐng)域?qū)嶒?yàn)與生物信息學(xué)研究的熱點(diǎn)。通過(guò)采取消減淘選(subtractive panning)、提高靶位結(jié)合選擇的嚴(yán)謹(jǐn)度、減少淘選次數(shù)等各種實(shí)驗(yàn)措施,能在一定程度上減少選擇相關(guān)及增殖相關(guān)噪聲。但是,僅靠實(shí)驗(yàn)本身的改進(jìn)并不能徹底消除靶位無(wú)關(guān)多肽,這是由噬菌體展示內(nèi)在的結(jié)合選擇與感染增殖環(huán)節(jié)所決定的[63]。因此,借助信息學(xué)手段來(lái)檢測(cè)噪聲序列,進(jìn)而對(duì)噬菌體展示數(shù)據(jù)進(jìn)行計(jì)算純化等一系列預(yù)處理,不失為省時(shí)、省力、省錢(qián)的上佳之選。
(3)噬菌體展示數(shù)據(jù)預(yù)處理研究進(jìn)展
目前,噬菌體展示數(shù)據(jù)的預(yù)處理方法大體可分為三類(lèi)。一是是基于信息論的方法,二是基于TUP序列特征的方法,三是基于數(shù)據(jù)庫(kù)搜索比對(duì)的方法[66]。
早在2004年,Mandava等就根據(jù)香農(nóng)的信息論提出了用信息含量(Information content)這一指標(biāo)來(lái)衡量噬菌體展示結(jié)果中每條多肽是信號(hào)還是噪聲[67]。對(duì)于噬菌體展示實(shí)驗(yàn)結(jié)果中任意一條多肽序列X1X2…XN,其出現(xiàn)在初始文庫(kù)中的概率P = P1×P2×…×PN,其中PN代表著初始文庫(kù)中某種氨基酸出現(xiàn)在第N位的頻率。多肽的信息含量INFO =﹣㏑(P)。Mandava等所謂的信息含量類(lèi)似于信息論中的信息熵(information entropy)。Mandava等認(rèn)為,初始文庫(kù)中越罕見(jiàn)的多肽,信息含量越高,經(jīng)過(guò)幾輪淘選還能出現(xiàn)在結(jié)果中,這就越不可能是隨機(jī)事件,這樣的多肽應(yīng)該是有意義的信號(hào);反之,越是具有增殖優(yōu)勢(shì)的噬菌體,在初始庫(kù)中就越常見(jiàn),信息含量也就越低,如果出現(xiàn)在結(jié)果中則很可能是噪聲序列。根據(jù)上述假設(shè),他們開(kāi)發(fā)了INFO程序[63]。
2010年,我們研究組根據(jù)Menendez等的綜述,總結(jié)了當(dāng)時(shí)所有已知靶位無(wú)關(guān)多肽的序列特征,編寫(xiě)了一個(gè)基于TUP序列特征的靶位無(wú)關(guān)多肽檢測(cè)、報(bào)告與濾除程序(SAROTUP,http://immunet.cn/sarotup)[68]。我們的測(cè)試結(jié)果顯示,給噬菌體展示實(shí)驗(yàn)數(shù)據(jù)增加一個(gè)基于TUP序列特征的預(yù)處理環(huán)節(jié),不僅能極大地提高Pepsurf、Mapitope等程序預(yù)測(cè)蛋白質(zhì)相互作用位點(diǎn)的性能,還有助于基于噬菌體展示的候選疫苗篩選[68]。
為了檢測(cè)不具備已知TUP序列特征的靶位無(wú)關(guān)多肽,我們接著又構(gòu)建了一個(gè)噬菌體展示實(shí)驗(yàn)結(jié)果的數(shù)據(jù)庫(kù)(MimoDB,http://immunet.cn/mimodb),收集了全球各研究組利用噬菌體展示淘選隨機(jī)文庫(kù)的實(shí)驗(yàn)結(jié)果[64]。該數(shù)據(jù)庫(kù)每季度更新,筆者成文時(shí)版本有數(shù)據(jù)1956套,多肽序列16500條,是目前世界上最大、最全的噬菌體展示實(shí)驗(yàn)結(jié)果數(shù)據(jù)庫(kù)。去年底,我們又開(kāi)發(fā)了MimoSearch、MimoBlast等幾個(gè)基于該噬菌體展示數(shù)據(jù)庫(kù)的小工具。通過(guò)MimoSearch小工具搜索數(shù)據(jù)庫(kù),可以查看實(shí)驗(yàn)者提交的多肽序列是否與其它已發(fā)表的結(jié)果完全相同。如果多個(gè)研究組在淘選實(shí)驗(yàn)中使用的靶位不同卻又得到了完全相同的多肽序列,那么相應(yīng)多肽極可能是噪聲序列,即便它很可能不具備任何已知的噪聲序列特征。通過(guò)MimoBlast小工具可對(duì)MimoDB進(jìn)行全數(shù)據(jù)庫(kù)序列搜索比對(duì),不僅可以找到與實(shí)驗(yàn)者提交多肽序列不完全相同但高度相似的已發(fā)表結(jié)果,從而提示靶位無(wú)關(guān)多肽,還能找出與已知TUP高度相似的多肽從而推導(dǎo)新的TUP序列特征[65]。目前,這些基于數(shù)據(jù)庫(kù)搜索比對(duì)的工具也已集成到了SAROTUP程序的2.0版中。
(4)基于噬菌體展示的表位預(yù)測(cè)[49]
由于模擬肽和抗原上的天然表位能與同一抗體結(jié)合,所以,通常認(rèn)為,模擬肽及其所模擬的天然表位應(yīng)該具有相似的物理化學(xué)性質(zhì)和空間關(guān)系。這是目前所有基于噬菌體展示的表位預(yù)測(cè)方法共同的假設(shè)與前提。在這個(gè)假設(shè)與前提下,通過(guò)比對(duì)模擬肽序列(或一套模擬肽的共同序列)與抗原序列,抗原序列中與模擬肽序列匹配(一致或高度相似)的部分可能就是相應(yīng)的天然表位。這種情況已得到不少實(shí)驗(yàn)結(jié)果的驗(yàn)證。但是,在針對(duì)蛋白質(zhì)抗原的體液免疫中,所產(chǎn)生的抗體約有90%所識(shí)別的都是空間構(gòu)象性表位;或者說(shuō)與抗體結(jié)合的絕大多數(shù)天然表位在序列上都是不連續(xù)。因此,基于噬菌體展示的表位預(yù)測(cè),在絕大多數(shù)情況下,模擬肽與抗原在一級(jí)結(jié)構(gòu)上沒(méi)有或者僅有非常低的相似性。因此,如何把模擬肽合理映射到抗原的空間結(jié)構(gòu)上或分散的抗原序列中,就成為基于噬菌體展示的表位預(yù)測(cè)研究的核心問(wèn)題。目前,相關(guān)算法、流程、單機(jī)及網(wǎng)絡(luò)程序包括PEPTIDE、FINDMAP、EPIMAP、SiteLight、Mapitope、RELIC、3DEX、MIMOX、MIMOP、PepSurf、Pepitope、Pep-3D-Search、EpiSearch、MimoPro、LocaPep、PepMapper等[66]。
(5)噬菌體展示免疫信息學(xué)研究感悟
回顧既往7年我們?cè)谑删w展示領(lǐng)域的免疫信息學(xué)研究,我們做了數(shù)據(jù)集、數(shù)據(jù)庫(kù)、數(shù)據(jù)預(yù)處理軟件、數(shù)據(jù)解析預(yù)測(cè)軟件,我們深深感受到了計(jì)算的力量。僅以我們的噬菌體展示實(shí)驗(yàn)結(jié)果數(shù)據(jù)庫(kù)而言,這讓我們充分體會(huì)到為什么Rammensee教授要將之稱(chēng)為hard了。數(shù)據(jù)的核實(shí)、提取及無(wú)休止的更正與更新,讓數(shù)據(jù)庫(kù)工作真的非常艱苦hard。當(dāng)然,Rammensee教授的原意是指這些直接來(lái)源的實(shí)驗(yàn)結(jié)果的數(shù)據(jù)是如何hard,如何可靠;而建立在數(shù)據(jù)之上的算法與預(yù)測(cè)軟件,那產(chǎn)出就軟了,因?yàn)槭怯?jì)算預(yù)測(cè)結(jié)果,但好歹還可通過(guò)實(shí)驗(yàn)驗(yàn)證,所以就算個(gè)半軟吧;至于無(wú)法實(shí)驗(yàn)驗(yàn)證的數(shù)學(xué)模型與仿真,那就全軟了。這種認(rèn)識(shí),籠罩整個(gè)生物醫(yī)學(xué)界,那就是:實(shí)驗(yàn)最可靠,實(shí)驗(yàn)是金標(biāo)準(zhǔn);生物信息學(xué),奇技淫巧罷了,計(jì)算的結(jié)果靠不住。但是,當(dāng)我們搜集所有噬菌體展示實(shí)驗(yàn)結(jié)果到MimoDB數(shù)據(jù)庫(kù)中時(shí),我遇到了實(shí)驗(yàn)研究的各種怪狀;當(dāng)所有噬菌體展示實(shí)驗(yàn)結(jié)果通過(guò)MimoDB平臺(tái)可以相互對(duì)照后,我們發(fā)現(xiàn),實(shí)驗(yàn)結(jié)果也不都是可靠的,實(shí)驗(yàn)結(jié)果也不都是金標(biāo)準(zhǔn),以子之矛、攻子之盾的地方實(shí)在太多。意外地,MimoDB可以成為一個(gè)噬菌體展示領(lǐng)域的循證生物學(xué)分析平臺(tái),可以幫助實(shí)驗(yàn)研究者消除實(shí)驗(yàn)結(jié)果中的噪聲,這就是數(shù)據(jù)庫(kù)的力量。
3.在抗體研究中的應(yīng)用
目前,有很多單機(jī)及網(wǎng)絡(luò)程序可用于抗體的基礎(chǔ)與應(yīng)用研究的方方面面[13]。例如,使用Abnum可按Kabat、Chothia等三種方式給抗體序列定位編號(hào),從而確定CDR區(qū)[69];使用SUBIM確定抗體重鏈、輕鏈的亞類(lèi)[70];使用AbCheck檢查提交的抗體序列中是否可能存在克隆偽跡(cloning artifacts*)或測(cè)序錯(cuò)誤[71];使用SHAB評(píng)估抗體的人源化程度[72];使用PAPS預(yù)測(cè)抗體重鏈與輕鏈堆疊角度(VH/VL packing angle)[73];使用AbM、WAM[74]、SWISS-MODEL[75]、PIGS[76]、RosettaAntibody[77]等建立抗體的三維結(jié)構(gòu)模型。此外,計(jì)算方法也可用于抗體親和力成熟、防止凝聚、延長(zhǎng)半衰期的設(shè)計(jì)等各個(gè)方面[13]。
免疫信息學(xué)已經(jīng)極大地改變了單克隆抗體產(chǎn)業(yè)。目前,抗體測(cè)序已成常規(guī),而一旦有了抗體序列,就可以通過(guò)序列分析確定其重鏈、輕鏈類(lèi)型而無(wú)需實(shí)驗(yàn)確認(rèn);通過(guò)同源建模、分子對(duì)接及動(dòng)力學(xué)等分析更能推斷其相應(yīng)抗原的大致情況。我們與華西醫(yī)大合作,對(duì)他們通過(guò)雜交瘤技術(shù)獲得的抗蘇丹紅I單抗進(jìn)行了免疫信息學(xué)研究,通過(guò)從頭計(jì)算與同源建模相結(jié)合的方式,獲得了其空間結(jié)構(gòu)的理論模型(見(jiàn)圖7-6)。該圖左側(cè)為抗體輕鏈,其綠色、水色、藍(lán)色、紫色部分對(duì)應(yīng)LFR、L1、L2、L3;右側(cè)為抗體重鏈,其紅色、水色、藍(lán)色、紫色段分別對(duì)應(yīng)HFR、H1、H2、H3。正中凹洞為抗原結(jié)合位點(diǎn),凹洞底部主要由重鏈骨架區(qū)形成,側(cè)壁主要由L3和H3形成。整個(gè)圖像由通過(guò)PMV軟件以分子表面的方式顯示,其中分子表面用MSMS軟件計(jì)算。
圖7-6抗蘇丹紅I單抗可變區(qū)空間結(jié)構(gòu)理論模型
我們?cè)趧蚪Y(jié)構(gòu)數(shù)據(jù)庫(kù)(Cambridge Structural Database,CSD)中查詢(xún)到的蘇丹紅I的晶體結(jié)構(gòu)實(shí)驗(yàn)數(shù)據(jù)共4條,沒(méi)有蘇丹紅II、III、IV晶體結(jié)構(gòu)的實(shí)驗(yàn)數(shù)據(jù)。使用Gaussian軟件,計(jì)算出蘇丹紅I-IV的空間結(jié)構(gòu)。將4條實(shí)驗(yàn)驗(yàn)數(shù)據(jù)與理論計(jì)算的蘇丹紅I結(jié)構(gòu)進(jìn)行疊合,發(fā)現(xiàn)實(shí)驗(yàn)數(shù)據(jù)之間RMSD差別竟然比與理論結(jié)果之間的差異還大,說(shuō)明計(jì)算結(jié)果精確可靠。用Autodock4.1將理論計(jì)算的蘇丹紅I-IV結(jié)構(gòu)與抗蘇丹紅I單抗模型進(jìn)行了盲對(duì)接與定位對(duì)接,得到了蘇丹紅I(見(jiàn)圖7-7)到蘇丹紅IV與抗蘇丹紅I單抗可能的結(jié)合模式。頗為有趣的是,蘇丹紅I、II與抗蘇丹紅I單抗的抗原結(jié)合位點(diǎn)對(duì)接結(jié)合時(shí)構(gòu)象相似:“2-萘酚”(naphthalen-2-ol)基團(tuán)在內(nèi),其余部分朝外;蘇丹紅III、IV與抗蘇丹紅I單抗的抗原結(jié)合位點(diǎn)對(duì)接結(jié)合時(shí)構(gòu)象相似:2-萘酚”(naphthalen-2-ol)基團(tuán)在外,其余部分在內(nèi)。
圖7-7 抗蘇丹紅I單抗-蘇丹紅I相互作用示意圖
在上圖中,抗體輕鏈綠色,重鏈橙色,均按卡通模式顯示。根據(jù)CCP4軟件包計(jì)算結(jié)果,蘇丹紅I在抗原結(jié)合袋中與輕鏈的H34、Q89、T97(綠字標(biāo)出)及重鏈的V37、W47、E50、V97、K98、W103等主要通過(guò)范德華力相互作用,圖中僅顯示了這些殘基中直接與蘇丹紅有范德華相互作用的重原子。此外,蘇丹紅I的N13原子與輕鏈T97殘基的OG1之間距離2.69 Å,形成氫鍵(黃色虛線)。抗蘇丹紅I單抗與蘇丹紅II的相互作用與抗蘇丹紅I單抗-蘇丹紅I的相互作用非常相似,蘇丹紅II的N13原子與輕鏈T97殘基的OG1之間距離2.67 Å,氫鍵更強(qiáng),不再另圖顯示。
我們使用了SplitPocket[78]計(jì)算了抗蘇丹紅I單抗的抗原結(jié)合袋的體積以及蘇丹紅I、II、III、IV分子的體積。在抗蘇丹紅I單抗所有袋結(jié)構(gòu)中,最大的袋位于抗原結(jié)合位點(diǎn),我們將其稱(chēng)為抗原結(jié)合袋。它的尺寸為5.23Å×6.64Å×10.36 Å(寬×厚×深度),體積為359.56Å3;而蘇丹紅I、II、III、IV分子的體積分別為228.28 Å3、261.12 Å3、323.76 Å3、356.56 Å3。由于已有的研究顯示[79]:結(jié)合袋往往都要比配體大得多,配體極少能夠占據(jù)整個(gè)結(jié)合袋,所以,以上計(jì)算結(jié)果顯示,抗蘇丹紅I單抗的抗原結(jié)合袋容納結(jié)合蘇丹紅I、II分子比較容易,而要容納蘇丹紅III則有些困難,蘇丹紅IV則幾無(wú)可能。這些結(jié)果,與對(duì)接結(jié)合能數(shù)據(jù)也是較為一致的。總之,我們免疫信息學(xué)的計(jì)算分析提示:蘇丹紅I、II能與抗蘇丹紅I單抗的抗原結(jié)合位點(diǎn)結(jié)合,強(qiáng)度相近;蘇丹紅III可能有較弱的結(jié)合,而蘇丹紅IV不大可能與抗蘇丹紅I單抗結(jié)合。我們的結(jié)果返回華西后與他們實(shí)驗(yàn)的結(jié)果不盡一致!他們的實(shí)驗(yàn)結(jié)果顯示,抗蘇丹紅I單抗與蘇丹紅I親和力最高,其次蘇丹紅III,與蘇丹紅II結(jié)合較弱,不結(jié)合蘇丹紅IV。是實(shí)驗(yàn)錯(cuò)了還是我們的計(jì)算不對(duì)?后來(lái),我們的合作者反復(fù)研究,發(fā)現(xiàn)當(dāng)初結(jié)合實(shí)驗(yàn)時(shí)未考慮蘇丹紅I-IV之間溶解度的差異,糾正后的實(shí)驗(yàn)結(jié)果與我們計(jì)算的一致。計(jì)算的力量,由此可見(jiàn)一斑!我們也進(jìn)一步仔細(xì)閱讀他們的專(zhuān)利,發(fā)現(xiàn)免疫用的半抗原是蘇丹紅I修飾物(蘇丹紅I號(hào)-3-丙酸,Sudan1-C3)而并非蘇丹紅I本身。Sudan1-C3與OVA、BSA等偶聯(lián)后,除了橋聯(lián)的羧基碳原子外,其結(jié)構(gòu)比蘇丹紅I多了2個(gè)碳原子,而與蘇丹紅II的一個(gè)甲基碳原子正好重疊,另一個(gè)碳原子位置不同。因此,Sudan1-C3與蘇丹紅I、II很相近,推測(cè)引起的單克隆抗體能與蘇丹紅I、II發(fā)生較強(qiáng)交叉反應(yīng)。
我們也曾對(duì)抗CD147的美妥昔單抗(metuximab)進(jìn)行過(guò)同源建模,其理論模型見(jiàn)圖7-8。該圖左側(cè)為輕鏈,其綠色、水色、藍(lán)色、紫色部分對(duì)應(yīng)輕鏈骨架區(qū)(LFR)、輕鏈互補(bǔ)決定區(qū)1、2、3(L1、L2、L3);右側(cè)為重鏈,其紅色、水色、藍(lán)色、紫色段分別對(duì)應(yīng)HFR、H1、H2、H3。美妥昔單抗的抗原結(jié)合位點(diǎn)呈兩端開(kāi)放的扁槽狀,L3和H3構(gòu)成槽底,L1、L2構(gòu)成左槽壁,H1、H2構(gòu)成右槽壁,LFR2區(qū)的F49及HFR3區(qū)的R94殘基也參與了形成美妥昔單抗的抗原結(jié)合位點(diǎn)。從圖中不難看出,針對(duì)蛋白質(zhì)抗原的抗體與先前針對(duì)化學(xué)小分子的抗體,它們所形成的抗原結(jié)合位點(diǎn)形態(tài)迥然不同。對(duì)于任一抗體,通過(guò)建模后對(duì)抗原結(jié)合位點(diǎn)形態(tài)的觀察,似乎就能大概知道其所針對(duì)抗原的大致類(lèi)型。計(jì)算之神奇,嘆為觀止矣!
圖7-8 美妥昔單抗三維空間理論模型
4.在疫苗研究中的應(yīng)用
疫苗極大地促進(jìn)了人類(lèi)健康事業(yè)的發(fā)展。但是,人類(lèi)的生命與財(cái)產(chǎn)仍面臨巨大的威脅。這些威脅主要體現(xiàn)在以下五個(gè)方面。其一,是新的傳染病病原不斷出現(xiàn),如埃博拉病毒、人類(lèi)獲得性免疫缺陷病毒(HIV)、新的傳染性肝炎病毒、瘋牛病病毒及SARS病毒等。其二,是一些為人熟知的人畜致病微生物不斷產(chǎn)生新的變種或耐藥性并再次成為人類(lèi)生命的殺手與財(cái)富的終結(jié)者,如大腸桿菌O157、結(jié)核分枝桿菌、口蹄疫病毒、禽流感病毒等。其三,是911后整個(gè)世界面臨著日益嚴(yán)重的生物恐怖主義威脅,如911后的炭疽恐慌。其四,是大量疑難疾病急需新的治療手段,如癌癥的免疫治療。其五,是對(duì)藥品及疫苗本身生物安全性的擔(dān)憂(yōu),如傳統(tǒng)疫苗通常使用某種疾病的減毒或滅活的致病原,但這仍可能造成疾病傳播或中。正因?yàn)槿绱耍祟?lèi)社會(huì)才迫切需要更快地?fù)碛懈唷⒏踩⒏煽康男碌囊呙绠a(chǎn)品。
就以疫苗最經(jīng)典的應(yīng)用領(lǐng)域——傳染病預(yù)防為例,目前已明確的致病微生物超過(guò)400中,但只針對(duì)其中30多種開(kāi)發(fā)出了上市的疫苗。因此,仍然大量傳染病預(yù)防疫苗仍亟待開(kāi)發(fā)。目前的疫苗研發(fā)已從傳統(tǒng)的預(yù)防性疫苗發(fā)展到治療性疫苗,適用范圍從原來(lái)單純的傳染病預(yù)防發(fā)展到對(duì)過(guò)敏性疾病、自身免疫性疾病、器官移植性疾病、計(jì)劃生育、免疫去勢(shì)、不孕不育癥、老年癡呆、腫瘤防治、戒煙戒毒等各個(gè)方面。隨著人類(lèi)基因組計(jì)劃的完成與大量病原微生物基因組的闡明,人類(lèi)已進(jìn)入從基因組到候選保護(hù)性抗原到保護(hù)性表位到個(gè)體化定制疫苗的時(shí)代,免疫信息學(xué)在其中發(fā)揮著重要的助推作用。
例如,在表位疫苗設(shè)計(jì)方面,EpiVax公司設(shè)計(jì)了iVAX工具包。iVAX是一套根據(jù)蛋白抗原序列,設(shè)計(jì)表位疫苗的免疫信息學(xué)工具,包括Conservatrix、EpiMatrix、ClustiMer、BlastiMer、EpiAssembler、Aggregatrix和VaccineCAD等程序。其中,Conservatrix評(píng)估九肽片段在同一病原不同毒株之間的保守性;EpiMatrix評(píng)估多肽片段的HLA-I、II分子結(jié)合能力;ClustiMer根據(jù)EpiMatrix輸出確定富含T細(xì)胞表位多肽群;BlastiMer評(píng)估這些多肽群與人類(lèi)基因組間的相似性,相似的序列要么耐受難以引起免疫應(yīng)答,要么造成自身免疫病,因此需去掉;EpiAssembler將保守、特異且富含T細(xì)胞表位的多肽群合起來(lái);Aggregatrix確定覆蓋最多HLA型別,最多毒株病原的最小一套表位;VaccineCAD將候選表位多肽合理串接,避免因多肽連接形成新的表位。
疫苗研究在線信息網(wǎng)(VaccineInvestigation andOnLineInformationNetwork,VIOLIN)也提供了大量疫苗研發(fā)相關(guān)信息,包括疫苗相關(guān)的各種數(shù)據(jù)庫(kù)及程序[80]。其中,Vaxign是一個(gè)集成的反向疫苗學(xué)在線軟件[81]。它包括兩個(gè)部分:一是可直接查詢(xún)預(yù)先已預(yù)測(cè)好的結(jié)果;二是對(duì)提交的新基因組或蛋白序列進(jìn)行實(shí)時(shí)交互分析預(yù)測(cè)。Vaxign集成了一系列軟件,包括:(1)確定蛋白抗原亞細(xì)胞定位的PSORTb,分泌或病原外膜蛋白可能是理想的候選靶標(biāo),而胞漿及內(nèi)膜蛋白則不理想;(2)預(yù)測(cè)蛋白質(zhì)跨膜方式的TMHMM,跨膜超過(guò)1次的蛋白難以克隆、表達(dá)、純化,不適宜作為重組疫苗的抗原;(3)預(yù)測(cè)粘附及粘附樣分子的SPAAN,粘附樣分子的通常是理想的疫苗靶標(biāo);(4)預(yù)測(cè)MHC-I及II結(jié)合能力的Vaxitope,此軟件由He研究組自己開(kāi)發(fā);(5)分析序列相似性的BLAST,與宿主高度相似的序列要么耐受要么導(dǎo)致自身免疫,不是理想的靶標(biāo)。
最后,舉一個(gè)實(shí)際案例。腦膜炎奈瑟菌是流行性腦脊髓膜炎(簡(jiǎn)稱(chēng)流腦)的病原菌。根據(jù)其莢膜多糖抗原的差異,可將腦膜炎奈瑟菌分為至少13個(gè)血清型,其中致病的主要是A、B、C、Y及W-135血清型。迄今,A、C、Y及W-135血清型的純化多糖疫苗已使用了多年,取得了較好的預(yù)防效果;但到目前為止仍然未能開(kāi)發(fā)出針對(duì)腦膜炎奈瑟菌B血清型(MenB)的疫苗。原因主要是MenB莢膜多糖一段與人唾液酸一致,其莢膜多糖不宜作為疫苗,而主要的外膜蛋白PorA變異度大,免疫后只能引起毒株特異性保護(hù),不能預(yù)防所有MenB感染(見(jiàn)圖7-9)。這樣,MenB導(dǎo)致的流腦愈發(fā)常見(jiàn),已占美國(guó)流腦的1/3,歐洲流腦的45%-80%以上,成為嚴(yán)重的健康威脅。2000年,MenB-MC58株的全基因組測(cè)序完成[82],生物信息學(xué)方法立刻用于預(yù)測(cè)其基因,免疫信息學(xué)方法立刻用于預(yù)測(cè)、篩選保護(hù)性抗原[83],預(yù)測(cè)與實(shí)驗(yàn)相結(jié)合,很快確定了在外膜上含量相對(duì)較少、但更加保守的幾個(gè)保護(hù)性抗原如H因子結(jié)合蛋白(factor H-binding protein,FHBP)、奈瑟菌粘附素A(Neisseria adhesin A,NadA)及奈瑟菌肝素結(jié)合抗原(Neisseria heparin-binding antigen,NHBA)等。正是由于采用了這種計(jì)算加實(shí)驗(yàn)的轉(zhuǎn)化醫(yī)學(xué)策略,目前,MenB疫苗已在上市審批中[84]。
圖7-9 腦膜炎奈瑟菌B示意圖
5.在移植免疫中的應(yīng)用
人工神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)方法已經(jīng)用于移植免疫領(lǐng)域多年;例如,用于預(yù)測(cè)肝移植排斥、肝移植后他克莫司血藥濃度、輔助診斷腎移植超急排斥、評(píng)估腎移植并發(fā)癥、預(yù)測(cè)腎移植后巨細(xì)胞病毒感染、預(yù)測(cè)胰腺移植的預(yù)后等。器官移植,最重要的是HLA配型。然而,由于供者有限,在沒(méi)有完全匹配的情況下,如何從不完全匹配的供者選出最合適、最兼容的。美國(guó)匹茲堡大學(xué)醫(yī)學(xué)中心的Duquesnoy教授研究該問(wèn)題10余年,開(kāi)發(fā)了一系列基于EXCEL的宏程序HLAMatchmaker[85]。由于該程序要?jiǎng)?chuàng)建臨時(shí)文件并要反復(fù)地在EXCEL表格之間剪切粘貼,既費(fèi)時(shí)間又容易出錯(cuò),因此Filho等最近開(kāi)發(fā)了基于HLAMatchmaker的EpHLA程序,實(shí)現(xiàn)的分析過(guò)程的完全自動(dòng)化。[86]
6.在變態(tài)反應(yīng)防治中的應(yīng)用
民以食為天。然而,自古以來(lái)食物過(guò)敏(food allergy)就一直困擾著人類(lèi)。流傳于民間和傳統(tǒng)醫(yī)學(xué)中的“發(fā)物”之說(shuō)以及與之相關(guān)的種種飲食禁忌,在一定程度上反應(yīng)了人們對(duì)食物過(guò)敏的經(jīng)驗(yàn)認(rèn)識(shí)。現(xiàn)代醫(yī)學(xué)與免疫學(xué)研究表明,絕大多數(shù)食物過(guò)敏屬于IgE介導(dǎo)的I型變態(tài)反應(yīng),一般表現(xiàn)為哮喘、腹瀉、腹痛、蕁麻疹等;但嚴(yán)重的也可能出現(xiàn)危及生命的、與青霉素過(guò)敏反應(yīng)類(lèi)似的過(guò)敏性休克。流行病學(xué)調(diào)查的數(shù)據(jù)顯示,食物過(guò)敏在成年人中的發(fā)病率約為2 ~4%;而在兒童中則更高達(dá)8%;每年每100萬(wàn)人中,約32人發(fā)生嚴(yán)重甚至致命的食物過(guò)敏[87]。隨著轉(zhuǎn)基因農(nóng)作物的出現(xiàn)及其在食品工業(yè)中的廣泛應(yīng)用,公眾對(duì)食物過(guò)敏的擔(dān)憂(yōu)進(jìn)一步加深。了解、獲取食物過(guò)敏的相關(guān)信息已經(jīng)成為公眾的迫切需求。“新買(mǎi)的轉(zhuǎn)基因玉米會(huì)不會(huì)有更高的引起食物過(guò)敏的風(fēng)險(xiǎn)?”、“我吃豌豆過(guò)敏,那吃山里朋友送來(lái)的土特產(chǎn)小扁豆會(huì)不會(huì)也過(guò)敏呢?”人們自然而然會(huì)有諸如此類(lèi)的種種問(wèn)題。也就是說(shuō),公眾迫切需要一個(gè)與天氣預(yù)報(bào)與預(yù)警類(lèi)似的,使用方便、通俗易懂的食物過(guò)敏預(yù)測(cè)、預(yù)警與查詢(xún)系統(tǒng)。
由于食物過(guò)敏極為常見(jiàn),危害廣泛,且與公眾日常生活與健康息息相關(guān),美國(guó)、日本、歐盟國(guó)家及相關(guān)國(guó)際組織如世界衛(wèi)生組織(World Health Organization, WHO)、聯(lián)合國(guó)糧農(nóng)組織(Food and Agriculture Organization, FAO)一直非常重視食物過(guò)敏及其防治研究。現(xiàn)代醫(yī)學(xué)研究認(rèn)為,食物過(guò)敏主要由食物中一些特別的蛋白質(zhì)引起;這些引起過(guò)敏(變態(tài)反應(yīng))的蛋白質(zhì)在免疫學(xué)中被統(tǒng)稱(chēng)為變應(yīng)原(allergen)。目前,對(duì)食物過(guò)敏除了一些對(duì)癥治療外,并沒(méi)有根治措施。因此,避免接觸或攝入過(guò)敏食物,從而預(yù)防食物過(guò)敏的發(fā)生就至關(guān)重要了。臨床上,主要通過(guò)皮試和體外IgE檢測(cè)來(lái)診斷食物過(guò)敏。然而,臨床診斷用變應(yīng)原的種類(lèi)有限,而食物及其蛋白質(zhì)組成卻紛繁復(fù)雜。如何根據(jù)有限的實(shí)驗(yàn)結(jié)果,科學(xué)嚴(yán)謹(jǐn)?shù)赝茢嗟礁辔唇?jīng)實(shí)驗(yàn)檢測(cè)的食品(包括轉(zhuǎn)基因食品)中去,從而預(yù)測(cè)、預(yù)警其引起食物過(guò)敏的風(fēng)險(xiǎn),這已經(jīng)成為免疫信息學(xué)研究的一個(gè)前沿與熱點(diǎn)。
這主要體現(xiàn)在以下兩個(gè)方面:其一是1996年以來(lái),大量變應(yīng)原數(shù)據(jù)庫(kù)及IgE表位數(shù)據(jù)庫(kù)出現(xiàn);其二是食物過(guò)敏預(yù)測(cè)方法日趨成熟。目前,食物過(guò)敏的免疫信息學(xué)預(yù)測(cè)已經(jīng)發(fā)展出短肽匹配、序列比對(duì)、結(jié)構(gòu)比較等3種不同方法[88]。短肽匹配方法比較用戶(hù)提交的蛋白質(zhì)氨基酸序列與數(shù)據(jù)庫(kù)中所有已知過(guò)敏原有沒(méi)有8個(gè)連續(xù)相同氨基酸。如果有,則認(rèn)為該蛋白質(zhì)可能引起食物過(guò)敏。在美國(guó)、歐盟、日本,短肽匹配方法已經(jīng)廣泛用于轉(zhuǎn)基因植物的安全評(píng)估中。序列比對(duì)方法采用BLAST或FASTA程序,把用戶(hù)提交的蛋白質(zhì)氨基酸序列與數(shù)據(jù)庫(kù)中所有已知過(guò)敏原進(jìn)行序列相似性的兩兩比對(duì)。2001年,F(xiàn)AO/WHO專(zhuān)家組推薦,兩比對(duì)序列80個(gè)氨基酸殘基的序列節(jié)段內(nèi),如果35%以上的氨基酸殘基相同則預(yù)測(cè)該蛋白質(zhì)可能引起過(guò)敏反應(yīng)。新近的研究顯示,兩條比對(duì)好的序列中如有70%以上的氨基酸殘基相同,則幾乎肯定會(huì)有食物過(guò)敏的發(fā)生。例如,Sanchez-Monge等報(bào)道,對(duì)豌豆過(guò)敏的18位患者同時(shí)也都對(duì)小扁豆過(guò)敏[89]。豌豆中的過(guò)敏原主要是豌豆種子球蛋白(vicilin)和伴球蛋白(convicilin);而小扁豆的種子球蛋白與豌豆種子球蛋白有90%以上的氨基酸殘基相同,豌豆伴球蛋白與小扁豆伴球蛋白之間,相同氨基酸殘基超過(guò)70%。Beyer等報(bào)道[90],14位對(duì)榛子過(guò)敏的患者中,12位經(jīng)檢測(cè)有能與11S榛子球蛋白結(jié)合的IgE。同時(shí),這14位對(duì)榛子過(guò)敏的患者約有一半也對(duì)花生或核桃、巴西果、腰果、杏仁等過(guò)敏。這些堅(jiān)果的11S球蛋白序列有45%~55%的氨基酸殘基與榛子相同。本領(lǐng)域最新的研究思路是通過(guò)比較結(jié)構(gòu)進(jìn)行食物過(guò)敏預(yù)測(cè)。由于食物過(guò)敏主要由IgE介導(dǎo),而大多數(shù)IgE識(shí)別的是變應(yīng)原上的空間構(gòu)象性表位;同時(shí),大多數(shù)重要的變應(yīng)原都可歸結(jié)到少數(shù)幾個(gè)結(jié)構(gòu)家族,提示只要與已知變應(yīng)原具有相似空間結(jié)構(gòu),即使氨基酸序列相似性程度低,也可能形成相似的空間構(gòu)象性表位,并因此可能引發(fā)交叉的過(guò)敏反應(yīng)。2005年,在西班牙召開(kāi)了一場(chǎng)關(guān)于過(guò)敏預(yù)測(cè)方法的專(zhuān)題國(guó)際學(xué)術(shù)討論會(huì)。與會(huì)專(zhuān)家一致認(rèn)為,F(xiàn)AO/WHO專(zhuān)家組2001年推薦的雙測(cè)試中,6連續(xù)氨基酸短肽匹配方法假陽(yáng)性率高,不主張繼續(xù)采用。對(duì)序列比對(duì)方法中的同率閾值,與會(huì)專(zhuān)家存在分歧,主流意見(jiàn)認(rèn)為,F(xiàn)AO/WHO專(zhuān)家組2001年推薦的35%的閾值較為保守,但仍可在應(yīng)用中繼續(xù)檢驗(yàn)。此外,與會(huì)專(zhuān)家還一致看好結(jié)構(gòu)比較方法,但由于目前結(jié)構(gòu)數(shù)據(jù)仍然缺乏,同時(shí)還沒(méi)有與序列比對(duì)類(lèi)似的統(tǒng)一清晰的結(jié)構(gòu)相似性指標(biāo),結(jié)構(gòu)比較方法仍有待進(jìn)一步研究。
藥物過(guò)敏是另一種最為常見(jiàn)的變態(tài)反應(yīng)。最近,藥物過(guò)敏有突破性發(fā)現(xiàn)[91]。至少有部分藥物,如阿巴卡韋、卡馬西平等導(dǎo)致嚴(yán)重甚至是致命的IV變態(tài)反應(yīng),其機(jī)制完全不同于傳統(tǒng)觀點(diǎn)。現(xiàn)已確定,阿巴卡韋與卡馬西平能分別結(jié)合到HLA-B*57:01、HLA-B*15:02分子的抗原結(jié)合槽,從而使相應(yīng)分子遞呈抗原肽的特性發(fā)生改變,就仿佛用藥后機(jī)體有了一個(gè)新的HLA分子,從而導(dǎo)致具有該HLA等位基因的患者發(fā)生類(lèi)似器官移植不匹配的后果。今后,免疫信息學(xué)在預(yù)測(cè)藥物過(guò)敏方面必定大有所為。免疫信息學(xué)還能用到什么地方?未來(lái)總是超乎想象。
腳注
*諾華基金會(huì)是一個(gè)國(guó)際性的科學(xué)和教學(xué)慈善機(jī)構(gòu),它旨在促進(jìn)生物學(xué)、醫(yī)學(xué)和化學(xué)研究方面的合作。John Wiley從1986年起就是諾華基金會(huì)的出版商,出版了獨(dú)一無(wú)二的、受到業(yè)界高度尊重的諾華系列叢書(shū)。這些書(shū)籍包括諾華基金研討會(huì)的論文集,并且還匯編了主要科學(xué)家和學(xué)者演講后廣泛的鼓舞人心的討論和辯論。這些珍貴的資源涵蓋了20世紀(jì)后期所有關(guān)鍵的生物學(xué)發(fā)展,并且由國(guó)際知名的專(zhuān)家作為撰稿人,其中更包括很多諾貝爾獎(jiǎng)獲得者。生動(dòng)的辯論加上撰稿人的國(guó)際地位,為諾華基金研討會(huì)系列叢書(shū)贏得了在科學(xué)文獻(xiàn)方面獨(dú)一無(wú)二的尊貴地位。
#1971年Anthony Nolan出生并發(fā)現(xiàn)患有Wiskott-Aldrich綜合征,只能通過(guò)骨髓移植治療,但當(dāng)時(shí)沒(méi)有尋找除至親之外的供者系統(tǒng)。1973年,世界上第一例無(wú)親緣關(guān)系的配型與骨髓移植成功。居住在澳洲的安東尼媽媽雪莉.諾南(Shirley Nolan)看到了希望,不遠(yuǎn)千里回到英國(guó),呼吁國(guó)人踴躍驗(yàn)血,并于1975年催生了Anthony Nolan基金會(huì),建立了世界上第一個(gè)骨髓資料庫(kù)。可惜,安東尼.諾南沒(méi)有等到合適的供者,于1979年去世。1993年安東尼.諾南研究所建成;迄今已有職員171位,登記的供者已超過(guò)40萬(wàn)份。
參考文獻(xiàn)
Orosz CG: An introduction to immuno-ecology and immuno-informatics. In: Design Principles for the Immune System and Other Distributed Autonomous Systems. Edited by Segel LA, Cohen IR: Oxford University Press; 2001: 125–149.
Orosz CG: The case for immuno-informatics. Graft 2002, 5(8):462-465.
Segel LA: Controlling the immune system: Diffuse feedback via a diffuse informational network. In: Complexity in biological information processing: Novartis Foundation Symposium 239. Edited by Bock GR, Goode JA: John Wiley & Sons; 2001: 31–44.
Petrovsky N, Schonbach C, Brusic V: Bioinformatic strategies for better understanding of immune function. In Silico Biol 2003, 3(4):411-416.
Rammensee HG: Immunoinformatics: bioinformatic strategies for better understanding of immune function. Introduction. Novartis Found Symp 2003, 254:1-2.
Hart E, Timmis J: Application areas of AIS: The past, the present and the future. Applied Soft Computing 2008, 8(1):191-201.
Timmis J: Artificial immune systems-today and tomorrow. Natural Computing 2007, 6(1):1-18.
Flower DR, McSparron H, Blythe MJ, Zygouri C, Taylor D, Guan P, Wan S, Coveney PV, Walshe V, Borrow P et al: Computational vaccinology: quantitative approaches. Novartis Found Symp 2003, 254:102-120; discussion 120-105, 216-122, 250-102.
Pinheiro CS, Martins VP, Assis NR, Figueiredo BC, Morais SB, Azevedo V, Oliveira SC: Computational vaccinology: an important strategy to discover new potential S. mansoni vaccine candidates. J Biomed Biotechnol 2011, 2011:503068.
Rappuoli R, Covacci A: Reverse vaccinology and genomics. Science 2003, 302(5645):602.
Jones D: Reverse vaccinology on the cusp. Nat Rev Drug Discov 2012, 11(3):175-176.
Hagmann M: Computers aid vaccine design. Science 2000, 290(5489):80-82.
Kuroda D, Shirai H, Jacobson MP, Nakamura H: Computer-aided antibody design. Protein Eng Des Sel 2012:in press.
Tomar N, De RK: Immunoinformatics: an integrated scenario. Immunology 2010, 131(2):153-168.
Benson DA, Karsch-Mizrachi I, Clark K, Lipman DJ, Ostell J, Sayers EW: GenBank. Nucleic Acids Res 2012, 40(Database issue):D48-53.
UniProtConsortium: Ongoing and future developments at the Universal Protein Resource. Nucleic Acids Res 2011, 39(Database issue):D214-219.
Madej T, Addess KJ, Fong JH, Geer LY, Geer RC, Lanczycki CJ, Liu C, Lu S, Marchler-Bauer A, Panchenko AR et al: MMDB: 3D structures and macromolecular interactions. Nucleic Acids Res 2012, 40(Database issue):D461-464.
Kanehisa M, Goto S, Sato Y, Furumichi M, Tanabe M: KEGG for integration and interpretation of large-scale molecular data sets. Nucleic Acids Res 2012, 40(Database issue):D109-114.
Lefranc MP, Giudicelli V, Ginestoux C, Jabado-Michaloud J, Folch G, Bellahcene F, Wu Y, Gemrot E, Brochet X, Lane J et al: IMGT, the international ImMunoGeneTics information system. Nucleic Acids Res 2009, 37(Database issue):D1006-1012.
Salimi N, Fleri W, Peters B, Sette A: The Immune Epitope Database: A Historical Retrospective of the First Decade. Immunology 2012:in press.
Kim Y, Ponomarenko J, Zhu Z, Tamang D, Wang P, Greenbaum J, Lundegaard C, Sette A, Lund O, Bourne PE et al: Immune epitope database analysis resource. Nucleic Acids Res 2012, 40(Web Server issue):W525-530.
Robinson J, Mistry K, McWilliam H, Lopez R, Marsh SG: IPD--the Immuno Polymorphism Database. Nucleic Acids Res 2010, 38(Database issue):D863-869.
Johnson G, Wu TT: Kabat Database and its applications: future directions. Nucleic Acids Res 2001, 29(1):205-206.
Rammensee H, Bachmann J, Emmerich NP, Bachor OA, Stevanovic S: SYFPEITHI: database for MHC ligands and peptide motifs. Immunogenetics 1999, 50(3-4):213-219.
Singh MK, Srivastava S, Raghava GP, Varshney GC: HaptenDB: a comprehensive database of haptens, carrier proteins and anti-hapten antibodies. Bioinformatics 2006, 22(2):253-255.
Sayers S, Ulysse G, Xiang Z, He Y: Vaxjo: a web-based vaccine adjuvant database and its application for analysis of vaccine adjuvants and their uses in vaccine development. J Biomed Biotechnol 2012, 2012:831486.
Saha S, Bhasin M, Raghava GP: Bcipep: a database of B-cell epitopes. BMC Genomics 2005, 6:79.
Huang J, Honda W: CED: a conformational epitope database. BMC Immunol 2006, 7:7.
Yang B, Sayers S, Xiang Z, He Y: Protegen: a web-based protective antigen database and analysis system. Nucleic Acids Res 2011, 39(Database issue):D1073-1078.
Jongeneel V: Towards a cancer immunome database. Cancer Immun 2001, 1:3.
Zhang ZH, Tan SC, Koh JL, Falus A, Brusic V: ALLERDB database and integrated bioinformatic tools for assessment of allergenicity and allergic cross-reactivity. Cell Immunol 2006, 244(2):90-96.
Mills EN, Valovirta E, Madsen C, Taylor SL, Vieths S, Anklam E, Baumgartner S, Koch P, Crevel RW, Frewer L: Information provision for allergic consumers--where are we going with food allergen labelling? Allergy 2004, 59(12):1262-1268.
Mills EN, Jenkins JA, Sancho AI, Miles S, Madsen C, Valovirta E, Frewer L: Food allergy information resources for consumers, industry and regulators. Arb Paul Ehrlich Inst Bundesamt Sera Impfstoffe Frankf A M 2006(95):17-25; discussion 25-17.
Ivanciuc O, Schein CH, Braun W: SDAP: database and computational tools for allergenic proteins. Nucleic Acids Res 2003, 31(1):359-362.
Allcorn LC, Martin AC: SACS--self-maintaining database of antibody crystal structure information. Bioinformatics 2002, 18(1):175-181.
Huang J, Kawashima S, Kanehisa M: New amino acid indices based on residue network topology. Genome Inform 2007, 18:152-161.
Huang J, Honda W, Kanehisa M: Predicting B cell epitope residues with network topology based amino acid indices. Genome Inform 2007, 19:40-49.
Larsen JE, Lund O, Nielsen M: Improved method for predicting linear B-cell epitopes. Immunome Res 2006, 2:2.
Zhang W, Xiong Y, Zhao M, Zou H, Ye X, Liu J: Prediction of conformational B-cell epitopes from 3D structures by random forests with a distance-based feature. BMC Bioinformatics 2011, 12:341.
Kulkarni-Kale U, Bhosle S, Kolaskar AS: CEP: a conformational epitope prediction server. Nucleic Acids Res 2005, 33(Web Server issue):W168-171.
Haste Andersen P, Nielsen M, Lund O: Prediction of residues in discontinuous B-cell epitopes using protein 3D structures. Protein Sci 2006, 15(11):2558-2567.
Sun J, Wu D, Xu T, Wang X, Xu X, Tao L, Li YX, Cao ZW: SEPPA: a computational server for spatial epitope prediction of protein antigens. Nucleic Acids Res 2009, 37(Web Server issue):W612-616.
Hu X, Zhou W, Udaka K, Mamitsuka H, Zhu S: MetaMHC: a meta approach to predict peptides binding to MHC molecules. Nucleic Acids Res 2010, 38(Web Server issue):W474-479.
Zhang GL, Ansari HR, Bradley P, Cawley GC, Hertz T, Hu X, Jojic N, Kim Y, Kohlbacher O, Lund O et al: Machine learning competition in immunology - Prediction of HLA class I binding peptides. J Immunol Methods 2011, 374(1-2):1-4.
Smith GP: Filamentous fusion phage: novel expression vectors that display cloned antigens on the virion surface. Science 1985, 228(4705):1315-1317.
Devlin JJ, Panganiban LC, Devlin PE: Random peptide libraries: a source of specific protein binding molecules. Science 1990, 249(4967):404-406.
Smith GP, Petrenko VA: Phage Display. Chem Rev 1997, 97(2):391-410.
Huang J, Gutteridge A, Honda W, Kanehisa M: MIMOX: a web tool for phage display based epitope mapping. BMC Bioinformatics 2006, 7:451.
Huang J, Ru B, Dai P: Prediction of protein interaction sites using mimotope analysis. In: Protein-Protein Interactions - Computational and Experimental Tools. Edited by Cai W: InTech; 2012: 189-206.
Tong AH, Drees B, Nardelli G, Bader GD, Brannetti B, Castagnoli L, Evangelista M, Ferracuti S, Nelson B, Paoluzi S et al: A combined experimental and computational strategy to define protein interaction networks for peptide recognition modules. Science 2002, 295(5553):321-324.
Thom G, Cockroft AC, Buchanan AG, Candotti CJ, Cohen ES, Lowne D, Monk P, Shorrock-Hart CP, Jermutus L, Minter RR: Probing a protein-protein interaction by in vitro evolution. Proc Natl Acad Sci U S A 2006, 103(20):7619-7624.
Pasqualini R, Ruoslahti E: Organ targeting in vivo using phage display peptide libraries. Nature 1996, 380(6572):364-366.
Hsiung PL, Hardy J, Friedland S, Soetikno R, Du CB, Wu AP, Sahbaie P, Crawford JM, Lowe AW, Contag CH et al: Detection of colonic dysplasia in vivo using a targeted heptapeptide and confocal microendoscopy. Nat Med 2008, 14(4):454-458.
Macdougall IC, Rossert J, Casadevall N, Stead RB, Duliege AM, Froissart M, Eckardt KU: A peptide-based erythropoietin-receptor agonist for pure red-cell aplasia. N Engl J Med 2009, 361(19):1848-1855.
Knittelfelder R, Riemer AB, Jensen-Jarolim E: Mimotope vaccination--from allergy to cancer. Expert Opin Biol Ther 2009, 9(4):493-506.
Lee YJ, Yi H, Kim WJ, Kang K, Yun DS, Strano MS, Ceder G, Belcher AM: Fabricating genetically engineered high-power lithium-ion batteries using multiple virus genes. Science 2009, 324(5930):1051-1055.
Nam YS, Magyar AP, Lee D, Kim JW, Yun DS, Park H, Pollom TS, Jr., Weitz DA, Belcher AM: Biologically templated photocatalytic nanostructures for sustained light-driven water oxidation. Nat Nanotechnol 2010, 5(5):340-344.
Smothers JF, Henikoff S, Carter P: Affinity selection from biological libraries. Science 2002, 298(5593):621-622.
Menendez A, Scott JK: The nature of target-unrelated peptides recovered in the screening of phage-displayed random peptide libraries with antibodies. Anal Biochem 2005, 336(2):145-157.
Vodnik M, Zager U, Strukelj B, Lunder M: Phage display: selecting straws instead of a needle from a haystack. Molecules 2011, 16(1):790-817.
Thomas WD, Golomb M, Smith GP: Corruption of phage display libraries by target-unrelated clones: diagnosis and countermeasures. Anal Biochem 2010, 407(2):237-240.
Brammer LA, Bolduc B, Kass JL, Felice KM, Noren CJ, Hall MF: A target-unrelated peptide in an M13 phage display library traced to an advantageous mutation in the gene II ribosome-binding site. Anal Biochem 2008, 373(1):88-98.
Derda R, Tang SK, Li SC, Ng S, Matochko W, Jafari MR: Diversity of Phage-Displayed Libraries of Peptides during Panning and Amplification. Molecules 2011, 16(2):1776-1803.
Ru B, Huang J, Dai P, Li S, Xia Z, Ding H, Lin H, Guo F, Wang X: MimoDB: a New Repository for Mimotope Data Derived from Phage Display Technology. Molecules 2010, 15(11):8279-8288.
Huang J, Ru B, Zhu P, Nie F, Yang J, Wang X, Dai P, Lin H, Guo FB, Rao N: MimoDB 2.0: a mimotope database and beyond. Nucleic Acids Res 2012, 40(Database issue):D271-277.
Huang J, Ru B, Dai P: Bioinformatics resources and tools for phage display. Molecules 2011, 16(1):694-709.
Mandava S, Makowski L, Devarapalli S, Uzubell J, Rodi DJ: RELIC--a bioinformatics server for combinatorial peptide analysis and identification of protein-ligand interaction sites. Proteomics 2004, 4(5):1439-1460.
Huang J, Ru B, Li S, Lin H, Guo FB: SAROTUP: scanner and reporter of target-unrelated peptides. J Biomed Biotechnol 2010, 2010:101932.
Abhinandan KR, Martin AC: Analysis and improvements to Kabat and structurally correct numbering of antibody variable domains. Mol Immunol 2008, 45(14):3832-3839.
Deret S, Maissiat C, Aucouturier P, Chomilier J: SUBIM: a program for analysing the Kabat database and determining the variability subgroup of a new immunoglobulin sequence. Comput Appl Biosci 1995, 11(4):435-439.
Martin AC: Accessing the Kabat antibody sequence database by computer. Proteins 1996, 25(1):130-133.
Abhinandan KR, Martin AC: Analyzing the "degree of humanness" of antibody sequences. J Mol Biol 2007, 369(3):852-862.
Abhinandan KR, Martin AC: Analysis and prediction of VH/VL packing in antibodies. Protein Eng Des Sel 2010, 23(9):689-697.
Whitelegg NR, Rees AR: WAM: an improved algorithm for modelling antibodies on the WEB. Protein Eng 2000, 13(12):819-824.
Arnold K, Bordoli L, Kopp J, Schwede T: The SWISS-MODEL workspace: a web-based environment for protein structure homology modelling. Bioinformatics 2006, 22(2):195-201.
Marcatili P, Rosi A, Tramontano A: PIGS: automatic prediction of antibody structures. Bioinformatics 2008, 24(17):1953-1954.
Sircar A, Kim ET, Gray JJ: RosettaAntibody: antibody variable region homology modeling server. Nucleic Acids Res 2009, 37(Web Server issue):W474-479.
Tseng YY, Dupree C, Chen ZJ, Li WH: SplitPocket: identification of protein functional surfaces and characterization of their spatial patterns. Nucleic Acids Res 2009, 37(Web Server issue):W384-389.
Liang J, Edelsbrunner H, Woodward C: Anatomy of protein pockets and cavities: measurement of binding site geometry and implications for ligand design. Protein Sci 1998, 7(9):1884-1897.
Xiang Z, Todd T, Ku KP, Kovacic BL, Larson CB, Chen F, Hodges AP, Tian Y, Olenzek EA, Zhao B et al: VIOLIN: vaccine investigation and online information network. Nucleic Acids Res 2008, 36(Database issue):D923-928.
He Y, Xiang Z, Mobley HL: Vaxign: the first web-based vaccine design program for reverse vaccinology and applications for vaccine development. J Biomed Biotechnol 2010, 2010:297505.
Tettelin H, Saunders NJ, Heidelberg J, Jeffries AC, Nelson KE, Eisen JA, Ketchum KA, Hood DW, Peden JF, Dodson RJ et al: Complete genome sequence of Neisseria meningitidis serogroup B strain MC58. Science 2000, 287(5459):1809-1815.
Pizza M, Scarlato V, Masignani V, Giuliani MM, Arico B, Comanducci M, Jennings GT, Baldi L, Bartolini E, Capecchi B et al: Identification of vaccine candidates against serogroup B meningococcus by whole-genome sequencing. Science 2000, 287(5459):1816-1820.
Black S, Pizza M, Nissum M, Rappuoli R: Toward a meningitis-free world. Sci Transl Med 2012, 4(123):123ps125.
Duquesnoy RJ: Antibody-reactive epitope determination with HLAMatchmaker and its clinical applications. Tissue Antigens 2011, 77(6):525-534.
Filho HL, da Mata Sousa LC, von Glehn Cde Q, da Silva AS, dos Santos Neto Pde A, do Nascimento F, de Castro AF, do Nascimento LM, Kneib C, Bianchi Cazarote H et al: EpHLA software: a timesaving and accurate tool for improving identification of acceptable mismatches for clinical purposes. Transpl Immunol 2012, 26(4):230-234.
Gibson J: Bioinformatics of protein allergenicity. Mol Nutr Food Res 2006, 50(7):591.
Goodman RE: Practical and predictive bioinformatics methods for the identification of potentially cross-reactive protein matches. Mol Nutr Food Res 2006, 50(7):655-660.
Sanchez-Monge R, Lopez-Torrejon G, Pascual CY, Varela J, Martin-Esteban M, Salcedo G: Vicilin and convicilin are potential major allergens from pea. Clin Exp Allergy 2004, 34(11):1747-1753.
Beyer K, Grishina G, Bardina L, Grishin A, Sampson HA: Identification of an 11S globulin as a major hazelnut food allergen in hazelnut-induced systemic reactions. J Allergy Clin Immunol 2002, 110(3):517-523.
Illing PT, Vivian JP, Dudek NL, Kostenko L, Chen Z, Bharadwaj M, Miles JJ, Kjer-Nielsen L, Gras S, Williamson NA et al: Immune self-reactivity triggered by drug-modified HLA-peptide repertoire. Nature 2012, 486(7404):554-558.
總結(jié)
- 上一篇: ansible系列3-pyYAML
- 下一篇: 建行信用卡装修贷款申请条件有哪些?你是否