|
顛覆生命科學!AlphaFold預測完整人類蛋白質組結構神經網絡AlphaFold的“顛覆性”數(shù)據庫預測出了智人和20種模式生物的逾35萬個結構。 人類基因組攜帶了逾2萬個蛋白質的指令,但只有約1/3蛋白質的三維結構通過實驗方法得到了解析,很多時候,這些蛋白質的結構只確定了其中一部分。 人類中介體復合物一直是結構生物學家難以理解的一種多蛋白系統(tǒng)。來源:Yuan He 現(xiàn)在,一種名為AlphaFold的人工智能(AI)工具改變了現(xiàn)狀。這款工具由位于倫敦的谷歌姐妹公司DeepMind開發(fā),其預測的結構幾乎覆蓋了完整的人類蛋白質組(蛋白質組是一個生物表達的全部蛋白質)。除此之外,AlphaFold還預測了許多其他生物的幾乎整個蛋白質組——從小鼠到玉米再到瘧原蟲(見“折疊選項”)。 這次預測的逾35萬個蛋白質結構保存在一個公用數(shù)據庫中,規(guī)模將在年底擴大到1.3億個。雖然這些預測的準確度有高有低,但研究人員認為這些數(shù)據或為生命科學領域帶來翻天覆地的變化。 來源:EMBL–EBI和https://swissmodel.expasy.org/repository “在我看來,這絕對是顛覆性的成果!绷私馑械鞍踪|的結構能讓你弄清楚它們的機理!眰惗卮髮W學院(UCL)的計算生物學家Christine Orengo說。 “這是迄今為止AI在推動科學進步方面做出的最大貢獻。我覺得這么說一點兒也不夸張。”DeepMind聯(lián)合創(chuàng)始人、首席執(zhí)行官Demis Hassabis說。 但研究人員強調說,這個數(shù)據泵只是一個開始,而不是結束。他們希望接下來能驗證這些預測,更重要的是,將這些預測應用到目前尚無法實現(xiàn)的實驗中!皳碛羞@個體量的數(shù)據是了不起的第一步!眰惗卮髮W學院計算生物學家David Jones說。Jones曾為AlphaFold的上一次迭代擔任顧問。 獲獎預測 去年,DeepMind在生命科學領域一鳴驚人——它的最新版AlphaFold在兩年一度的蛋白質預測大賽CASP(蛋白質結構預測關鍵評估)中所向披靡。這個已舉辦多屆的賽事向來是學術人員的競技場,比賽要求參賽團隊對已經通過實驗解析但尚未公布的蛋白質結構進行預測。 AlphaFold的一些預測結果與準確度很高的實驗模型相當,這讓一些研究人員感嘆AlphaFold將帶來劃時代的影響力。上上周,DeepMind發(fā)布了最新版AlphaFold的源代碼,以及對其開發(fā)過程的詳細闡述[1](許多學術團隊已經開始利用這些資源進行重要預測)。在公開AlphaFold代碼的準備工作中,DeepMind還對其做了優(yōu)化,讓代碼運行起來更高效。CASP比賽中的一些結構曾讓AlphaFold花了好幾天的時間進行計算,但最新的AlphaFold只要幾分鐘到幾小時就能完成計算。 效率的提升讓DeepMind團隊可以預測由人類基因組編碼和20個模式生物的幾乎所有已知蛋白。這些結構數(shù)據儲存在英國EMBL-EBI(歐洲分子生物學實驗室歐洲生物信息研究所)托管的一個數(shù)據庫中。 AlphaFold預測的結構覆蓋了98.5%的已知人類蛋白和其他生物的同比例蛋白,除此之外,AlphaFold還能評估其預測結果的可信度。DeepMind的工程師Kathryn Tunyasuvunakool說:“我們想讓實驗人員和生物學家清楚地知道,哪些預測部分是可信的!盩unyasuvunakool是DeepMind發(fā)表在《自然》的描述蛋白質組預測論文的第一作者[2]。以人類蛋白質組為例,AlphaFold對58%的單個氨基酸位置的預測準確度足夠高,可以用來判斷蛋白質折疊形狀,Tunyasuvunakool說。其中一部分預測——占整體的36%——的潛在準確度較高,或能揭示對藥物設計有用的詳細原子特征,比如酶的激活位點。 即使準確度稍低的預測結果也能帶來重要信息。生物學家認為一大部分人類蛋白質和其他真核生物(細胞有細胞核的生物)的蛋白質擁有一些固有無序的區(qū)域,只是為了配合其他分子才形成了一些明確的結構。AlphaFold首席研究員John Jumper說:“許多蛋白質在溶液里扭來扭去,沒有固定的結構!盇lphaFold預測的一些可信度不高的區(qū)域正好是生物學家認為無序的區(qū)域,DeepMind科學AI主管Pushmeet Kohli說。 研究人員認為,確定單個蛋白質如何與其他細胞組分相互作用是AlphaFold面臨的最大難題之一。CASP大賽要求預測的大部分結構都是一個蛋白的獨立折疊單元,也稱為結構域。而人類蛋白質組和其他微生物蛋白質組的一些蛋白有多個半獨立折疊的結構域。人類細胞還含有多個互作蛋白鏈組成的分子,比如細胞膜上的受體。 數(shù)據洪流 到今年年底,上周儲存的約36.5萬個預測結構將擴充至1.3億個,這個數(shù)量接近人類已知蛋白總量的一半,EMBL-EBI的結構生物信息學家Sameer Velankar說。隨著新蛋白的發(fā)現(xiàn)和預測能力的提高,這個數(shù)據庫還會一直更新。Tunyasuvunakool說:“你本來不會相信有朝一日能獲得這樣的資源庫!彼惹邢胫姥芯咳藛T會帶來哪些洞察。 研究人員已經在利用AlphaFold和相關工具理解來自X射線晶體學和冷凍電鏡的實驗數(shù)據?屏_拉多大學博爾德分校生物化學家Marcelo Sousa利用AlphaFold和細菌用來逃避抗生素黏菌素的蛋白質X射線數(shù)據來制作模型。實驗模型中與AlphaFold預測結果不同的部分一般也是AlphaFold認為可信度不高的區(qū)域,Sousa認為這顯示出AlphaFold能準確預測自己的極限。 不過,生物學家仍想將這些預測結果對照實驗數(shù)據,從而對預測可靠性更有把握,英國MRC分子生物學實驗室的結構生物學家Venki Ramakrishnan說!拔覀冃枰軌蛐湃芜@些數(shù)據。”O(jiān)rengo解釋道。 Jones對AlphaFold的能力印象深刻。但他認為AlphaFold預測的許多模型使用學界之前開發(fā)的軟件也能計算出來。“之前軟件給出的結果對于大部分蛋白質來說可能已經夠好了,完全能夠勝任一些研究工作!蹦切┫露Q心一定要得到某些蛋白結構的研究人員利用實驗方法或許也能成功。 不過,一下子多了這么多蛋白質結構,很可能會帶來生物學的“范式轉移”,美國哥倫比亞大學從事蛋白質結構預測的計算生物學家Mohammed AlQuraishi說。為了準確預測如此體量的蛋白質結構,他的領域付出了大量時間和精力,目前還沒想好怎么利用這些資源。“之前用蛋白質序列做的研究,現(xiàn)在可以用蛋白質結構來做了! Orengo希望這個數(shù)據庫能幫她更好地理解蛋白質結構約束。她將一個已知蛋白質的數(shù)據庫繪制成了5000個“結構家族”,但數(shù)據庫中約一半的蛋白質只能被排除在外,因為這些蛋白無法在已經確定的結構中找到類似物。AlphaFold的預測結果或能揭示一些新結構,她說,“我們這下可以看到折疊空間的真面目了! Jones預計AlphaFold會讓許多生物學家思考要怎樣利用這么多結構和可以輕松得到的更多結構。他說:“今后會有很多學術會議。我們現(xiàn)在有1.3億個模型了,這會如何改變我們對生物學的認知?可能不會有改變,但我覺得會。” 參考文獻: 1. Jumper, J. et al. Nature https://doi.org/10.1038/s41586-021-03819-2 (2021). 2. Tunyasuvunakool, K. et al. Nature https://doi.org/10.1038/s41586-021-03828-1 (2021). 原文以DeepMind’s AI predicts structures for a vast trove of proteins標題發(fā)表在2021年7月22日的《自然》的新聞版塊上 |