近日,美國華盛頓大學(xué)和英國DeepMind公司分別公布了多年工作的成果:先進(jìn)的建模程序,可以預(yù)測蛋白質(zhì)和一些分子復(fù)合物的精確三維原子結(jié)構(gòu)。其中一個研究小組報告說,他們已經(jīng)使用最新開發(fā)的人工智能(AI)程序預(yù)測了來自人類和20種模式生物的35萬種蛋白質(zhì)結(jié)構(gòu)——如大腸桿菌、酵母和果蠅。未來幾個月里,他們計劃將所有已編目的蛋白質(zhì)列入模型蛋白質(zhì)名單,大約有1億個分子。
“這是相當(dāng)驚人的。”美國馬里蘭大學(xué)蛋白質(zhì)專家John Moult說,他每兩年舉辦一次名為“關(guān)鍵的蛋白質(zhì)結(jié)構(gòu)預(yù)測方法”(CASP)的比賽。Moult表示,幾十年來,結(jié)構(gòu)生物學(xué)家一直夢想有一天,計算機(jī)模型能增加從X射線晶體學(xué)等實(shí)驗(yàn)方法中獲得的極精確蛋白質(zhì)形狀的數(shù)量。“我從沒想過這個夢想會成真。”Moult說。
這一名為AlphaFold的模型是DeepMind公司研究人員的成果,DeepMind是一家隸屬于谷歌母公司Alphabet的英國AI公司。2020年,AlphaFold“橫掃”了CASP。但是DeepMind研究人員沒有透露繪制蛋白質(zhì)形狀的理論細(xì)節(jié),特別是AlphaFold的底層計算機(jī)代碼。
這種情況已開始改變。7月15日,華盛頓大學(xué)的Minkyung Baek和David Baker研究小組報告說,他們創(chuàng)建了一個名為RoseTTAFold的高度精確的蛋白質(zhì)結(jié)構(gòu)預(yù)測程序,并公開發(fā)布了該程序。相關(guān)成果在線發(fā)表于《科學(xué)》。與此同時,《自然》發(fā)表了一篇由DeepMind研究人員Demis Hassabis和John Jumper撰寫的論文,公布了AlphaFold的細(xì)節(jié)。
兩個程序都使用AI在龐大的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫中識別折疊模式。這些程序通過考慮蛋白質(zhì)中相鄰氨基酸相互作用的基本物理和生物學(xué)規(guī)則,計算出未知蛋白質(zhì)最可能的結(jié)構(gòu)。論文顯示,Baek和Baker使用RoseTTAFold創(chuàng)建了一個包含數(shù)百個G蛋白偶聯(lián)受體(一類常見的藥物靶點(diǎn))的結(jié)構(gòu)數(shù)據(jù)庫。
而DeepMind研究人員創(chuàng)造了35萬個預(yù)測結(jié)構(gòu),是以前實(shí)驗(yàn)方法得到的結(jié)果的兩倍多。研究人員表示,AlphaFold產(chǎn)生了近44%的人類蛋白質(zhì)結(jié)構(gòu),涵蓋了人類基因組編碼的近60%的氨基酸。AlphaFold確定許多其他人類蛋白質(zhì)是“無序的”,這意味著它們的形狀不是單一結(jié)構(gòu)。
此外,DeepMind與歐洲分子生物學(xué)實(shí)驗(yàn)室合作共建了一個新的蛋白質(zhì)預(yù)測數(shù)據(jù)庫,可以在網(wǎng)上免費(fèi)訪問。“能提供這種服務(wù)真是太棒了。” Baker說,“這真的會加快研究步伐。”因?yàn)榈鞍踪|(zhì)的3D結(jié)構(gòu)在很大程度上決定了它的功能,所以這一數(shù)據(jù)庫便于生物學(xué)家厘清數(shù)千種未知蛋白質(zhì)是如何工作的。