亚洲欧美日韩国产综合一区二区_亚洲偷精品国产五月丁香麻豆_精品久久久久久中文字幕202_久久国产亚洲精品美女_国产精品调教视频一区

結(jié)構(gòu)生物學未來開啟 對結(jié)構(gòu)生物學的研究范式產(chǎn)生重大影響

2021-08-19 10:32:57

近日,谷歌旗下DeepMind團隊一周之內(nèi)搞了兩件“大事情”。而華盛頓大學戴維·貝克團隊的羅塞塔折疊(RosettaFold)也搭載阿爾法折疊(AlphaFold2)的便車風光了一把。

這兩款智能程序相繼開源昭示著,智能程序正在開啟結(jié)構(gòu)生物學的新未來。

大事情

幾天前,DeepMind團隊在《自然》發(fā)表文章,公布了第十四屆國際蛋白質(zhì)結(jié)構(gòu)預測大賽(CASP14)中奪冠的AlphaFold2的源代碼。

同一天,華盛頓大學蛋白質(zhì)設(shè)計研究所戴維·貝克團隊在《科學》刊文,推出一款名為 RosettaFold 的人工智能程序。該程序基于深度學習,能根據(jù)有限的信息快速、準確地預測出目標蛋白質(zhì)的結(jié)構(gòu),“達到與 AlphaFold2 不相上下的準確度”。

2020年5月至7月,在CASP14上,AlphaFold2以排名第一的準確性轟動一時。一時間,AlphaFold 2“顛覆”“革命性突破”“諾獎級成果”等美譽加身。

很多結(jié)構(gòu)生物學家還未完全從AlphaFold2開源和RosettaFold誕生帶來的震撼中回過神來。7月22日,DeepMind團隊和歐洲生物信息學研究所(EMBL-EBI)聯(lián)合在《自然》發(fā)表論文,公開AlphaFold2預測的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(AlphaFold DB)。初始的AlphaFold DB涵蓋了屬于人類以及其他20個重要物種的大多數(shù)具有較大價值的蛋白質(zhì), 包含超過35萬個不同的蛋白結(jié)構(gòu),最終將增加到約1.3億個三維結(jié)構(gòu)。

“這會讓結(jié)構(gòu)生物學乃至整個生命科學上個大臺階。”清華大學結(jié)構(gòu)生物學高精尖創(chuàng)新中心執(zhí)行主任王宏偉對《中國科學報》說,“原來大家要用很多實驗手段去解析單鏈蛋白質(zhì)的結(jié)構(gòu),現(xiàn)在由于高水平結(jié)構(gòu)預測軟件的出現(xiàn),對單鏈蛋白質(zhì)實驗解析的需求可能沒以前那么高了。但另一方面,對多個蛋白質(zhì)或核酸分子形成的復合體進行結(jié)構(gòu)解析的迫切性會更強,所以對冷凍電鏡的技術(shù)需求量會更大。”

王宏偉認為,這兩款軟件的開源預示著結(jié)構(gòu)生物學進入新時代,“未來結(jié)構(gòu)生物學的研究對象和研究方式上都會發(fā)生較大變化,這實際上是給整個結(jié)構(gòu)生物學領(lǐng)域的升級帶來了新的機會”。

“我們已經(jīng)買新電腦了。”北京大學生命科學學院教授孔道春告訴《中國科學報》。

這兩款軟件開源后,孔道春團隊就迅速配備了顯卡更好的電腦。

“我已經(jīng)讓學生用起來了。”孔道春說,“利用傳統(tǒng)實驗方法解析蛋白結(jié)構(gòu)需要跨越諸多障礙,不僅耗時、費力,還不一定能解析出來。與核磁共振、X射線晶體或冷凍電鏡等類似,這些軟件是新的、革命性的工具,將極大推動人們對蛋白質(zhì)/酶的結(jié)構(gòu)和生化作用機理的理解,將對生命科學、醫(yī)藥研究起到極大推動作用,甚至會大大加速人類文明的進程。”

“本尊”和“復現(xiàn)者”

“這兩款軟件的基本原理都是利用神經(jīng)網(wǎng)絡(luò),依托現(xiàn)有的大數(shù)據(jù)進行訓練,當然也包括很多專業(yè)的算法,把這幾方面整合到一起,應該說是現(xiàn)在蛋白質(zhì)結(jié)構(gòu)預測精確度最高的兩款軟件。”王宏偉說。

“兩個軟件各有所長,各有自己的特點。”中國科學院大學人工智能學院教授、中國科學院自動化研究所模式識別國家重點實驗室研究員楊戈對《中國科學報》說,“可以從三個方面對它們進行比較。”

一是準確度。兩者相較而言,AlphaFold2的準確度更高。AlphaFold2預測蛋白質(zhì)結(jié)構(gòu)的精度已經(jīng)達到埃(長度單位,1埃相當0.1納米)級,這是它的最大優(yōu)勢。

二是預測蛋白的復雜程度。這點RosettaFold略勝一籌。AlphaFold2只能預測單個蛋白質(zhì),即一個氨基酸鏈的蛋白,而RosettaFold可以預測蛋白質(zhì)復合體,即兩個乃至數(shù)個有相互作用的蛋白質(zhì)。

三是對計算資源的要求方面,AlphaFold2的要求較高。“AlphaFold2在模型訓練階段對計算資源的要求一般計算中心才能滿足,普通的實驗室不大可能使用。”而RosettaFold的要求通常單個實驗室就能滿足,“具備稍好一些的計算機系統(tǒng)就可以‘跑’起來”。

清華大學結(jié)構(gòu)生物學高精尖創(chuàng)新中心研究員龔海鵬介紹說,AlphaFold的第一版和RosettaFold之前的版本,包括其他團隊的思路都差不多,比如,先預測氨基酸殘基之間的距離,通過一些圖像識別算法識別,然后再去折疊蛋白。

“那時候雖然大家的調(diào)參能力不同,但相互之間沒有本質(zhì)的區(qū)別。”龔海鵬說,“但AlphaFold2采用了全新的架構(gòu),從去年參加CASP14開始就嶄露頭角。”

2020年12月,AlphaFold2的主要研發(fā)者John Jumper作了一次報告,簡單介紹了一下他們的思路,但很多細節(jié)并沒有披露出來。

“因為AlphaFold2的準確率非常高,當時幾乎所有研究組都想知道他們是怎么做的,有很多人想去復現(xiàn)它。RosettaFold是過去幾個月里復現(xiàn)得比較快的,也是復現(xiàn)得最好的,他們根據(jù)AlphaFold2釋放出來的一些信息,相當于做了一個簡化版本。”龔海鵬說,“很多研究組都進行過測試,我覺得在預測精度和準確程度上,RosettaFold離AlphaFold2還有一定的距離,其效果并沒有宣稱的那樣好。”

這兩款軟件開源完全版后,龔海鵬團隊對比發(fā)現(xiàn),兩者主體思想雖然差不多,但還是能看出有較大的區(qū)別。“有很多細節(jié),AlphaFold2的設(shè)計更合理,因此它的效果也更好。”而現(xiàn)在一些自媒體和宣傳材料稱兩者功能相當,甚至RosettaFold的某些方面表現(xiàn)更好,配置要求更低,“這可能會有些誤導”。

“AlphaFold2對顯卡的要求并不是特別高,預測的時候,如果不是特別長的蛋白鏈,比如,預測幾百個殘基、上千個殘基, 1080Ti這樣的顯卡就能‘跑’了。但要預測2000多個殘基的蛋白鏈,就需要市面上最好的A100顯卡。”龔海鵬說,“在預測方面,RosettaFold并沒有太大優(yōu)勢,它在訓練上要求的資源少一些。從雙方發(fā)表的文章來看,AlphaFold2在訓練的時候,資源占用大概是RosettaFold的十幾倍,但模型訓練好后,真正預測的時候兩者對資源的要求并沒有太大區(qū)別。”

堅持“搞事情”

軟件技術(shù)的進步使蛋白質(zhì)結(jié)構(gòu)變得“唾手可得”,這將對結(jié)構(gòu)生物學的研究范式產(chǎn)生重大影響。

“預計會有一批實驗室轉(zhuǎn)換研究方向,不再做結(jié)構(gòu)預測的方法研究,轉(zhuǎn)而研究下游的一些問題,比如怎么用這個工具去做一些事情。但我們還會沿著這條路走下去。”龔海鵬說,“一是因為AlphaFold2的思路不是唯一的解法。二是受其他因素影響,國內(nèi)的研究團隊不能隨時和谷歌合作,很難用上谷歌最新的模型,所以我們需要有一個自己的版本。”

“對這個領(lǐng)域來說, AlphaFold2可以說改變了不少人的理念。以前生物學家可能覺得人工智能只是一個好的工具,但現(xiàn)在,說它將對這個領(lǐng)域帶來革命性的影響一點都不過。”楊戈說。

2019年,在美國學習生活了20多年的楊戈回國,到中科院自動化所從事計算生物學方面的研究。回國后他發(fā)現(xiàn),國內(nèi)的生物技術(shù)研究、原創(chuàng)性制藥行業(yè)遠遠沒有發(fā)展起來,甚至有些學生認為生物學是個避之不及的“天坑專業(yè)”。

“如果不能很好地抓住發(fā)展機會,計算生物學可能就會成為我們的‘卡脖子’問題,其背后的新藥開發(fā)研制都會被‘卡脖子’。”楊戈說。

龔海鵬認為,DeepMind團隊的人才、硬件、軟件方面的能力都很強,它能解決的訓練問題一般的實驗室或小團隊很難去復現(xiàn)。我們拿它直接去訓練,多半訓練不出來,所以我們只能參考它的方法,開發(fā)出一些訓練代價較小的等價方法。

“達到同一個目的,不會只有一條路。”龔海鵬說,“我們還會一直做下去,包括我了解的幾個課題組都是這樣,大家會從不同的角度汲取它的優(yōu)點,融入自己的方法中繼續(xù)發(fā)展。”

標簽: 結(jié)構(gòu) 生物 未來 研究

關(guān)閉
新聞速遞