《科創(chuàng)板日報》3月7日訊(記者金小莫)在需求欄中輸入對目標蛋白質(zhì)的描述參數(shù),比如序列長度、結(jié)構(gòu)對稱性、目標功能、結(jié)合配體結(jié)構(gòu)、化學(xué)計量等;點擊“運行任務(wù)”鍵;很快,電腦屏幕上就顯示出了符合參數(shù)要求的蛋白質(zhì)三維結(jié)構(gòu)。
2022年10月,天壤XLab上線了蛋白質(zhì)自由設(shè)計平臺xCREATOR,面向高校師生免費開放,不足半年,該平臺已累積有五六百用戶。日前,《科創(chuàng)板日報》記者從天壤XLab處進一步了解到,今年2月下旬,團隊自主研發(fā)的蛋白質(zhì)擴散模型也已正式上線。
(資料圖片)
支撐這些平臺的技術(shù)就是蛋白質(zhì)結(jié)構(gòu)的自動生成技術(shù),后者也是ChatGPT的核心技術(shù)之一。另有跡象表明,自動生成技術(shù)在生命科學(xué)領(lǐng)域的應(yīng)用正在逐漸增多:
今年2月,科創(chuàng)板合成生物學(xué)上市公司凱賽生物宣布領(lǐng)投AI蛋白質(zhì)設(shè)計平臺公司分子之心的新一輪戰(zhàn)略投資;同在2月,初創(chuàng)企業(yè)賽得康宣布完成了數(shù)千萬元的種子輪融資,AI設(shè)計+蛋白模塊是企業(yè)的關(guān)鍵詞。
“其實,ChatGPT所依托的AI生成技術(shù)并非新技術(shù),很多公司都已經(jīng)有所積累并陸續(xù)開始應(yīng)用了。之前有個語言模型BERT就被用于蛋白質(zhì)生成了,取得了不錯的成果。”一家行業(yè)企業(yè)對記者表示,只不過,當ChatGPT走熱之后,AI生成技術(shù)在生命科學(xué)領(lǐng)域的應(yīng)用也逐漸走進了公眾的視野。
記者注意到,當互聯(lián)網(wǎng)科技向AI迭代升級后,很快,AI的應(yīng)用就從TMT涌向了生物醫(yī)藥,AI+藥物發(fā)現(xiàn)一度成為一級市場的投資熱詞;類似的情況,會不會也發(fā)生在ChatGPT+藥物發(fā)現(xiàn)上呢?
▌氨基酸恰類似于大數(shù)據(jù)
記者了解到,自動生成技術(shù)之所以可應(yīng)用到蛋白質(zhì)的發(fā)現(xiàn)上,有這樣的科學(xué)邏輯支撐:
蛋白質(zhì)是由氨基酸通過不同的排列組合聚合而成,每個蛋白質(zhì)的三維結(jié)構(gòu)又決定了它的功能作用。在算法人的眼中,氨基酸就類似于數(shù)據(jù)、蛋白質(zhì)的三維結(jié)構(gòu)類似于圖像,通過數(shù)據(jù)及圖像的不同排列組合訓(xùn)練,AI就能實現(xiàn)自生成。
在業(yè)內(nèi),這一邏輯也被稱為AIGP,即AI Generated Protein(AI生成蛋白質(zhì))。
在天壤XLab,記者看到了相關(guān)應(yīng)用:
在需求欄中輸入對目標蛋白質(zhì)的描述參數(shù),比如序列長度、結(jié)構(gòu)對稱性、目標功能、結(jié)合配體結(jié)構(gòu)、化學(xué)計量等;點擊“運行任務(wù)”鍵;很快,電腦屏幕上就顯示出了符合參數(shù)要求的蛋白質(zhì)三維結(jié)構(gòu)。
去年10月,具備該功能的xCREATOR工作臺正式上線,面向高校師生免費開放;今年2月下旬,團隊自主研發(fā)的蛋白質(zhì)擴散模型也正式上線。
“我們還附加了一系列設(shè)計蛋白質(zhì)的分析功能,可以對各類由算法自動生成的蛋白質(zhì)結(jié)構(gòu)進行打分,分數(shù)越高表示該自動生成的蛋白質(zhì)結(jié)構(gòu)的可實現(xiàn)性越高?!碧烊繶Lab實驗室負責(zé)人苗洪江博士介紹稱。
在ChatGPT中,需要人工對數(shù)據(jù)進行標注、打分,以此來訓(xùn)練算法更會聊天;AIGP也是類似的邏輯,但不同的是,如果科研人員要想知道某一由算法自動生成的蛋白質(zhì),其可實現(xiàn)性到底高不高,還需要通過進一步的濕實驗來驗證,因此,AIGP的技術(shù)壁壘也就更高。
為了降低這一技術(shù)門檻,引入打分模型算法是很多企業(yè)的選擇。
前述行業(yè)企業(yè)對《科創(chuàng)板日報》記者進一步解釋了生成算法與打分算法的工作邏輯:首先,由生成模型算法生成蛋白質(zhì);其次,由人工對經(jīng)打分模型篩選出的、得分較高的蛋白質(zhì),再進行實驗驗證,并反饋給打分模型算法。“二者就像老頑童的左右兩手互搏,通過不斷增強學(xué)習(xí),來提高算法的質(zhì)量?!?/p>
▌探索大分子宇宙
有了AIGP,對于科研人員來說,最大的獲益無疑是加速了研發(fā)的進展。
“以100個氨基酸長度的蛋白質(zhì)為例,其序列的排列組合有高達20^100=1.3×10^130種可能!相比之下,人類可觀測宇宙總原子數(shù)量僅有10^82,以人力來測試、構(gòu)想這樣龐大的蛋白質(zhì)空間可以說是不可能完成的任務(wù)?!泵绾榻Q,如今AI模型能夠精準定位到符合要求的蛋白質(zhì)再由研發(fā)人員進行實驗檢驗,蛋白質(zhì)設(shè)計效率前所未有的提升使其終于可以走進產(chǎn)業(yè)應(yīng)用中去。
更重要的是,過去基于偶然性的開發(fā)工作也極大限制了人類對于蛋白質(zhì)的開發(fā),人類已知的天然蛋白質(zhì)數(shù)量為10^15,而潛在的從頭設(shè)計蛋白質(zhì)數(shù)量遠超于已知天然蛋白質(zhì)。
以人體內(nèi)的蛋白質(zhì)來說,“目前大多數(shù)人類蛋白質(zhì)功能研究都聚焦于約5000種研究較多的人類蛋白質(zhì),而人體內(nèi)還存在著一個巨大的蛋白質(zhì)世界。事實上,這些功能未知的蛋白質(zhì)可能掌握著打開解決人類重大疾病的鑰匙,如癌癥、阿爾茲海默癥以及多種罕見病?!泵绮┦拷忉尫Q。
除生命科學(xué)外,新材料、新能源和食品等領(lǐng)域?qū)δ艿鞍踪|(zhì)也存有巨大的需求。“整個蛋白質(zhì)世界還擁有巨大的潛在探索空間,蘊藏著無窮無盡的資源,具有極大應(yīng)用價值!”天壤CEO薛貴榮博士表示,蛋白質(zhì)領(lǐng)域的ChatGPT會成為像水、電、煤一樣成為工業(yè)發(fā)展支撐,開辟出全新的科學(xué)時代。
《科創(chuàng)板日報》記者進一步了解到,如何獲取行業(yè)數(shù)據(jù)、如何通過實驗驗證來對數(shù)據(jù)進行標注進而得到高質(zhì)量的反饋數(shù)據(jù)仍然是限制AIGP大爆發(fā)的主要攔路虎?;诖?,開源共享仍是目前行業(yè)企業(yè)們的主要選擇。
(文章來源:科創(chuàng)板日報)