【資料圖】
中國科學(xué)院上海有機(jī)化學(xué)研究所生物與化學(xué)交叉研究中心朱正江研究員課題組在Nature Communications雜志在線發(fā)表了題為“Metabolite Annotation from Knowns to Unknowns through Knowledge-guided Multi-layer Metabolic Networking”的研究論文 (Nature Communications, 2022, 13: 6656) 。該工作發(fā)展了一種知識驅(qū)動的多層代謝網(wǎng)絡(luò)技術(shù)(Knowledge-guided multi-layer networking, KGMN),在復(fù)雜生物樣本中實(shí)現(xiàn)了未知代謝物的大規(guī)模鑒定。朱正江課題組畢業(yè)生周智偉博士,博士研究生羅名都同學(xué)是論文的共同第一作者,中國科學(xué)院上海有機(jī)化學(xué)研究所生物與化學(xué)交叉研究中心為第一單位。
生命體代謝組不僅包含內(nèi)源性產(chǎn)生的已知代謝物,還包含微生物菌群、植物、食物和其他來源的未知代謝物。這些未知代謝物對生命活動起到重要的調(diào)控作用。然而,如何大規(guī)模鑒定未知代謝物是當(dāng)前代謝組學(xué)研究中的熱點(diǎn)和難點(diǎn)。在前期研究中,朱正江課題組發(fā)展了基于代謝反應(yīng)網(wǎng)絡(luò)的代謝組學(xué)技術(shù)MetDNA(Nature Communications, 2019, 10: 1516)。該技術(shù)利用代謝反應(yīng)網(wǎng)絡(luò)中產(chǎn)物和底物存在結(jié)構(gòu)相似性和二級質(zhì)譜圖相似性的基本原理,設(shè)計(jì)了代謝物二級質(zhì)譜圖“譜圖借用”和“多次迭代”算法,利用標(biāo)準(zhǔn)譜圖庫鑒定出的代謝物作為種子,依靠代謝反應(yīng)網(wǎng)絡(luò)進(jìn)行代謝物注釋的迭代和傳遞,突破了標(biāo)準(zhǔn)二級質(zhì)譜圖庫的覆蓋度限制,實(shí)現(xiàn)大規(guī)模的已知代謝物鑒定。然而該技術(shù)仍然存在一些局限:1) 代謝物鑒定傳遞的過程是僅限于已知代謝反應(yīng)網(wǎng)絡(luò),因此無法用于發(fā)現(xiàn)新的未知代謝物;2) 復(fù)雜質(zhì)譜數(shù)據(jù)中的大量冗余信號 (如同位素峰、加合物峰、中性丟失和源內(nèi)裂解等)會對代謝物的鑒定造成假陽性。
針對以上問題,作者進(jìn)一步發(fā)展了知識驅(qū)動的多層代謝網(wǎng)絡(luò)技術(shù)(KGMN),實(shí)現(xiàn)了從已知代謝物鑒定未知代謝物的能力,并顯著提升了代謝物鑒定的準(zhǔn)確度。基于該技術(shù),作者開發(fā)了第二代MetDNA軟件(MetDNA2)。該技術(shù)首次整合了3層代謝網(wǎng)絡(luò)(圖1):1) 知識驅(qū)動的代謝反應(yīng)網(wǎng)絡(luò);2) 知識引導(dǎo)的二級質(zhì)譜圖相似性網(wǎng)絡(luò);3) 全局代謝峰相關(guān)性網(wǎng)絡(luò)。首先,作者利用理論代謝反應(yīng)對于已知的代謝反應(yīng)網(wǎng)絡(luò)進(jìn)行擴(kuò)展,從而構(gòu)建了包含已知和未知代謝物的擴(kuò)展代謝反應(yīng)網(wǎng)絡(luò)(KMRN,網(wǎng)絡(luò)1)。MetDNA2從標(biāo)準(zhǔn)譜圖庫鑒定出的種子代謝物出發(fā),基于擴(kuò)展代謝反應(yīng)網(wǎng)絡(luò)和“譜圖借用”策略,構(gòu)建二級質(zhì)譜圖相似性網(wǎng)絡(luò)(網(wǎng)絡(luò)2)。該策略可以通過多次迭代和循環(huán)擴(kuò)增的算法,將代謝組學(xué)質(zhì)譜數(shù)據(jù)中的所有已知和未知代謝物連接,直到?jīng)]有新的注釋代謝物。在網(wǎng)絡(luò)2中,代謝物節(jié)點(diǎn)之間的連接有四個限制條件:MS1 m/z、保留時間、MS/MS譜圖相似性和代謝反應(yīng)轉(zhuǎn)化(metabolic biotransformation)。對于注釋到的每一個代謝物,MetDNA2會進(jìn)一步通過靶向檢索其相關(guān)的冗余質(zhì)譜特征峰(如同位素峰、加合物峰、中性丟失和源內(nèi)裂解等),并構(gòu)建全局代謝峰相關(guān)性網(wǎng)絡(luò)(網(wǎng)絡(luò)3)。最后,利用全局代謝峰相關(guān)性網(wǎng)絡(luò),MetDNA2對注釋的代謝物結(jié)果進(jìn)行全局優(yōu)化,提升代謝物鑒定的準(zhǔn)確度,去除假陽性注釋結(jié)果返回最終鑒定結(jié)果。整個數(shù)據(jù)處理流程全程自動化,無需人工干預(yù),提升了數(shù)據(jù)分析的效率。
圖1 知識驅(qū)動的多層代謝網(wǎng)絡(luò)技術(shù)KGMN
利用上述技術(shù),MetDNA2對于已知代謝物的鑒定準(zhǔn)確性從~70%提升至>95%。同時,在不同的生物樣本中,MetDNA2還能夠鑒定~100-300個未知代謝物;對于單個生物樣本鑒定的代謝物數(shù)目在2000-5000個左右。在MetDNA2中,每一個鑒定結(jié)果均根據(jù)國際代謝組學(xué)協(xié)會標(biāo)準(zhǔn)指定特定的可信度。此外,MetDNA2還包含了一系列重要的更新和升級,如全面升級的標(biāo)準(zhǔn)代謝物譜圖數(shù)據(jù)庫(>2000個代謝物);兩種不同色譜體系的保留時間數(shù)據(jù)庫 (HILIC 和C18體系);適配所有廠商的高分辨二級質(zhì)譜數(shù)據(jù)等。
為了方便相關(guān)領(lǐng)域研究者應(yīng)用該工具,課題組提供了用戶友好型的界面和網(wǎng)站MetDNA2 (http://metdna.zhulab.cn/),學(xué)術(shù)用戶可以免費(fèi)注冊使用。該工作所開發(fā)的KGMN技術(shù)已經(jīng)申請了國家發(fā)明專利和國家軟件著作權(quán)。相關(guān)技術(shù)和軟件的商業(yè)用途需要聯(lián)系朱正江研究員進(jìn)行授權(quán)使用。該工作得到了國家自然科學(xué)基金委、科技部、中國科學(xué)院、上海市科委等的資助。
論文鏈接:https://www.nature.com/articles/s41467-022-34537-6