在蛋白質(zhì)設(shè)計(jì)中,如何生成具有預(yù)定義功能和特性的蛋白質(zhì)結(jié)構(gòu)一直是一個(gè)具有挑戰(zhàn)性的問題。近日,由多倫多大學(xué)的研究人員開發(fā)了一種人工智能AI系統(tǒng),可以使用生成擴(kuò)散來創(chuàng)建自然界中沒有的蛋白質(zhì)——這與目前流行的AI圖像創(chuàng)建平臺(tái)(如Midjourney、OpenAI等)背后的技術(shù)相同。
研究指出,該AI系統(tǒng)將有助于促進(jìn)生殖生物學(xué)領(lǐng)域的發(fā)展,通過使全新的治療蛋白的設(shè)計(jì)和測(cè)試更加有效和靈活,有望加速藥物開發(fā)。
蛋白質(zhì)由氨基酸鏈組成,氨基酸鏈可以折疊成三維形狀,決定蛋白質(zhì)的功能。這些形狀經(jīng)過數(shù)十億年的進(jìn)化,變化多端,復(fù)雜而且數(shù)量有限?,F(xiàn)在,隨著對(duì)現(xiàn)有蛋白質(zhì)折疊方式的進(jìn)一步了解,研究人員已經(jīng)開始利用人工智能原理設(shè)計(jì)自然界中不會(huì)產(chǎn)生的折疊模式。
由于很難預(yù)測(cè)哪些折疊將是真實(shí)的并在蛋白質(zhì)結(jié)構(gòu)中起作用,研究人員決定通過將基于生物物理學(xué)的蛋白質(zhì)結(jié)構(gòu)表示與圖像生成空間的擴(kuò)散方法相結(jié)合來解決這個(gè)問題。研究人員稱這個(gè)新系統(tǒng)為 ProteinSGM,它來自于現(xiàn)有蛋白質(zhì)的大量圖像表示,這些圖像準(zhǔn)確地編碼了蛋白質(zhì)的結(jié)構(gòu)。
研究人員將這些圖像輸入到生成擴(kuò)散模型中,該模型逐漸添加噪聲,直到每個(gè)圖像都變成噪聲。該模型跟蹤圖像如何變得更嘈雜,然后反向運(yùn)行該過程,學(xué)習(xí)如何將隨機(jī)像素轉(zhuǎn)換為對(duì)應(yīng)于全新蛋白質(zhì)的清晰圖像。
優(yōu)化圖像生成過程的早期階段是創(chuàng)建ProteinSGM的大挑戰(zhàn)之一。使用AI系統(tǒng)的關(guān)鍵之一在于蛋白質(zhì)結(jié)構(gòu)的適當(dāng)?shù)膱D像表示,此后擴(kuò)散模型就可以學(xué)習(xí)如何準(zhǔn)確地生成新的蛋白質(zhì)。
擴(kuò)散模型,也被稱為基于分?jǐn)?shù)的生成模型(SGMs),在圖像合成方面顯示出驚人的表現(xiàn)。ProteinSGM是基于圖像的蛋白質(zhì)結(jié)構(gòu)表示開發(fā)的生成模型,可以產(chǎn)生真實(shí)的從頭生成的蛋白質(zhì)。
為了測(cè)試由ProteinSGM生成的新蛋白質(zhì),研究人員使用 AlphaFold 2的改進(jìn)版OmegaFold進(jìn)行驗(yàn)證。通過 OmegaFold的匹配和實(shí)驗(yàn)室的實(shí)驗(yàn)測(cè)試,研究小組證實(shí),幾乎所有的新序列都能折疊成所需的蛋白質(zhì)結(jié)構(gòu),也就是說,由AI生成的在自然界任何地方都不存在的全新蛋白質(zhì)折疊得到了驗(yàn)證。
研究人員認(rèn)為,基于這項(xiàng)研究,下一步的研究方向則是通過ProteinSGM進(jìn)行進(jìn)一步開發(fā)具有大治療潛力的抗體和其他的蛋白質(zhì)。這將是一個(gè)非常令人興奮的研究和創(chuàng)新領(lǐng)域。