不再依賴MSA信息,速度更快,算力更小
TRFold-Single 可以端到端地對單序列結(jié)構(gòu)進行預(yù)測,不再依賴同源 MSA 作為輸入需要。MSA 信息是從現(xiàn)存生物體中測出并被記錄下來的,然而有很多在自然進化歷史當(dāng)中未曾出現(xiàn)過的蛋白質(zhì),以及大量人工設(shè)計生成的蛋白質(zhì),本身就缺乏同源信息,此類蛋白質(zhì)的結(jié)構(gòu)預(yù)測一直處于空白?,F(xiàn)在可以不受 MSA 的限制,無需多序列比對信息,輸入單一序列即可推理獲得蛋白質(zhì)的三維結(jié)構(gòu)。
此前基于 MSA 共進化信息的 TRFold 在進行單一蛋白質(zhì)序列的結(jié)構(gòu)預(yù)測時,需構(gòu)建搜索 MSA 和進化相關(guān)序列的訓(xùn)練,耗時長且占用更多計算資源。而 XLab 團隊迭代開發(fā)的 TRFold-Single,使用預(yù)訓(xùn)練語言模型的 em[x]bedding (單序列編碼) 和注意力權(quán)重作為輸入,通過處理單序列的 Transfomer 架構(gòu),直接替代處理 MSA 信息的模塊,得到蛋白質(zhì)的準確結(jié)構(gòu)。 類似于 TRfold,TRFold-single 同時學(xué)習(xí)每個殘基的空間坐標,和殘基兩兩間的的幾何關(guān)系。
TRFold- single 從預(yù)訓(xùn)練語言模型的注意力權(quán)重中提取初始的殘基間相互關(guān)系信息。由于不再包含 MSA 相關(guān)模塊,TRFold-single 中殘基編碼與殘基對編碼之間的交互方式更加高效。 在全球蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽 CAMEO 2月的測試集中,TRFold (withMSA) 不僅取得與 AlphaFold2 同等水平的成績,基于單序列構(gòu)建的 TRFold-Single 結(jié)構(gòu)預(yù)測分值達82分,遠超 AlphaFold2,性能更佳。
加速設(shè)計和優(yōu)化拓展生成生物學(xué)空間
更高效的預(yù)測手段意味著更大的蛋白質(zhì)結(jié)構(gòu)、功能空間的探索和更深入的理解,不僅可以填補快速增長的蛋白質(zhì)序列數(shù)據(jù)庫與進展緩慢的蛋白質(zhì)結(jié)構(gòu)和功能數(shù)據(jù)庫之間的鴻溝,對復(fù)雜度更高的復(fù)合體預(yù)測、模擬蛋白質(zhì)之間的相互作用,及抗體和蛋白設(shè)計來說,都具有顛覆性意義。 如自然界中有大量孤兒蛋白質(zhì)序列,本身就不存在 MSA 共進化信息,以及一些 MSA 不夠深的情況,難以被抽取特征學(xué)習(xí);還有大量根據(jù)功能生成氨基酸序列的抗體和蛋白藥設(shè)計,也不包含任何 MSA 信息,TRFold-Single 可以提供一個更加有效的預(yù)測工具,突破蛋白質(zhì)同源進化信息有限的局面,加速此類蛋白的結(jié)構(gòu)預(yù)測優(yōu)化和設(shè)計流程,推動生成更有效的滿足目標功能的特定蛋白質(zhì)。
抗體是由于抗原刺激產(chǎn)生的具有保護作用的單向進化蛋白質(zhì),從作用原理來說本身不存在共進化信息。在此種情況下,TRFold-Single 可以直接預(yù)測其關(guān)鍵結(jié)構(gòu) CDR 功能區(qū)域,這對由配體相互作用而產(chǎn)生結(jié)構(gòu)的大分子藥物設(shè)計來說有重要意義。 此外,天壤XLab 團隊選用86個結(jié)構(gòu)已被解析的設(shè)計蛋白質(zhì)進行預(yù)測評測,AlphaFold2 預(yù)測結(jié)果為82.6,而TRFold-Single預(yù)測性能更優(yōu),平均分值達86.2,在非天然蛋白質(zhì)結(jié)構(gòu)預(yù)測方面更具優(yōu)勢。
復(fù)合體結(jié)構(gòu)預(yù)測與設(shè)計 深入研究蛋白質(zhì)相互作用原理
能夠非??焖俚念A(yù)測一個單鏈蛋白質(zhì)還不夠。蛋白質(zhì)很多時候以復(fù)合物的形式成組地發(fā)揮功能,比如和其他小分子或者蛋白質(zhì)進行相互作用,才能夠完成生物體生存所需的種種任務(wù)。 相比單鏈結(jié)構(gòu)的預(yù)測,復(fù)合物中氨基酸總數(shù)大大增加,所需的計算機內(nèi)存和算力更是迅速增加。天壤XLab 通過空間采樣的增強方式增加訓(xùn)練數(shù)據(jù)多樣性,啟發(fā)式搜索解決多鏈錯配和蛋白質(zhì)手性問題,通過分子動力學(xué)力場優(yōu)化結(jié)合表面原子結(jié)構(gòu),獲得準確的蛋白質(zhì)相互作用信息,去繪制細胞內(nèi)蛋白質(zhì)相互作用通路圖。
以 AI 為主導(dǎo),天壤XLab 已構(gòu)建了TRFold (withMSA) 、TRFold-Single、TRDesign、TRComplex 四大核心能力,目前正積極推進實驗驗證。后續(xù)我們將對外開放完整的蛋白質(zhì)設(shè)計開發(fā)平臺,希望將技術(shù)賦能產(chǎn)業(yè),協(xié)同更多伙伴一起為應(yīng)對新藥開發(fā)、疾病研究、抗體設(shè)計、酶設(shè)計與優(yōu)化及其他未被滿足的工業(yè)、農(nóng)業(yè)需求和挑戰(zhàn)做出貢獻。