資訊
頻道
當(dāng)前位置:首頁 > 醫(yī)療器械資訊 > 新品動態(tài) > 醫(yī)藥產(chǎn)業(yè)迎來“新風(fēng)口”!AI+藥物發(fā)現(xiàn),讓新藥不再遙不可及!

醫(yī)藥產(chǎn)業(yè)迎來“新風(fēng)口”!AI+藥物發(fā)現(xiàn),讓新藥不再遙不可及!

文章來源:健康界發(fā)布日期:2024-06-01瀏覽次數(shù):44

在當(dāng)今快速發(fā)展的醫(yī)藥健康領(lǐng)域,藥物研發(fā)正經(jīng)歷著一場前所未有的變革,而人工智能(AI)技術(shù)的崛起無疑是這場變革中引人注目的推手之一。作為二十一世紀(jì)具顛覆性的技術(shù)之一,AI不僅深刻改變了我們的日常生活,更是在藥物發(fā)現(xiàn)的舞臺上嶄露頭角,以其獨特的優(yōu)勢在藥物研發(fā)的早期階段發(fā)揮著核心作用。

本文基于藥融咨詢《2023年中國AI制藥企業(yè)白皮書》部分精彩內(nèi)容,旨在探討AI技術(shù)如何通過三大關(guān)鍵路徑--藥物靶點的發(fā)現(xiàn)與驗證、藥物分子設(shè)計與優(yōu)化、以及高效的化合物篩選,為新藥研發(fā)注入前所未有的動力與效率,加速藥物研發(fā)的進(jìn)程,開啟精醫(yī)療的新篇章。

AI技術(shù)通過三方面助力藥物發(fā)現(xiàn)階段研發(fā)

一、AI助力藥物靶點發(fā)現(xiàn)與驗證

隨著微陣列、RNA-seq和高通量測序(HTS)技術(shù)的發(fā)展,高校、研究機(jī)構(gòu)及企業(yè)實驗室產(chǎn)生大量的生物醫(yī)學(xué)數(shù)據(jù),當(dāng)代藥物發(fā)現(xiàn)也因此進(jìn)入了生物大數(shù)據(jù)時代。隨著生物大數(shù)據(jù)分析,藥物發(fā)現(xiàn)研究的重點逐漸轉(zhuǎn)向靶向藥物發(fā)現(xiàn),即以"基因-藥物-疾病"為中心,通過AI技術(shù)分析與疾病高度相關(guān)的靶點,發(fā)現(xiàn)酶、蛋白質(zhì)或其他基因產(chǎn)物,以及針對該靶點的小分子。

藥物靶點發(fā)現(xiàn)策略包括實驗方法、多組學(xué)分析方法和AI計算方法。實驗方法受限于通量和成本,而基于AI技術(shù)的多組學(xué)分析方法和AI計算方法能夠高效、有效地發(fā)掘具有潛力成為藥物靶點的分子。多組學(xué)分析方法整合生物學(xué)數(shù)據(jù),揭示疾病關(guān)鍵靶點,而AI計算方法利用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)篩選化合物庫,加速藥物靶點發(fā)現(xiàn)。這些方法在藥物研究和開發(fā)中具有重要作用,并在未來發(fā)展中將變得更加關(guān)鍵。

AI技術(shù)通過三方面助力藥物發(fā)現(xiàn)階段研發(fā)

AI技術(shù)驅(qū)動藥物靶點發(fā)現(xiàn)與驗證工作流程

1. 新技術(shù)舉例

(1)利用多組學(xué)數(shù)據(jù)訓(xùn)練機(jī)器學(xué)習(xí)/深度學(xué)習(xí)模型進(jìn)行靶點發(fā)現(xiàn)

近年來,基于機(jī)器學(xué)習(xí)的算法,特別是深度學(xué)習(xí)方法,在制藥領(lǐng)域取得了成果并引起了廣泛關(guān)注。深度學(xué)習(xí),也被稱為深度神經(jīng)網(wǎng)絡(luò),由多個隱藏層節(jié)點組成,通過級聯(lián)方式逐步進(jìn)行數(shù)據(jù)處理和特征提取。與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,近期更加先進(jìn)的基于深度學(xué)習(xí)的架構(gòu),如生成對抗網(wǎng)絡(luò)(GANs)、循環(huán)神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)技術(shù),在制藥方面廣泛應(yīng)用,例如新型小分子設(shè)計、衰老研究以及基于轉(zhuǎn)錄數(shù)據(jù)的藥物藥理預(yù)測。此外,利用公開可用的多組學(xué)數(shù)據(jù)和文本挖掘,深度學(xué)習(xí)還在未滿足臨床需求的疾病方面發(fā)揮著重要作用。

(2)利用機(jī)器學(xué)習(xí)/深度學(xué)習(xí)模型進(jìn)行分子建模

(3)大語言模型通過文獻(xiàn)挖掘發(fā)現(xiàn)治療發(fā)現(xiàn)

基于大型語言模型的聊天功能,如微軟的BioGPT和Insilico Medicineiv的ChatPandaGPT,通過對從數(shù)百萬論文中提取的大量文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,可以將疾病、基因和生物過程聯(lián)系起來,從而快速識別疾病發(fā)生和進(jìn)展的生物學(xué)機(jī)制,并發(fā)現(xiàn)潛在的藥物靶點和生物標(biāo)志物。

(4)使用AI生成的合成數(shù)據(jù)進(jìn)行靶點識別

"合成數(shù)據(jù)"是指通過人工生成的數(shù)據(jù),它可以模擬真實世界中的模式和特征。借助人工智能算法,能夠創(chuàng)建合成數(shù)據(jù),以模擬各種生物數(shù)據(jù),從而幫助研究人員探索和分析新藥物的可能。這種方法在實驗數(shù)據(jù)稀缺或難以獲得的治療領(lǐng)域尤其有價值。舉例來說,在罕見疾病或患者數(shù)據(jù)有限的情況下,人工智能可以基于現(xiàn)有的知識和模式生成合成數(shù)據(jù)。然后,我們可以利用這些合成數(shù)據(jù)來訓(xùn)練人工智能模型,并識別可能被忽視的潛在治療靶點。

(5)計算生物學(xué)大模型用于靶點發(fā)現(xiàn)


2. 國內(nèi)企業(yè)布局

AI靶點發(fā)現(xiàn)需要大量的生物數(shù)據(jù)來訓(xùn)練模型,并需要專業(yè)人員對數(shù)據(jù)進(jìn)行清洗、預(yù)處理,去除冗余和錯誤數(shù)據(jù),并對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化和格式化。對于AIDD初創(chuàng)企業(yè)而言,與大型制藥企業(yè)相比,他們面臨著生物實驗場景數(shù)據(jù)嚴(yán)重不足的挑戰(zhàn)。在短時間內(nèi)難以積累足夠的數(shù)據(jù)量。因此,AI靶點發(fā)現(xiàn)技術(shù)在初創(chuàng)企業(yè)中具有一定的門檻。

國內(nèi)能夠進(jìn)行靶點發(fā)現(xiàn)的AIDD企業(yè)約32家 ,主要分布在北京、上海、深圳等地區(qū),具體企業(yè)名稱及布局技術(shù)領(lǐng)域如下表所示。值得注意的是,AI靶點發(fā)現(xiàn)技術(shù)具有一定的局限性,靶點發(fā)現(xiàn)的企業(yè)并非完全利用AI技術(shù):例如,水木未來能夠利用冷凍電鏡技術(shù)解析蛋白質(zhì)結(jié)構(gòu)進(jìn)而完成靶點的發(fā)現(xiàn);藥物牧場利用IDInvivo+轉(zhuǎn)座子靶點發(fā)現(xiàn)平臺,結(jié)合Medchem5人工智能藥物化學(xué)平臺在藥物靶點發(fā)現(xiàn)上進(jìn)行開拓。

能夠進(jìn)行靶點發(fā)現(xiàn)的AIDD企業(yè)主要分為3類:AIDD Biotech企業(yè)、具備AI技術(shù)的CRO企業(yè)、AIDD技術(shù)平臺企業(yè)。


二、AI驅(qū)動藥物分子設(shè)計、優(yōu)化

藥物設(shè)計的目標(biāo)是開發(fā)出具有特定性質(zhì)、符合特定標(biāo)準(zhǔn)的藥物,包括療效、安全性、合理的化學(xué)和生物特性以及結(jié)構(gòu)的新穎性。近年來,利用深度生成模型和強(qiáng)化學(xué)習(xí)算法進(jìn)行新藥設(shè)計被認(rèn)為是一種有效的藥物發(fā)現(xiàn)方法。這種方法能夠繞過傳統(tǒng)基于經(jīng)驗的藥物設(shè)計模式的限制,讓計算機(jī)通過自主學(xué)習(xí)藥物靶點和分子特征,以更快的速度和更低的成本生成符合特定要求的化合物。這種新方法為藥物設(shè)計領(lǐng)域帶來了更多的創(chuàng)新和可能性。

1. 新技術(shù)舉例

(1)AI生成模型在藥物設(shè)計領(lǐng)域應(yīng)用

AI生成模型在全新藥物設(shè)計領(lǐng)域具有巨大的優(yōu)勢,因為它們在生成分子時不需要先驗的化學(xué)知識。這些模型可以在更廣闊的未知化學(xué)空間中進(jìn)行搜索,超越現(xiàn)有分子結(jié)構(gòu)的限制,自動設(shè)計新的分子結(jié)構(gòu)。在新藥設(shè)計中,廣泛使用的深度生成模型包括基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的生成模型、變分自編碼器(VAE)和生成對抗網(wǎng)絡(luò)(GAN)等。利用生成模型設(shè)計分子的過程具有高度的隨機(jī)性,生成的分子在結(jié)構(gòu)上呈現(xiàn)千變?nèi)f化,質(zhì)量也參差不齊。強(qiáng)化學(xué)習(xí)可以通過微調(diào)模型參數(shù)進(jìn)行有針對性的優(yōu)化,使生成的分子具備特定的藥物分子特性。這種結(jié)合生成模型和強(qiáng)化學(xué)習(xí)的方法為全新藥物設(shè)計提供了新的途徑和可能性。

主要AI生成模型框架示意:

(2)簡單AI生成模型:基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的生成模型設(shè)計藥物分子

基于RNN的生成模型可以生成具有全新結(jié)構(gòu)的化合物,同時保持與樣本化合物具有相似的生化特性。訓(xùn)練過程首先利用大型化學(xué)數(shù)據(jù)庫對RNN模型進(jìn)行訓(xùn)練,使其學(xué)習(xí)如何生成正確的化學(xué)結(jié)構(gòu)。然后使用強(qiáng)化學(xué)習(xí)算法對 RNN 參數(shù)進(jìn)行微調(diào),使模型能夠?qū)⑸傻幕瘜W(xué)結(jié)構(gòu)映射到指定的化學(xué)空間。強(qiáng)化學(xué)習(xí)使基于 RNN 的生成模型能夠生成具有良好藥理特性的新分子,并確保生成分子的結(jié)構(gòu)多樣性。

(3)簡單生成模型:基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的生成模型的先導(dǎo)化合物優(yōu)化

基于 RNN 的生成模型藥物在先導(dǎo)化合物的優(yōu)化方面發(fā)揮著作用。研究者提出了一種名為 "Scaffold-constrained molecular generation (SAMOA)"的新分子生成算法,用于解決先導(dǎo)化合物優(yōu)化問題中的支架約束問題:使用 RNN 生成模型生成新分子的 SMILES 序列,然后使用精細(xì)采樣程序?qū)崿F(xiàn)支架約束并生成分子。此外,還應(yīng)用了一種基于策略的強(qiáng)化學(xué)習(xí)算法來探索相關(guān)的化學(xué)空間,并生成與預(yù)期相匹配的新分子。

RNN分子生成模型主要工作流程

(4)進(jìn)階AI生成模型:基于變分自動編碼器(VAE)的生成模型

VAE已成為復(fù)雜數(shù)據(jù)分布的無監(jiān)督學(xué)習(xí)流行的方法之一。VAE模型能夠完成小分子的全新設(shè)計和肽序列的生成。VAE有許多不同的變體,但其核心架構(gòu)始終不變)。

VAE的變體主要可以分為SMILES-VAE 、Graph-VAE和3Dgrid-VAE三種類型。SMILES-VAE是應(yīng)用為廣泛,因為其容易實現(xiàn),例如英矽智能構(gòu)建的GENTRL算法。盡管GENTRL生成的分子順利通過實驗驗證,但仍難以保證生成驗證的SMILES。Graph-VAE和3Dgrid-VAE能夠解決這些問題,由于3D結(jié)構(gòu)訓(xùn)練數(shù)據(jù)有限,目前商業(yè)化應(yīng)用較少。3D技術(shù)將對未來的AIDD項目具有巨大價值。

VAE模型的核心架構(gòu)

(5)進(jìn)階AI生成模型:基于通用對抗性網(wǎng)絡(luò)(GAN)的生成模型

GAN主要由生成器和鑒別器組成,它們相互博弈,互相對抗,通過對抗生成高質(zhì)量的數(shù)據(jù)。GAN能夠生成與真實數(shù)據(jù)分布相似的新樣本,并能夠使用網(wǎng)絡(luò)來辨別網(wǎng)絡(luò),刪除不需要的內(nèi)容。在AIDD領(lǐng)域,GAN 通常與特征學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等技術(shù)相結(jié)合,在蛋白質(zhì)功能預(yù)測、小分子生成等方面發(fā)揮了重要作用?;?GAN已經(jīng)構(gòu)建多種分子生成模型,如Mol-CycleGAN、ORGANIC、RANC。

(6)進(jìn)階AI生成模型:基于對抗性自動編碼器(AAE)的生成模型設(shè)計藥物分子

AAE在VAE基礎(chǔ)上增加了判別模型,對采樣分子和真實樣本進(jìn)行區(qū)分,基于對抗的思想訓(xùn)練生成模型和判別模型,擴(kuò)展了分子的生成空間,一定程度上彌補了VAE在生成分子時結(jié)構(gòu)新穎性方面的缺陷。

(7)基于強(qiáng)化學(xué)習(xí)(RL)的生成模型設(shè)計藥物分子

強(qiáng)化學(xué)習(xí)(RL)通過智能體在與環(huán)境的交互過程中,不斷優(yōu)化人工智能模型,以大限度地提高預(yù)期的累積回報。與有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)不同,RL可以在不受人類先驗知識和訓(xùn)練數(shù)據(jù)束縛的情況下達(dá)到驚人的表現(xiàn),例如的應(yīng)用是AlphaGo。

(8)綜合多種技術(shù)的AI藥物分子小分子生成平臺技術(shù)成熟并成功在相關(guān)工作中應(yīng)用

(9)AI技術(shù)應(yīng)用于大分子藥物分子設(shè)計

目前,國內(nèi)外的AI藥企主要專注于技術(shù)相對成熟的小分子藥物研發(fā),并且已經(jīng)有多款由AI設(shè)計或輔助優(yōu)化的小分子藥物進(jìn)入臨床階段。然而,近年來,隨著新藥物形式的興起,布局抗體藥物、核酸藥物、多肽藥物、基因細(xì)胞治療藥物、合成生物學(xué)等領(lǐng)域的企業(yè)比例也在不斷增加。這些新藥物形式帶來了新的治療理念和手段,為疾病的治療提供了更廣闊的前景。AI技術(shù)在這些領(lǐng)域的應(yīng)用也在逐漸發(fā)展,為新藥物形式的研發(fā)和優(yōu)化提供支持。隨著技術(shù)的進(jìn)一步發(fā)展和應(yīng)用的推廣,未來可以期待AI在大分子藥物領(lǐng)域的應(yīng)用為醫(yī)藥行業(yè)帶來更多的創(chuàng)新和突破。


2. 國內(nèi)企業(yè)布局

國內(nèi)能夠進(jìn)行藥物分子發(fā)現(xiàn)、設(shè)計、優(yōu)化的AIDD企業(yè)60余家,主要分布在北京、上海、深圳、蘇州、杭州等地區(qū),具體企業(yè)名稱及布局技術(shù)領(lǐng)域如下表所示。國內(nèi)的藥物分子設(shè)計、優(yōu)化AI發(fā)展水平參差,具備藥物分子從頭設(shè)計的AI技術(shù)的企業(yè)數(shù)量較少,而大多數(shù)企業(yè)根據(jù)現(xiàn)有數(shù)據(jù)庫進(jìn)行/提供藥物發(fā)現(xiàn)或"老藥新用"服務(wù)。

三、AI輔助藥物分子篩選

除了傳統(tǒng)的實驗方法,計算機(jī)輔助藥物設(shè)計(Computer-Aided Drug Design,CADD)自問世以來在藥物研發(fā)階段發(fā)揮了巨大的作用。藥物-靶標(biāo)相互作用(DTI)是藥物發(fā)現(xiàn)的重要基礎(chǔ),準(zhǔn)確有效的DTI預(yù)測能極大地助力藥物研發(fā),加速先導(dǎo)或苗頭化合物發(fā)現(xiàn)。計算機(jī)模擬DTI并非全新技術(shù),世面已有許多成熟的開源程序或商業(yè)化軟件。將AI技術(shù)引入CADD中,能夠一定程度提高分子篩選的效率與覆蓋度。

近年來基于機(jī)器學(xué)習(xí)/深度學(xué)習(xí)的預(yù)測DTI的方法陸續(xù)被報道。以已知化合物的活性和結(jié)構(gòu)信息作為訓(xùn)練數(shù)據(jù),并對數(shù)據(jù)進(jìn)行預(yù)處理和特征提取,通過選擇合適的機(jī)器學(xué)習(xí)算法進(jìn)行模型構(gòu)建和訓(xùn)練。后續(xù)利用已構(gòu)建的機(jī)器學(xué)習(xí)模型對新化合物進(jìn)行預(yù)測和篩選,并結(jié)合化學(xué)規(guī)則和藥物性質(zhì)等要求對化合物進(jìn)行優(yōu)化和篩選。

1. 新技術(shù)舉例

(1)基于機(jī)器學(xué)習(xí)/深度學(xué)習(xí)的藥物-靶標(biāo)相互作用預(yù)測

(2)生物醫(yī)藥大模型助力藥物分子篩選


2. 國內(nèi)企業(yè)布局

國內(nèi)能夠進(jìn)行藥物分子設(shè)計、優(yōu)化的AIDD企業(yè)約55家, 主要分布在北京、上海、深圳、蘇州、杭州等地區(qū),具體企業(yè)名稱及布局技術(shù)領(lǐng)域如下表所示。

國內(nèi)主要布局AI藥物分子篩選初創(chuàng)企業(yè)匯總

中國AIDD行業(yè)起步較歐美等國家略有滯后,雖然并不缺乏新藥管線,但大多數(shù)管線僅處于早期研發(fā)階段,具有臨床管線的AIDD企業(yè)數(shù)量較少。由于交叉學(xué)科的特性,早期AIDD公司成立后一般需要經(jīng)歷漫長的團(tuán)隊建設(shè)、平臺完善和技術(shù)驗證的時期,自主設(shè)計分子并推進(jìn)到后期臨床的公司鳳毛麟角。除"老藥新用"外,目前國內(nèi)研發(fā)進(jìn)度進(jìn)展臨床試驗快的AI藥物是英矽智能研發(fā)的ISM001-055,該藥物的研發(fā)進(jìn)度同樣位于全球前列。

現(xiàn)階段AI藥企普遍數(shù)據(jù)生產(chǎn)能力和干濕實驗結(jié)合能力不足,這限制了新平臺的應(yīng)用。AI藥企在新治療方式領(lǐng)域同樣面臨數(shù)據(jù)稀缺性和孤島效應(yīng),而且生物藥的數(shù)據(jù)生產(chǎn)成本更高,兼具不同藥物形式和AI的人才儲備更少,所以未來AI藥企需要持續(xù)加強(qiáng)數(shù)據(jù)資產(chǎn)的挖掘和累積。