蛋白質(zhì)已經(jīng)進化到能夠勝任各種任務(wù),從收縮肌肉到消化食物再到識別病毒。為了設(shè)計出更好的蛋白質(zhì)(包括抗體),科學(xué)家經(jīng)常在不同位置反復(fù)突變氨基酸(按順序排列以組成蛋白質(zhì)的單位),直到產(chǎn)生的蛋白質(zhì)具有更好的功能,例如引發(fā)更強的免疫反應(yīng)或更有效地從大氣中捕獲二氧化碳。
但可能的氨基酸序列比世界上的沙粒還要多。而找到最佳蛋白質(zhì),進而找到最佳潛在藥物,通常成本高昂,甚至不可能。
斯坦福大學(xué)的科學(xué)家開發(fā)出了一種基于機器學(xué)習(xí)的新方法,可以更快、更準(zhǔn)確地預(yù)測導(dǎo)致更好抗體藥物的分子變化。
該方法于7月4日發(fā)表在《科學(xué)》雜志上,將蛋白質(zhì)骨架的3D結(jié)構(gòu)與基于氨基酸序列的大型語言模型相結(jié)合,使研究人員能夠在幾分鐘內(nèi)找到罕見且理想的突變,而這些突變通常只能通過詳盡的實驗才能找到。
“人工智能和藥物開發(fā)領(lǐng)域的大量努力都集中在收集有關(guān)某種分子在某項任務(wù)中表現(xiàn)如何的大量數(shù)據(jù),以便計算機能夠?qū)W習(xí)到足夠的知識來設(shè)計出更好的版本,”金說。“值得注意的是,我們已經(jīng)證明,結(jié)構(gòu)可以代替大量數(shù)據(jù),而計算機仍能學(xué)習(xí)。”
“現(xiàn)在,更多的抗體實際上有機會得到優(yōu)化,”同時也是Arc研究所創(chuàng)新研究員的Hie說道。
彎曲成形
當(dāng)面臨尋找最佳氨基酸序列的挑戰(zhàn)時,科學(xué)家通常會投入數(shù)百萬美元,在微型、簡化的生物系統(tǒng)中進行測試。他們希望培養(yǎng)皿中最好的藥物也能成為人類的最佳藥物。
“這需要大量的猜測和檢查,”Hie說。“許多智能算法的目標(biāo)是消除其中的猜測。”
為了加快這一進程,科學(xué)家開發(fā)了類似ChatGPT的機器學(xué)習(xí)算法,該算法根據(jù)數(shù)百萬種蛋白質(zhì)的氨基酸序列進行訓(xùn)練,以預(yù)測理想的突變。
然而,這些模型通常會讓科學(xué)家發(fā)現(xiàn),一旦在實驗室中產(chǎn)生序列,它們就會變得不穩(wěn)定或比開始時更糟糕。
部分原因是蛋白質(zhì)的功能不僅取決于氨基酸序列,還取決于該序列的三維結(jié)構(gòu)。例如,為了引發(fā)免疫反應(yīng),抗體必須具有正確的形狀才能與病毒表面的分子結(jié)合。
研究團隊認為,開發(fā)更好的預(yù)測算法的關(guān)鍵在于結(jié)構(gòu)。因此,他們將基于序列的大型語言模型確定的一長串可能有益的突變限制為那些能夠保留起始蛋白質(zhì)3D形狀的突變。
試驗場
2022年12月,該團隊在最近停產(chǎn)的SARS-CoV-2抗體療法上進行了測試。
“主流理論認為,改進這種抗體的嘗試會失敗,”醫(yī)學(xué)生、生物物理學(xué)研究生、這項研究的主要作者VarunShanker說。“這種病毒太聰明了。它在數(shù)百萬人中傳播的過程中不斷進化,知道如何變異才能避開這些抗體。”
使用純序列模型來優(yōu)化蛋白質(zhì),效果僅提高了兩倍。但采用結(jié)構(gòu)引導(dǎo)方法后,該團隊看到了25倍的提升。
“我們終于趕上了病毒,”同時也是SarafanChEM-H化學(xué)/生物界面培訓(xùn)項目研究員的Shanker說道。
教舊模型新技巧
使用人工智能開發(fā)更好藥物的大部分努力都依賴于“訓(xùn)練”或“監(jiān)督”模型,這涉及生成有關(guān)獨特蛋白質(zhì)序列功能和性能的大量數(shù)據(jù)。這種方法需要大量時間,并會產(chǎn)生針對特定蛋白質(zhì)執(zhí)行特定任務(wù)的定制模型。
該模型不需要輸入任何有關(guān)蛋白質(zhì)的功能、功能如何或任何實驗室實驗的信息。由于結(jié)構(gòu)與功能緊密相關(guān),蛋白質(zhì)的坐標(biāo)成為性能的代表。
對于COVID抗體的研究,他們不僅將結(jié)構(gòu)限制在抗體本身,還將結(jié)構(gòu)限制在抗體與病毒結(jié)合時。從此,他們的模型無需任何訓(xùn)練就能“學(xué)會”抗體結(jié)合的一些規(guī)則。
早期實驗表明,該方法可推廣到其他類型的蛋白質(zhì),如酶,它們有助于催化人體內(nèi)的化學(xué)反應(yīng)。到目前為止,研究人員發(fā)現(xiàn)該模型為科學(xué)家指明了數(shù)十種蛋白質(zhì),平均而言,其中一半比起點更好。
這一工具可能有助于快速應(yīng)對新出現(xiàn)或正在發(fā)展的疾病。它還降低了制造更有效藥物的門檻。
更強效的藥物意味著需要的劑量更低,這意味著一定劑量的藥物可以使更多患者受益。對于艾滋病毒等傳染病,研究表明,大劑量但不頻繁的抗體可以保護患者免受感染,這可能是一種變革。
該團隊正在向任何人免費提供他們的模型和代碼。
“這是一個令人興奮的例子,展示了深度學(xué)習(xí)的力量,它使構(gòu)建更好蛋白質(zhì)的過程變得民主化,”Shanker說。“這不僅讓人們能夠開發(fā)新藥,還開辟了以前無法進入的科學(xué)探索新領(lǐng)域。”
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!