由于測序技術(shù)成本的下降和可用計算能力的增加,如今科學(xué)家生成的數(shù)據(jù)量非常龐大。但是解析所有這些數(shù)據(jù)以發(fā)現(xiàn)有用的信息就像在大海撈針中尋找分子針一樣。
機(jī)器學(xué)習(xí)(ML)和其他人工智能(AI)工具可以顯著加快數(shù)據(jù)分析過程,但大多數(shù)ML工具對于非ML專家來說很難訪問和使用。最近,開發(fā)了自動化機(jī)器學(xué)習(xí)(AutoML)方法,可以自動設(shè)計和部署ML工具,但它們通常非常復(fù)雜,并且需要ML的設(shè)施,而AI領(lǐng)域以外的科學(xué)家很少有這種設(shè)施。
哈佛大學(xué)和麻省理工學(xué)院Wyss生物啟發(fā)工程研究所的一組科學(xué)家現(xiàn)在通過構(gòu)建一個新的、全面的AutoML平臺來滿足這一未滿足的需求,該平臺專為幾乎沒有ML經(jīng)驗的生物學(xué)家設(shè)計。他們的平臺稱為BioAutoMATED,可以使用核酸、肽或聚糖序列作為輸入數(shù)據(jù),其性能可與其他AutoML平臺相媲美,同時需要最少的用戶輸入。該平臺在CellSystems上發(fā)表的一篇新論文中有所描述,可從GitHub下載。
“我們的工具適用于那些無法構(gòu)建自己的自定義ML模型的人,他們發(fā)現(xiàn)自己會問這樣的問題,“我有這個很酷的數(shù)據(jù)集,ML是否適用于它?如何將其放入ML模型中?機(jī)器學(xué)習(xí)的復(fù)雜性阻礙了我進(jìn)一步研究這個數(shù)據(jù)集,那么我該如何克服它呢?'”D.“我們想讓其他領(lǐng)域的生物學(xué)家和專家更容易地使用ML和AutoML的強大功能來回答基本問題,并幫助發(fā)現(xiàn)有意義的生物學(xué)。”
面向所有人的AutoML
像許多偉大的想法一樣,成為BioAutoMATED的種子不是在實驗室里種下的,而是在午餐時種下的。Valeri和共同第一作者LuisSoenksen博士和KatieCollins在WyssInstitute的一張餐桌上一起吃飯時,他們意識到盡管該研究所享有世界級生物研究目的地的聲譽,但只有少數(shù)在那里工作的頂級專家能夠構(gòu)建和訓(xùn)練ML模型可以大大有利于他們的工作。
Soenksen說:“我們決定我們需要為此做點什么,因為我們希望Wyss處于人工智能生物技術(shù)革命的前沿,我們也希望這些工具的開發(fā)由生物學(xué)家推動,為生物學(xué)家服務(wù)。”WyssInstitute的博士后研究員,也是科技領(lǐng)域的連續(xù)創(chuàng)業(yè)者。“現(xiàn)在,每個人都同意人工智能是未來,但四年前當(dāng)我們有了這個想法時,它并不是那么明顯,特別是對于生物研究。所以,它開始作為我們想要構(gòu)建的工具來服務(wù)我們自己和我們的Wyss同事,但現(xiàn)在我們知道它可以提供更多服務(wù)。”
雖然已經(jīng)開發(fā)了各種AutoML系統(tǒng)來簡化從數(shù)據(jù)集生成ML模型的過程,但它們通常都有缺點;其中,每個AutoML工具都被設(shè)計為在搜索最佳解決方案時僅查看一種類型的模型(例如,神經(jīng)網(wǎng)絡(luò))。這將生成的模型限制在一組狹窄的可能性中,而實際上,完全不同類型的模型可能更優(yōu)化。另一個問題是,大多數(shù)AutoML工具并不是專門為將生物序列作為輸入數(shù)據(jù)而設(shè)計的。已經(jīng)開發(fā)了一些使用語言模型來分析生物序列的工具,但這些工具缺乏自動化功能并且難以使用。
為了為生物學(xué)構(gòu)建一個強大的一體式AutoML,該團(tuán)隊修改了三個現(xiàn)有的AutoML工具,每個工具都使用不同的方法來生成模型:AutoKeras,用于搜索最佳神經(jīng)網(wǎng)絡(luò);DeepSwarm,它使用基于群體的算法來搜索卷積神經(jīng)網(wǎng)絡(luò);和TPOT,它使用多種方法搜索非神經(jīng)網(wǎng)絡(luò),包括遺傳編程和自學(xué)習(xí)。BioAutoMATED然后為所有三種工具生成標(biāo)準(zhǔn)化的輸出結(jié)果,以便用戶可以輕松地比較它們并確定哪種類型從他們的數(shù)據(jù)中產(chǎn)生最有用的見解。
該團(tuán)隊構(gòu)建的BioAutoMATED能夠?qū)⑷魏伍L度、類型或生物功能的DNA、RNA、氨基酸和聚糖(在細(xì)胞表面發(fā)現(xiàn)的糖分子)序列作為輸入。BioAutoMATED自動預(yù)處理輸入數(shù)據(jù),然后生成可以僅根據(jù)序列信息預(yù)測生物學(xué)功能的模型。
該平臺還具有許多功能,可幫助用戶確定他們是否需要收集額外數(shù)據(jù)以提高輸出質(zhì)量,了解模型最“關(guān)注”序列的哪些特征(因此可能更具生物學(xué)意義),并為未來的實驗設(shè)計新的序列。
核苷酸和肽和聚糖
為了測試他們的新框架,該團(tuán)隊首先使用它來探索改變一段稱為核糖體結(jié)合位點(RBS)的RNA序列如何影響核糖體與RNA結(jié)合并將其轉(zhuǎn)化為蛋白質(zhì)的效率大腸桿菌。他們將序列數(shù)據(jù)輸入BioAutoMATED,BioAutoMATED確定了一個由DeepSwarm算法生成的模型,該模型可以準(zhǔn)確預(yù)測翻譯效率。
該模型的性能與專業(yè)ML專家創(chuàng)建的模型一樣好,但生成時間僅為26.5分鐘,并且只需要用戶輸入10行代碼(其他模型可能需要750多行)。他們還使用BioAutoMATED來確定序列的哪些區(qū)域似乎對確定翻譯效率最重要,并設(shè)計可以通過實驗測試的新序列。
然后他們繼續(xù)試驗將肽和聚糖序列數(shù)據(jù)輸入BioAutoMATED,并使用結(jié)果來回答有關(guān)這些序列的特定問題。該系統(tǒng)生成了關(guān)于肽序列中的哪些氨基酸對于確定抗體與藥物雷珠單抗(Lucentis)結(jié)合的能力最重要的高度準(zhǔn)確的信息,并且還根據(jù)其序列將不同類型的聚糖分為免疫原性和非免疫原性組.該團(tuán)隊還使用它來優(yōu)化基于RNA的腳趾開關(guān)的序列,為新的腳趾開關(guān)的設(shè)計提供信息,用于實驗測試,用戶的輸入編碼最少。
“最終,我們能夠證明BioAutoMATED可以幫助人們1)識別生物數(shù)據(jù)中的模式,2)就該數(shù)據(jù)提出更好的問題,以及3)快速回答這些問題,所有這些都在一個框架內(nèi)進(jìn)行——無需成為ML專家自己,”凱蒂柯林斯說,她目前是劍橋大學(xué)的研究生,在麻省理工學(xué)院攻讀本科期間從事該項目。
與任何其他ML工具一樣,任何借助BioAutoMATED預(yù)測的模型都需要盡可能在實驗室中進(jìn)行實驗驗證。但該團(tuán)隊希望它可以進(jìn)一步集成到不斷增長的AutoML工具集中,有朝一日將其功能擴(kuò)展到生物序列之外的任何類似序列的對象,例如指紋。
“機(jī)器學(xué)習(xí)和人工智能工具已經(jīng)存在了一段時間,但只是隨著最近用戶友好界面的發(fā)展,它們才開始流行起來,就像ChatGPT一樣,”JimCollins說,他也是麻省理工學(xué)院醫(yī)學(xué)工程與科學(xué)Termeer教授。“我們希望BioAutoMATED能夠讓下一代生物學(xué)家更快、更容易地發(fā)現(xiàn)生命的基礎(chǔ)。”
“使非專家能夠使用這些平臺對于能夠利用ML技術(shù)的全部潛力來解決生物學(xué)及其他領(lǐng)域長期存在的問題至關(guān)重要??铝炙箞F(tuán)隊的這一進(jìn)步是使AI成為關(guān)鍵合作者的重要一步對于生物學(xué)家和生物工程師來說,”Wyss創(chuàng)始董事DonIngber博士說,他也是哈佛醫(yī)學(xué)院和波士頓兒童醫(yī)院的JudahFolkman血管生物學(xué)教授,以及HansjörgWyss生物啟發(fā)工程教授哈佛大學(xué)JohnA.Paulson工程與應(yīng)用科學(xué)學(xué)院(SEAS)。
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!