對于下一代測序來說,這是一個激動人心的時刻。在過去的一年里,多家新公司都進入了美國市場,每家公司都有自己的新興平臺和新技術(shù)。盡管該領(lǐng)域的許多方面存在很多不確定性,但每個人都同意,未來將帶來更多的測序數(shù)據(jù)。而且,隨著儀器產(chǎn)生更多的數(shù)據(jù),計算平臺也必須迎難而上。
現(xiàn)在,博德研究所和1999年發(fā)明圖形處理單元(GPU)的硅谷微處理巨頭英偉達正在合作。兩家公司宣布建立合作伙伴關(guān)系,為Terra云平臺(Broad廣泛使用的基因組分析平臺)提供Nvidia的AI和加速工具。他們說,結(jié)果將是更快地分析更多數(shù)據(jù)。
這種合作關(guān)系建立在幾個平臺的基礎(chǔ)上,這些平臺已經(jīng)改變了研究人員分析基因組數(shù)據(jù)的能力。
Broad的數(shù)據(jù)科學和數(shù)據(jù)工程小組開發(fā)了廣泛用于解釋序列數(shù)據(jù)的主力(通常作為FASTQ文件從序列器中取出)?;蚪M分析工具包(GATK)側(cè)重于DNA和RNA-seq數(shù)據(jù)的變異發(fā)現(xiàn)和基因分型。該程序在基因組學界被廣泛使用。但是,使用它需要對生物信息學有一定程度的熟悉。
最近,Broad與Verily Life Sciences合作開發(fā)了Terra平臺,該平臺運行在Google的云上。Terra 是一個可擴展的開源平臺,不僅允許研究人員訪問數(shù)據(jù),還可以運行分析工具并允許協(xié)作。最重要的是,它易于使用,不需要與GATK相同的生物信息學背景。這是一種分析基因組的“點擊”方法,基因組學專家、組學博客作者Keith Robison博士指出。
此次合作將把英偉達的Clara Parabricks帶到Terra平臺上。英偉達醫(yī)療保健副總裁金伯利·鮑威爾(Kimberly Powell)表示,英偉達“在過去三年中一直致力于加速計算工具”。她指出,該程序在多云平臺上運行,因此整個Terra平臺都可以利用它。
Parabricks 是一款用于測序數(shù)據(jù)二次分析的 GPU 加速軟件套件,現(xiàn)已在六個新的 Terra 工作流程中提供。用戶可以使用Clara Parabricks在大約一小時內(nèi)分析整個基因組(相比之下,基于CPU的環(huán)境需要24小時)。對于 Broad 的 GATK 種系工作流程,在 GPU 上使用 Parabricks 進行分析的成本不到一半。
Broad首席數(shù)據(jù)官兼Eric和Wendy Schmidt中心聯(lián)合主任Anthony Philippakis博士告訴GEN,NGS的計算需求(計算和存儲需求)只會繼續(xù)增長。他指出,過去圍繞降低試劑成本的話題已經(jīng)轉(zhuǎn)移到測序數(shù)據(jù)上。而且,這需要新一代硬件加速,以更便宜、更快、更好地處理數(shù)據(jù)。
此外,Nvidia 正在直接向 GATK 工具包貢獻一個新的深度學習模型。
使用大型語言模型(LLM),研究人員將開發(fā)DNA和RNA的基礎(chǔ)模型,以使用Nvidia的BioNeMo平臺更好地了解人類生物學。BioNeMo 是一個 AI 應(yīng)用程序框架,其中包括用于蛋白質(zhì)和化學的預(yù)訓練 LLM,可簡化訓練、推理和擴展。BioNeMo是Nvidia Nemo Megatron框架的擴展,對化學,蛋白質(zhì)和DNA / RNA序列具有特定領(lǐng)域。
BioNeMo允許開發(fā)人員有效地訓練和部署具有數(shù)十億個參數(shù)的生物學LLM。來自兩個組織的團隊將共同開展這項工作,創(chuàng)建新模型以添加到BioNeMo系列中,并在Terra平臺中提供。
在Nvidia的公司博客上,他們描述了四種預(yù)訓練語言模型:
ESM-1:這種蛋白質(zhì)LLM最初由Meta AI Labs發(fā)表,處理氨基酸序列以生成可用于預(yù)測各種蛋白質(zhì)特性和功能的表示。它還提高了科學家理解蛋白質(zhì)結(jié)構(gòu)的能力。
OpenFold:創(chuàng)建最先進的蛋白質(zhì)建模工具的公私聯(lián)盟將通過BioNeMo服務(wù)訪問其開源AI管道。
MegaMolBART:經(jīng)過1億個分子的訓練,這種生成化學模型可用于反應(yīng)預(yù)測、分子優(yōu)化和從頭分子生成。
ProtT5:該模型由慕尼黑工業(yè)大學RostLab領(lǐng)導,包括NVIDIA合作開發(fā),將ESM-1b等蛋白質(zhì)LLM的功能擴展到序列生成。
博德研究所的研究人員還將獲得Monai,一個用于醫(yī)學成像AI的開源深度學習框架,以及一個名為Nvidia rapids的GPU加速數(shù)據(jù)科學工具包,用于更快的數(shù)據(jù)準備,可用于基因組單細胞分析。
很容易理解為什么Broad想要獲得Nvidia的GPU提供的功能。但英偉達為什么要采取這一舉措呢?“他們希望將GPU轉(zhuǎn)移到醫(yī)療保健領(lǐng)域,”Robison指出。而且,他們的目光可能超出了基因組。將這種帶寬帶到 Broad 意味著分析基因組學、轉(zhuǎn)錄組學、GWAS 研究、病理學、細胞成像和臨床健康記錄。
鮑威爾對此表示同意,并指出他們“才剛剛開始這項研究計劃”。
標簽:
免責聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!