休斯頓——(2021 年 6 月 28 日)——萊斯大學(xué)的計算機科學(xué)家正在派遣 RAMBO 來拯救基因組研究人員,他們有時需要等待數(shù)天或數(shù)周才能從龐大的 DNA 數(shù)據(jù)庫中獲取搜索結(jié)果。
DNA 測序如此流行,基因組數(shù)據(jù)集的規(guī)模每兩年翻一番,而搜索數(shù)據(jù)的工具卻沒有跟上步伐??缁蚪M比較 DNA 或研究諸如導(dǎo)致 的病毒等生物體進化的研究人員通常要等待數(shù)周才能讓軟件索引大型“宏基因組”數(shù)據(jù)庫,這些數(shù)據(jù)庫每月都在變大,現(xiàn)在以 PB 為單位。
RAMBO 是“重復(fù)合并布隆過濾器”的縮寫,是一種新方法,可以將此類數(shù)據(jù)庫的索引時間從數(shù)周縮短至數(shù)小時,將搜索時間從數(shù)小時縮短至數(shù)秒。萊斯大學(xué)的計算機科學(xué)家上周在計算機協(xié)會數(shù)據(jù)科學(xué)會議 SIGMOD 2021 上介紹了 RAMBO。
“使用傳統(tǒng)方法在大型數(shù)據(jù)庫中查詢數(shù)百萬個 DNA 序列在大型計算集群上可能需要幾個小時,而在單個服務(wù)器上可能需要幾周時間,”蘭博的共同創(chuàng)建者托德·特倫根說,他是賴斯的計算機科學(xué)家,其實驗室專門研究宏基因組學(xué).“除了查詢時間外,減少數(shù)據(jù)庫索引時間也至關(guān)重要,因為基因組數(shù)據(jù)庫的規(guī)模正以驚人的速度持續(xù)增長。”
為了解決這個問題,Treangen 與萊斯大學(xué)計算機科學(xué)家 Anshumali Shrivastava 以及同行評審會議的共同主要作者 Gaurav Gupta 和 Minghao Yan 合作,后者擅長創(chuàng)建使大數(shù)據(jù)和機器學(xué)習(xí)更快、更可擴展的算法。蘭博上的紙。
RAMBO 使用的數(shù)據(jù)結(jié)構(gòu)比最先進的基因組索引方法具有明顯更快的查詢時間以及其他優(yōu)點,例如易于并行化、零假陰性率和低假陽性率。
“RAMBO 的搜索時間比現(xiàn)有方法快 35 倍,”電氣和計算機工程博士生 Gupta 說。在使用 170 TB 微生物基因組數(shù)據(jù)集的實驗中,Gupta 表示,蘭博將索引時間從“在復(fù)雜的專用集群上的六周縮短到在共享商品集群上的九個小時”。
標(biāo)簽: DNA
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!