費城兒童醫(yī)院(CHOP)的一個研究團隊開發(fā)了一種創(chuàng)新的計算工具,為研究人員從DNA中復制RNA時檢測RNA的不同剪接方式提供了一種有效的方法。由于RNA剪接的變化在許多疾病中起著至關重要的作用,這種新的分析工具將為尋找疾病生物標志物和治療靶點提供更大的能力,即使是從覆蓋率適中的RNA測序數(shù)據(jù)集。
研究負責人易星博士和CHOP計算與基因組醫(yī)學中心的第一作者、博士生張子君、潘志成博士本周報告了他們關于自然方法的DARTS框架。Darts(轉錄物剪接的深度學習增強RNA-seq分析)使用基于深度學習的預測來利用RNA測序(RNA-seq)的公共數(shù)據(jù)集中的大量可用信息,從而允許對替代剪接的新見解。
“DARTS的概念創(chuàng)新在于,它提供了一個從公共領域的大數(shù)據(jù)到小數(shù)據(jù)集的橋梁,以便與單個研究人員進行關鍵研究,”Xing說?!癉ARTS提供了將大量公開的RNA-seq數(shù)據(jù)轉化為知識庫(表示為深度神經(jīng)網(wǎng)絡)來調(diào)控剪接的能力。利用這個計算框架,我們可以把它推廣到任何一個實驗室。這可能很有用,可以提高實驗效率,實現(xiàn)新發(fā)現(xiàn)。只需2000萬或3000萬個RNA-seq讀數(shù),你就可以對你從未見過的事物做出明智的猜測和推斷?!?
邢長期致力于選擇性剪接——將單個基因的DNA信息以不同的方式拼接在一起,在基因轉錄后產(chǎn)生不同的信使RNA和蛋白質產(chǎn)物。每個基因平均產(chǎn)生10個或更多這樣的產(chǎn)物,有時多達38,000個。這些選擇性剪接的變異可能會導致疾病,改變疾病的風險,或者使疾病變得更輕或更嚴重。
大規(guī)模平行RNA測序現(xiàn)在是研究人員用來研究選擇性剪接的標準技術。然而,為了準確測量選擇性剪接,RNA測序實驗必須非常徹底。人們一致認為,對選擇性剪接的分析需要超過1億個序列,但由于成本高,大多數(shù)研究人員負擔不起他們的核糖核酸測序實驗。此外,許多醫(yī)學上重要的基因沒有高水平表達。即使是深度RNA測序實驗,也無法對這些基因產(chǎn)生足夠的覆蓋,因此幾乎無法測量基因的選擇性剪接模式。
在目前的研究中,邢的團隊首先利用國家人類基因組研究所發(fā)起的國際項目ENCODE Con sortium的大規(guī)模公共域RNA測序數(shù)據(jù),鑒定基因組中的所有功能元件,包括那些在RNA水平上發(fā)揮作用的元件。利用這些海量的數(shù)據(jù)集,DARTS訓練深度神經(jīng)網(wǎng)絡來預測選擇性剪接的變化。該模型包含1500個核糖核酸結合蛋白的信使核糖核酸水平和3000個序列特征。
為了讓研究人員在自己的研究中使用深度學習模型,深度神經(jīng)網(wǎng)絡預測使用一種稱為貝葉斯假設檢驗的統(tǒng)計框架,與特定生物樣本上生成的實際核糖核酸測序數(shù)據(jù)相結合。研究人員可以在各自的實驗室中使用這些信息來更好地表征不同生物條件下的選擇性剪接。
研究人員將DARTS應用于肺癌和前列腺癌細胞系,以測試它們預測細胞剪接模式的能力。這些細胞系是上皮細胞向間充質細胞過渡的模型——胚胎發(fā)育和癌癥轉移的重要過程。通過深度學習預測,DARTS發(fā)現(xiàn)了許多基因中替代剪接模式的變化,這些變化由于在細胞中低水平表達而逃過了傳統(tǒng)計算工具的檢測。研究小組隨后進行了實驗來驗證這些新穎的預測。這些新發(fā)現(xiàn)可能使科學家能夠更好地識別疾病的生物標志物和治療目標。
“DARTS提供了一個令人興奮的概念框架,我們可以適應其他用途,”Xing補充道。"例如,我們可以創(chuàng)建一個版本,預測特定患者組織中的選擇性剪接."這可能有助于通過組織活檢來提高罕見疾病的診斷,組織活檢是一種在兒科中心(如CHOP)使用的有用技術,通常可以評估兒童是否患有可疑或未診斷的疾病。
邢總結說,DARTS可以讓科學家發(fā)現(xiàn)更多未探索基因的貢獻,這些基因可能不會在高水平上表達,但對健康和疾病有重要影響?!癉ARTS為轉錄組中的暗物質提供了一個新的窗口,”他說。
標簽:
免責聲明:本文由用戶上傳,與本網(wǎng)站立場無關。財經(jīng)信息僅供讀者參考,并不構成投資建議。投資者據(jù)此操作,風險自擔。 如有侵權請聯(lián)系刪除!