醫(yī)生根據(jù)癥狀或在體內(nèi)的位置使用標(biāo)準(zhǔn)的疾病分類來幫助診斷。這些分類被稱為疾病分類,可以幫助醫(yī)生知道哪些疾病是密切相關(guān)的,所以它們可能是由相同的潛在問題或相同的治療方法引起的。
了解疾病的一個重要部分是估計其遺傳度,即個體疾病的遺傳變異百分比是由遺傳變異和環(huán)境因素(如接觸污染、感染或創(chuàng)傷)引起的。傳統(tǒng)上,為了計算特定疾病的遺傳率,研究人員需要昂貴的數(shù)據(jù)集,其中應(yīng)該包含各種醫(yī)學(xué)和遺傳數(shù)據(jù)以及家庭關(guān)系的詳細(xì)知識。在一項新的研究中,芝加哥大學(xué)的數(shù)據(jù)科學(xué)家估計了遺傳力,并利用電子健康記錄中的數(shù)據(jù)繪制了數(shù)千種疾病之間的關(guān)系圖。
該研究于2019年12月3日發(fā)表于《自然通訊》,計算了平均壽命內(nèi)各種疾病患病率的統(tǒng)計曲線,表明這種趨勢傾向于發(fā)生在生命早期或晚期。研究人員還創(chuàng)建了“疾病嵌入”或疾病分組,根據(jù)健康記錄中的診斷代碼和注釋顯示這些疾病之間的密切關(guān)系。利用疾病嵌入揭示的這些曲線和模式的相似性,研究人員可以估計疾病之間的遺傳力和遺傳相關(guān)性。
UChicago的數(shù)據(jù)科學(xué)家、該論文的資深作者Andrey Rzhetsky博士說:“過去對疾病之間的遺傳力或遺傳與環(huán)境之間的相關(guān)性的每一個新的估計都是一件大事?!薄霸谶@里,我們可以估計成千上萬的遺傳力值和成千上萬的相關(guān)性,這在過去是非常昂貴和大規(guī)模的?!?
早發(fā)和晚發(fā)
為了建立該團(tuán)隊的統(tǒng)計模型,本文的第一作者、博士后研究員耿耿介博士使用了Truven MarketScan的數(shù)據(jù),這是一個11年間美國1.51億人不明健康索賠的數(shù)據(jù)庫。這些數(shù)據(jù)還包括丹麥國家患者登記中心(21年560萬)和瑞典國家健康登記中心(44年940萬)的數(shù)據(jù)。然后,他們創(chuàng)建了疾病流行率曲線,并繪制了各年齡段患病人口的百分比。
該曲線記錄了整個預(yù)期壽命期間疾病患病率的統(tǒng)計顯著變化。曲線的不同極端和形狀表明,疾病在年輕時(早發(fā))或老年時(晚發(fā))更常見。研究人員還可以識別曲線上的下降或峰值,這可能是可能影響疾病的環(huán)境觸發(fā)事件的信號,例如青春期、飲食變化、創(chuàng)傷或感染。
該團(tuán)隊還利用神經(jīng)網(wǎng)絡(luò)模型分析疾病何時出現(xiàn)在病歷中,建立了“疾病嵌入”或疾病之間的關(guān)系。這種分析是仿照自然語言處理,通過分析周圍的單詞來定義單詞的基本語義。在健康檔案中,疾病就像一個詞,其一生發(fā)展的歷史記錄就是一句話。例如,隨著醫(yī)生縮小診斷范圍,“頭痛”之后可能是“偏頭痛”。因此,當(dāng)你把它們畫在二維地圖上時,頭痛似乎比胃痙攣更容易引起偏頭痛。
Rzhetsky說:“系統(tǒng)正在通過優(yōu)化每種疾病的20個參數(shù),從真實的一系列患者數(shù)據(jù)中學(xué)習(xí)?!薄霸谶@種情況下,考慮到患者過去的健康史,網(wǎng)絡(luò)試圖預(yù)測接下來會發(fā)生什么。你可以像醫(yī)生診斷時你腦子里想的那樣去想?!?
識別新模式
當(dāng)他們研究數(shù)據(jù)時,出現(xiàn)了幾種模式。在美國數(shù)據(jù)中,早發(fā)疾病的數(shù)量多于晚發(fā)疾病,但在人群中的發(fā)病率較低。這可能是因為常規(guī)的新生兒篩查和兒童監(jiān)測往往會發(fā)現(xiàn)更多的疾病,或者是因為具有強烈遺傳成分的疾病往往會更早發(fā)作,導(dǎo)致更多的死亡。
當(dāng)兩種疾病僅通過遺傳學(xué)密切相關(guān)時,流行曲線的形狀可能會有很大不同。如果僅通過環(huán)境因素聯(lián)系起來,它們非常相似,但當(dāng)環(huán)境和遺傳相關(guān)性高時,曲線最相似。
研究人員還發(fā)現(xiàn),一些看似密切相關(guān)的疾病(如精神疾病)根據(jù)平均發(fā)病年齡被分為不同的組。例如,注意力缺陷多動障礙和自閉癥發(fā)作較早,而精神分裂癥、雙相情感障礙和抑郁癥往往發(fā)作較晚。
賈說,如此大的健康數(shù)據(jù)集的初始操作驗證了他們基于曲線形狀相似性的疾病分類方法。在高水平上,結(jié)果與疾病組之間公認(rèn)的分類和關(guān)聯(lián)相匹配,但是發(fā)現(xiàn)了一些事故。比如發(fā)現(xiàn)寄生蟲感染與神經(jīng)纖維瘤病、耳膜疾病、成骨不全(脆性骨病)、先天性眼部異常等一系列非傳染性疾病一致。
按年齡和性別劃分的疾病流行曲線以前從未像這項研究那樣進(jìn)行過系統(tǒng)的比較(點擊此處查看500多種疾病的性別和國家分級流行曲線的可搜索數(shù)據(jù)庫)?,F(xiàn)在,該團(tuán)隊希望改進(jìn)這些工具,并使用它們來填補尚未充分研究的情況下的空白。
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!