導讀 人工智能工具可以快速準確地創(chuàng)建患者 CT 掃描或 X 射線的詳細敘述報告,可以大大減輕忙碌的放射科醫(yī)生的工作量。這些人工智能報告不僅...
人工智能工具可以快速準確地創(chuàng)建患者 CT 掃描或 X 射線的詳細敘述報告,可以大大減輕忙碌的放射科醫(yī)生的工作量。
這些人工智能報告不僅僅識別圖像上是否存在異常,還傳達了復雜的診斷信息、詳細的描述、細致入微的發(fā)現和適當程度的不確定性。簡而言之,它們反映了人類放射科醫(yī)生如何描述他們在掃描中看到的內容。
幾種能夠生成詳細敘述報告的人工智能模型已經開始出現。隨之而來的是自動評分系統(tǒng),可以定期評估這些工具,以幫助告知他們的發(fā)展并提高他們的表現。
那么,當前系統(tǒng)衡量人工智能模型放射學性能的效果如何?
哈佛醫(yī)學院研究人員 8 月 3 日在《模式》雜志上發(fā)表的一項新研究表明,答案是好的,但并不是很好。
研究人員表示,確保評分系統(tǒng)的可靠性對于人工智能工具的持續(xù)改進和臨床醫(yī)生對它們的信任至關重要,但研究中測試的指標未能可靠地識別人工智能報告中的臨床錯誤,其中一些錯誤很嚴重。研究人員表示,這一發(fā)現凸顯了改進的迫切需要以及設計忠實準確地監(jiān)控工具性能的高保真評分系統(tǒng)的重要性。
該團隊測試了人工智能生成的敘述報告的各種評分指標。研究人員還要求六名人類放射科醫(yī)生閱讀人工智能生成的報告。
分析表明,與人類放射科醫(yī)生相比,自動評分系統(tǒng)評估人工智能生成報告的能力較差。他們誤解了人工智能工具所犯的臨床錯誤,在某些情況下甚至忽視了這一錯誤。
標簽:
免責聲明:本文由用戶上傳,如有侵權請聯系刪除!