DeepMind 的新型 AI 臨床助理在臨床模擬中測試了多模態診斷、安全架構以及人機效能差距

Google DeepMind谷歌旗下人工智慧部門推出了一項名為「AI co-clinician」的研究計劃，旨在探索多模態人工智慧系統如何更有效地支援醫護人員和病患。該計畫推出之際，全球醫療衛生系統正面臨越來越大的壓力，需要在改善醫療效果、降低成本和擴大醫療服務覆蓋範圍的同時，應對世界衛生組織預測2030年將出現的超過10萬名醫護人員缺口。

這套新系統旨在探索一種「三方協作」模式，在這種模式下，人工智慧代理將與醫生和患者共同協作，而不是取代臨床判斷。 DeepMind 表示，其目標是開發能夠擴大臨床醫生服務範圍的工具，同時確保醫生對決策有最終決定權。該公司將此工作視為其醫療人工智慧研究的下一步，此前已推出 MedPaLM（專注於醫學知識測試）和 AMIE（用於基於文字的模擬諮詢）等系統。

AI輔助臨床醫師的一項關鍵特性是其能夠處理文字以外的資訊。該系統已通過即時音訊和視訊測試，使其能夠觀察步態、呼吸模式和可見的皮膚變化等生理特徵。在遠距醫療模擬中，該模型能夠指導患者完成部分身體檢查，並協助完成諸如檢查吸入器使用技巧或幫助識別肩部損傷等任務。這些能力表明，多模態AI最終有望支持遠距會診，尤其是在視覺和聽覺觀察至關重要的場景下。

雙代理安全設計和臨床基準凸顯了DeepMind Co-Clinian系統的可靠性。

DeepMind 也強調了系統內建的安全控制措施。這款人工智慧輔助臨床醫生系統採用雙代理設計，其中「規劃者」會持續審查互動過程，並檢查「發言者」是否遵守臨床規範。該公司表示，這種結構旨在減少不安全的產出，並提高醫療環境中的可靠性，因為在醫療環境中，事實準確性和克制性至關重要。

研究團隊從多個方面對該系統進行了評估。其中一項測試採用了NOHARM安全框架，以衡量錯誤回應和未能呈現重要資訊的情況。在涉及98個初級保健查詢的盲法對比中，該系統在97個案例中未記錄到任何重大錯誤，並且優於其他證據綜合工具。 DeepMind表示，這表明該模型對於尋求可靠、高品質臨床資訊的臨床醫生來說非常有用。

該研究還使用OpenFDA RxQA基準測試評估了該系統處理藥物相關問題的能力。 OpenFDA RxQA基準測試旨在測試系統對藥物和治療的知識和推理能力。在開放式評估中，人工智慧輔助臨床醫生表現優於其他前沿模型，顯示該系統在日常護理計劃中這一至關重要的領域取得了進展。

然而，在面向患者的模擬場景中，人類醫師整體表現仍然更勝一籌。研究團隊與哈佛大學和史丹佛大學的學術醫生合作，進行了一項隨機研究，該研究包含20個合成臨床場景和10名扮演患者的醫生。在超過140個評估領域中，醫生在識別危險信號和指導身體檢查方面均優於人工智慧，儘管該系統在包括分診在內的68個類別中表現與醫生持平或更佳。研究結果表明，該工具作為輔助系統可能更有價值，而非取代臨床專業知識。

DeepMind表示，其更廣泛的目標是開發能夠以值得信賴、基於臨床且適應真實醫療環境的方式輔助醫師的AI。該公司正與包括美國、印度、澳洲、紐西蘭、新加坡和阿聯酋在內的多個國家繼續進行研究合作，致力於在更多樣化的醫療環境中測試該系統。