根據《深度學習輔助決策醫療器械軟件審評要點》,人工智能(AI)醫療軟件類臨床試驗設計需要基于軟件的預期用途(輔助決策、輔助篩查、識別、診斷、治療等-非輔助決策)、使用場景和核心功能(前處理、流程優化、常規后處理)進行試驗設計,確定觀察指標、樣本量估計、入排標準、隨訪以及實施機構等要求,來驗證軟件的安全性和有效性。
1.試驗設計類型:
a.建議優先選擇同品種產品或臨床參考標準(即臨床金標準)進行非劣效對照設計,例如:超聲輔助診斷軟件系統可選擇同品種分析產品,如沒有同品種的情況,可選擇臨床金標準方法(由2名高年資病理醫師一致判定的結果作為金標準)采用同期自身配對設計。
b.若無同品種產品,且難以獲取臨床參考標準(如違背倫理)可選擇用戶結合軟件聯合決策(醫生+AI)與用戶單獨決策(醫生)進行優效對照設計;非劣效或優效界值的確定應有充分臨床依據。考慮到用戶的差異性,可選擇多閱片者多病例(MRMC)試驗設計。
2.觀察指標:建議結合適用人群、病變等層面選觀察指標,一般選擇敏感性、特異性、ROC/AUC作為主要觀察指標,亦可以在此基礎上根據軟件特點選擇敏感性/特異性衍生指標、ROC/AUC衍生指標、組內相關系數、Kappa系數、時間效率、數據有效使用率等指標作為觀察指標。
3.入排標準:應當基于目標疾病的流行病學特征目,如疾病構成(分型、分級、分期)、人群分布(健康狀態、性別、年齡)、統計指標(患病率、治愈率)、并發癥與類似疾病等保證陽性樣本和陰性樣本選取得合理性和充分性。
4.實施機構:不同于訓練數據主要來源機構,地域分布盡可能廣泛(涵蓋全國東西南北中區域)機構數量盡可能多,以確認算法泛化能力。
例如:用于大樣本量輔助篩查的軟件,以提高輔助診斷時間的時間效率為首要目標的某些軟件,注重挺高診斷的靈敏度,無同品種產品也無臨床參考的金標準,其臨床設計可選擇用戶結合軟件(醫生+AI)聯合決策與用戶單獨決策(醫生)進行交叉對照設計,以敏感性、特異性、時間效率作為主要觀察指標,其中敏感性、特異性可以為非劣效性對照,時間效率指標應當為優效指標應當為優效對照。
5.樣本的選擇:為鼓勵創新并降低臨床試驗成本,臨床試驗可使用回顧性數據,但應在設計時考慮并嚴格控制偏倚問題,原則上應當包含多個不同地域臨床機構(非訓練數據主要來源機構)的同期數據。
使用原則(基于風險),軟件安全性級別判定詳見軟件指導原則:
1) 高風險軟件:適用范圍變更應當開展臨床試驗,其他情況原則上可使用回顧性研究。
2) 中低風險軟件:可使用回顧性研究。
例如國家局發布的“人工智能類醫療器械注冊申報公益培訓”上糖尿病視網膜病變的相關要求,總共提到了三種糖網AI臨床試驗的方法,這里介紹其中兩種:
1. 以產品有效性為參考,在實際中,AI產品應滿足“AI>醫生”,若強調AI對醫生的輔助作用,則滿足“醫生+AI>醫生”。
從理論上這是一個很好的臨床評價方法,但實際評價結果與醫生水平有很大關系。在目前臨床試驗下,公司多選取三甲醫院來做,這導致AI輔助作用被弱化。而基層醫院的醫生水平參差不齊,很難設一個統的標準,所以Al主要的應用場景是在基層醫院/體檢中心的輔助篩查和輔助診斷。
2. 以單組目標值作為參考,主要觀察AI產品性能與其聲稱的性能是否一致;是否FDA已經批準的IDX-DR產品采用的臨床試驗方法。與有效性相比,這種方法受人為因素的干擾較小,具有比較好的客觀性。
在這一類AI產品中,企業必須嚴格進行數據控制,同時考慮諸多不同的場景,如考慮輔助篩查、輔助診斷、隨診分析的流程差異;三甲醫院、基層醫院、體檢中心等場景差異;不同場景和機型下的圖片質量差異;是否需輔助轉診:需要不需要轉診等。
截至2018年11月底,藥監局收到創新AI特別審批申請1054項,192項同意按照特別程序審批。51項創新醫療器械已通過特別程序獲準上市。遺憾的是,會上并未透露AI相關產品過審的信息。
參考文獻:《深度學習輔助決策醫療器械軟件審評要點》