2022年3月9日,國家藥監局器審中心(CMDE)發布了《人工智能醫療器械注冊審查指導原則》,該指導原則適用于人工智能醫療器械的注冊申報,包括第二類、第三類人工智能獨立軟件和含有人工智能軟件組件的醫療器械(包括體外診斷器械);適用于自研軟件的注冊申報,現成軟件組件參照執行,不適用于外部軟件環境。也可用作人工智能醫療器械的體系核查參考。質量管理軟件若采用人工智能技術實現其功能或用途,亦可參考本指導原則的適用要求。上述內容可以看出,該指導原則是僅針對軟件部分的指導原則,對于硬件部分,還應按照常規醫療器械產品進行研究,生產,質控。
1.人工智能醫療器械定義
人工智能醫療器械是指基于“醫療器械數據”,采用人工智能技術實現其預期用途(即醫療用途)的醫療器械。醫療器械數據是指醫療器械產生的用于醫療用途的客觀數據,如醫學影像設備產生的醫學圖像數據(如X射線、CT、MRI、超聲、內窺鏡、光學等圖像)、醫用電子設備產生的生理參數數據(如心電、腦電、血壓、無創血糖、心音等波形數據)、體外診斷設備產生的體外診斷數據(如病理圖像、顯微圖像、有創血糖波形數據等);在特殊情形下,通用設備(非監管對象)產生的用于醫療用途的客觀數據亦屬于醫療器械數據,如數碼相機拍攝的用于皮膚疾病診斷的皮膚照片、健康電子產品采集的用于心臟疾病預警的心電數據等。基于醫療器械數據包括醫療器械數據的生成、使用等情況,其中使用情況含單獨使用醫療器械數據,或者以醫療器械數據為主聯合使用非醫療器械數據(如患者主訴信息、檢驗檢查報告結論、電子病歷、醫學文獻等)。
由此可見,基于非醫療器械數據的醫學人工智能產品,或者采用人工智能技術實現非醫療用途和非醫療器械功能的醫療器械均不屬于人工智能醫療器械。因此,與醫學相關的人工智能產品是否按醫療器械管理,應根據相應分類界定指導原則進行判定,必要時申請醫療器械分類界定。
2.人工智能醫療器械的風險管理
指導原則涉及的人工智能醫療器械僅為軟件部分,因此以下僅對軟件部分的風險管理進行討論。人工智能醫療器械軟件的風險水平亦可用軟件安全性級別進行表述,軟件安全性級別越高,其生存周期質控要求越嚴格,注冊申報資料越詳盡,同時由于全新類型的潛在未知風險多于成熟類型,故需結合成熟度予以綜合考慮。
人工智能醫療器械的軟件安全性級別的判定依據:基于產品的預期用途、使用場景、核心功能進行綜合判定,其中預期用途主要考慮用途類型、重要程度、緊迫程度等因素,使用場景主要考慮使用場合、疾病特征、適用人群、目標用戶等因素,核心功能主要考慮功能類型、核心算法、輸入輸出、接口等因素。亦可根據風險管理所確定的風險等級進行判定,軟件安全性級別與風險等級的分級可以不同,但二者存在對應關系,因此可根據風險等級來判定軟件安全性級別,但應在采取風險控制措施之前進行判定。
人工智能醫療器械的主要風險:
從算法角度包括過擬合和欠擬合,其中過擬合是指算法對于訓練數據過度學習而將非普遍規律作為重要特征,欠擬合是算法對于訓練數據學習不充分而遺漏重要特征,均會降低算法泛化能力。
從用途角度,輔助決策主要包括假陰性和假陽性,其中假陰性即漏診,可能導致后續診療活動延誤,特別是要考慮快速進展疾病的診療活動延誤風險,而假陽性即誤診,可能導致后續不必要的診療活動;非輔助決策從算法設計目標能否得以實現角度,亦可參考輔助決策分為假陰性和假陽性。
此外,進口人工智能醫療器械還需考慮中外差異風險,如人種、流行病學特征、臨床診療規范等差異。
3.人工智能軟件開發過程中與常規軟件的主要區別
(一)需求分析
需求分析除了與常規軟件相同的以用戶需求與風險為導向,結合產品的預期用途、使用場景、核心功能,綜合考慮法規、標準、用戶、產品、數據、功能、性能、接口、用戶界面、網絡安全、警示提示等需求,還應重點考慮數據收集、算法性能、使用限制等要求。
(二)數據庫建設
數據收集基于合規性要求,主要考慮數據采集、數據整理、數據標注、數據集構建等活動的質控要求,以保證數據質量和算法訓練效果。
- 據采集需考慮采集設備、采集過程、數據脫敏等質控要求,并建立數據采集操作規范。數據采集亦可使用歷史數據,需結合樣本規模、采集難度等影響因素合理選擇數據采集方式。若適用,數據采集需經倫理委員會批準。
- 數據整理基于原始數據庫考慮數據清洗、數據預處理的質控要求。數據清洗需明確清洗的規則、方法、結果,數據預處理需明確處理的方法(如濾波、增強、重采樣、尺寸裁剪、均一化等)、結果。數據整理所用軟件工具(含腳本,下同)均需明確名稱、型號規格、完整版本、制造商、運行環境,并進行軟件確認。
- 數據標注作為有監督學習數據質控的關鍵環節,需建立數據標注操作規范,明確標注資源管理、標注過程質控、標注質量評估等要求。
- 數據標注作為有監督學習數據質控的關鍵環節,需建立數據標注操作規范,明確標注資源管理、標注過程質控、標注質量評估等要求。
- 基于標注數據庫構建訓練集(用于算法訓練)、調優集1(若有,用于算法超參數調優)、測試集(用于算法性能評估),明確訓練集、調優集、測試集的劃分方法、劃分依據、數據分配比例。訓練集原則上需保證樣本分布具有均衡性,測試集、調優集原則上需保證樣本分布符合真實情況,訓練集、調優集、測試集的樣本應
兩兩無交集并通過查重予以驗證。
1)算法選擇
算法選擇提供所用算法的名稱、類型(如有監督學習、無監督學習,基于模型、基于數據,白盒、黑盒)、結構(如層數、參數規模)、輸入輸出數據類型、流程圖、算法編程框架、運行環境等基本信息,并明確算法選用依據,包括選用的理由和基本原則。
2)算法訓練
算法訓練需基于訓練集、調優集進行訓練和調優,考慮評估指標、訓練方式、訓練目標、調優方式、訓練數據量-評估指標曲線等要求。
3)算法性能評估
算法性能評估作為軟件驗證的重要組成部分,需基于測試集對算法設計結果進行評估,綜合考慮假陰性與假陽性、重復性與再現性、魯棒性/健壯性、實時性等適用評估要求,以證實算法性能滿足算法設計目標,并作為軟件驗證、軟件確認的基礎。亦可基于第三方數據庫(詳見后文)開展算法性能評估。
(四)驗證與確認
軟件驗證與確認過程與常規非人工智能軟件一致,軟件確認部分的測試可以基于用戶需求,由預期用戶在真實或模擬使用場景下予以開展,亦可基于測評數據庫予以開展。
4.人工智能醫療器械臨床評價要求
人工智能醫療器械的臨床評價應基于核心功能或核心算法,結合預期用途和成熟度予以綜合考慮:非輔助決策類 功能基于核心功能開展同品種醫療器械比對,全新的功能、算法和用途原則上均需開展臨床評價;輔助決策類功能基于核心算法開展同品種醫療器械比對,所選同品種醫療器械的臨床證據原則上需基于臨床試驗(含回顧性研究),全新的功能、算法和用途原則上均需開展臨床試驗。
同時,開展算法性能比較分析,若各類測試場景(含臨床評價)算法性能變異度較大,詳述原因并基于分析結果明確產品使用限制和必要警示提示信息。
最后,結合算法訓練、算法性能評估、臨床評價等結果開展算法性能綜合評價,針對訓練樣本量和測試樣本量過少、測試結果明顯低于算法設計目標、算法性能變異度過大等情況,對產品的適用范圍、使用場景、核心功能進行必要制。
5.人工智能醫療器械相關技術研究
1)移動計算與云計算
人工智能醫療器械若使用移動計算、云計算等技術,則遵循相關指導原則要求。
人因與可用性
2)建議加強人工智能醫療器械的人因設計以提升可用性,將用戶錯誤使用的風險降至可接受水平,特別是軟件用戶界面。
3)壓力測試
注冊申請人需根據產品實際情況開展壓力測試,以全面深入評估算法性能,必要時可引入對抗樣本開展對抗壓力測試。若未開展相應測試或測試結果不佳,均需對產品的適用范圍、使用場景、核心功能進行必要限制,并在說明書中明確產品使用限制和必要警示提示信息。
4)對抗測試
建議注冊申請人開展對抗測試,以全面深入評估算法性能。若未開展相應測試或測試結果不佳,均需明確產品使用限制和必要警示提示信息。
5)算法研究報告
人工智能算法或算法組合再初次發布和再次發布時應提交算法研究報告,包括算法基本信息、算法風險管理、算法需求規范、數據質控、算法訓練、算法驗證與確認、算法可追溯性分析、結論等內容。
6.人工智能醫療器械注冊資料要求
1)算法研究資料(報告)
對于軟件安全性級別為中等、嚴重級別的產品,全新類型在軟件研究資料中以算法為單位,提交每個人工智能算法或算法組合的算法研究報告;成熟類型在軟件研究資料中明確算法基本信息即可,無需提供算法研究資料。對于軟件安全性級別為輕微級別的產品,在軟件研究資料中明確算法基本信息即可,無需提供算法研究資料。
2)用戶培訓方案
對于軟件安全性級別為嚴重級別、預期由患者使用或在基層醫療機構使用的產品,原則上需單獨提供一份用戶培訓方案,包括用戶培訓的計劃、材料、方式、師資等。
3)產品技術要求
產品技術要求中可不含基于測評數據庫測試的性能指標,也可以含有,若含有該指標則需在“附錄”中明確測評數據庫的基本信息(如名稱、型號規格、完整版本、責任方、主文檔登記編號等)。基于其他類型第三方數據庫測試的性能指標,原則上無需在產品技術要求中體現。
4)說明書
人工智能醫療器械的說明書相對于其他軟件產品來說,需要增加下列內容:
1)對于輔助決策類產品,說明書需明確人工智能算法的算法性能評估總結(測試集基本信息、評估指標與結果)、臨床評價總結(臨床數據基本信息、評價指標與結果)、決策指標定義(或提供決策指標定義所依據的臨床指南、專家共識等參考文獻)等信息。
2)若采用基于數據的人工智能算法,說明書還需補充算法訓練總結信息(訓練集基本信息、訓練指標與結果)。
3)若產品采用人工智能黑盒算法,則需根據算法影響因素分析報告,在說明書中明確產品使用限制和必要警示提示信息。