發布時間:2022-08-25 09:37:17 瀏覽 次
作者:李小江,曾祥衛,孫志剛
單位:《醫療裝備》雜志2022年第15期
〔關鍵詞〕CT影像;人工智能;軟件;技術審評
〔中圖分類號〕R445 〔文獻標識碼〕A
〔文章編號〕1002-2376(2022)15-0028-04
基金項目:國家重點研發計劃資助課題(2019YFC0118801)
近年來,隨著人工智能(artificial intelligence,AI)技術的快速發展,AI在醫學領域的應用也越來越廣泛,特別是關于CT影像AI軟件的研究。從臨床應用的角度來看,CT影像AI軟件可分為輔助決策類和非輔助決策類。輔助決策類軟件相當于醫師的“助手”,可以自動識別病灶、提供輔助診斷(如肺結節良惡性的輔助診斷);非輔助決策類軟件僅可提供信息參考,相當于醫師的“工具”,可用于改善成像質量及進行流程優化、自動測量、CT三維重建等。軟件的前處理、流程優化、常規后處理、輔助決策等功能在產品層面存在交叉,具體情況需要結合產品的預期用途、使用場景和核心功能進行考慮。目前,從獲批的醫療器械注冊證來看,國內CT影像AI軟件主要應用在肺結節、肺炎、冠狀動脈病變、骨折等方面的輔助診斷、分診和流程優化。AI軟件因其具有輔助醫務人員進行臨床決策的功能,因此存在很大的臨床使用風險,若出現漏診和誤診甚至會導致延誤治療和過度醫療[1]。因此,很有必要對CT影像AI軟件的安全性和有效性進行評價。本文主要從醫療器械注冊審評角度淺析CT影像AI軟件的審評要點,以期為該類產品的注冊申報提供參考。
1 監管信息
1.1 產品名稱
產品的命名應符合《醫療器械通用名稱命名規則》[2]的要求。建議產品名稱應明確目標疾?。ㄈ绶窝?、肺結節、骨折)和臨床用途(如輔助診斷、輔助檢測、分診、測量、定位)。如:肺炎CT影像輔助分診與評估軟件、肺結節CT影像輔助檢測軟件。目前,AI軟件在決策方面的定位只是輔助角色,需要醫師做出最終決定,產品名稱建議明確為輔助軟件。
1.2 分類
根據《人工智能醫用軟件產品分類界定指導原則》[3],輔助決策類AI軟件按照三類醫療器械管理,用于測量等非輔助決策類AI軟件按照二類醫療器械管理。如廠家不確定產品分類,建議向國家藥品監督管理局醫療器械標準管理中心申請分類界定。
1.3 適用范圍
適用范圍需明確處理對象(如CT影像)、目標疾?。ㄈ绶窝?、肺結節、肺氣腫、肺結核、肺癌、腦出血、血管閉塞、心臟冠脈病變、肝癌等)、適用人群(如成人、小兒)、臨床用途(如分診提示、異常識別、疾病類型分析、良惡性風險提示、病程階段分析、提供輔助診斷結果、提供醫學建議)、目標用戶(如放射科醫師)等信息。如:用于肺部CT影像的顯示、處理、測量和肺炎病灶識別,可輔助用于成年的新型冠狀病毒肺炎疑似患者的分診提示以及確診患者的病情評估;供經培訓合格的醫師使用,不能單獨用作臨床診療決策證據。
2 技術要求
2.1 型號規格及劃分說明
如產品有多個型號,應明確不同型號間的差異,明確軟件的發布版本及軟件版本的命名規則,命名規則中需涵蓋算法更新類型(區分算法驅動型和數據驅動型),還需涵蓋網絡安全的更新類型,并區別重大更新和輕微更新(原則上算法驅動型屬于重大更新),重大更新需列舉常見的情形。
2.2 性能指標
明確軟件的輸入輸出數據類型。輸入數據一般包括軟件的處理對象及成像模態,如X射線計算機體層攝影;輸出數據一般指的是測量、分析、處理等結果類型,如用于4mm以上肺結節的識別。
明確軟件的接口類型,包括調用的其他應用程序接口、數據接口、可聯合使用的其他產品接口。其中,數據接口還需明確數據傳輸協議或存儲格式(如比較常見的DICOM、HL7),如采用私有協議也需要說明。
明確軟件運行環境。一般需明確典型運行環境,既包括處理器、存儲器等硬件配置,也包括系統軟件環境,還包括網絡條件。需要注意的是,如適用多個版本,一般表述為“兼容版本”,不宜表述為“更高版本”或“以上版本”,如“運行環境:IE6.0版本或兼容版本”。
軟件的臨床功能需包括說明書和軟件界面所包含的所有臨床功能綱要。為方便審閱,建議可結合產品的邏輯組成,分模塊列明。臨床功能一般包括可以客觀測量的功能、圖像處理功能等。直線長度、角度、面積、周長、體積、平均密度、直徑等凡是可測量的物理量,都應該在性能指標中進行明確,并規定測量的誤差要求。布局、放大鏡、聯動、復位、裁剪、拖移、縮放、反片、曲線窗、右轉、左轉、倒置、鏡像、偽彩、增強、濾鏡、圖像對比、多平面重建(multiplanar reformation,MPR)、最大密度投影(maximum intensity projection,MIP)、最小密度投影(minimum intensity projection,MinIP)、容積重建(Volume rendering,VR)、病灶部位、分割方式、病灶量化分析、病灶識別與標注、病灶性質判斷、靶區自動勾畫等采用AI算法的圖像處理功能需標注并明確算法類型。
軟件性能包括響應時間、系統響應時間和應用延遲時間、吞吐量、并發用戶數和資源利用率等。
明確軟件的用戶使用限制和必要的技術限制。如使用場景的限制,預期用于一般的體檢篩查還是門診病房;對患者的年齡、疾病類型或者地域是否有限制;其他限制包括CT設備的廠家,CT的掃描參數(如排數、層數、管電流、管電壓、劑量、層厚、加載時間、重建方式等),適用于CT平掃還是CT增強掃描,CT圖像質量有何要求(如分辨率是多少,需要排除的偽影類型等),目標疾病的分類或分型,病灶識別的部位等。
3 軟件研究
3.1 算法性能要求
疾病檢出類算法的性能一般包括召回率、病變定位率(真陽性/(真陽性+假陰性)×100%)、精確度(真陽性/(真陽性+假陽性)×100%))、F1分數[(2×精確度×召回率/(精確率+召回率)]、平均精確度、平均精確度均值、fR0C曲線(以召回率為縱坐標、非病變定位率為橫坐標構造的曲線)。
區域分割與測量類算法的性能一般包括召回率(算法分割的感興趣區域與參考標準分割的感興趣區域的交集除以參考標準分割的感興趣區域)、精確度(算法分割的感興趣區域與參考標準分割的感興趣區域的交集除以算法分割的感興趣區域)、交并比[當感興趣區域為一般實體時(如肺結節),宜采用Dice系數或Jaccard系數計算交并比]、樹檢測長度、表面距離、密度測量、尺寸測量、體積測量。
影像分類算法的性能一般包括靈敏度、特異度、漏檢率、陽性預測值、陰性預測值、準確率、約登指數、Kappa系數、R0C曲線。
隨訪評估功能算法一般需根據不同時間節點,比較算法對同一感興趣區域的分析結果與參考標準之間的符合性,計算絕對誤差,并建立各時間節點的動態曲線,計算與參考標準曲線的一致性。
患者分診功能算法一般根據不同的分診級,與算法輸出的標簽進行對比,建立混淆矩陣,計算靈敏度、特異度、Kappa系數等。
算法質量特性包括泛化能力、魯棒性(包括面向硬件變化的對抗測試、面向軟件前處理的對抗測試、面向欺騙攻擊的對抗測試、壓力測試)、重復性、一致性、效率、錯誤分析。
3.2 訓練數據要求
基于深度學習的AI技術與傳統統計學習技術的差異主要在于數據集規模與特征提取兩方面。傳統統計學習技術對數據量的要求沒有那么大,特征提取是一個白盒過程;而AI技術對于數據量要求很高,且是一個端到端的黑盒過程,可自動完成特征提取。這意味著,AI技術對數據庫的考量會更加細致,需要重點考慮其數據的可解釋性問題。
機器學習項目中的一個關鍵問題是,為了達到諸如分類器準確度等特定性能指標,我們需要多少訓練數據。目前,主要有如下解決方案。(1)訓練數據量的經驗范圍:如在回歸分析中通過考慮預測變量的數量、總體樣本量以及正樣本量/總體樣本量的比例來估計訓練數據的多少。(2)假設檢驗中樣本大小的確定:規定有專業意義的差值δ(稱為分辨力或區分度,δ值越小表示對兩個總體參數差別的區分度越強,因而所需樣本含量也越大),確定作統計推斷時允許犯Ⅰ類錯誤(“棄真”的錯誤)的概率α,提出所期望的檢驗效能[用1-β表示,β為允許犯Ⅱ類錯誤(“取偽”的錯誤)的概率],檢驗效能就是推斷結論不犯Ⅱ類錯誤的概率(1-β)(稱把握度),即當對比雙方總體參數值間差值確實達到δ以上時,根據抽樣觀測結果在規定的α水準上能正確地作出有差別的推斷結論的可能性,在科研設計中常把1-β定為0.90或0.80,一般來說1-β不宜低于0.75,否則可能出現非真實的陰性推斷結論。(3)訓練數據規模的統計學習理論:VC維(Vapnik-Chevronenkis維度)是模型復雜度的度量,模型越復雜,VC維越大,訓練數據量N是VC維的一個函數:
其中d為失效概率,epsilon為學習誤差,由該公式可知學習所需的數據量取決于模型的復雜度。(4)逐漸增加訓練數據,檢驗模型性能:訓練集的數據量逐漸增加,模型性能會隨著數據量的增加而增加,當到達一定數據規模(臨界數據量)時,模型性能會停滯不前。
3.3 數據采集要求
數據采集需考慮CT設備的兼容性與掃描參數、CT 影像質量等因素,如廠家、探測器排數、層數、層厚、管電壓、管電流、加載時間、掃描方式、患者體位、掃描速度、螺距、圖像偽影與噪聲等要求。對于CT設備的要求,建議盡量覆蓋國內外主流機型,如飛利浦、GE、西門子、東芝、聯影、東軟等。
掃描方式,如平掃、增強、低劑量,應各有一定的占比。數據采集還需考慮患者人群、采集場所、機構來源、數據格式、采集人員、影像學分級、分型、分期等多方面的因素。人群因素包括不同的年齡分布、性別、地域(如華東、華南、華中、西北等)。采集場所,如體檢、門診、住院。影像學分級,如肺炎包括早期、進展期、嚴重期,肺結節類型包括肺內實性結節、肺內部分實性結節、肺內純磨玻璃結節、肺內鈣化結節、胸膜實性結節、胸膜鈣化結節、其他疾病等,不同類型的結節還包括不同尺寸。
3.4 數據標注及質控要求
在標注任務開始前,標注責任方應明確標注任務的分類,包括數據模態、執行主體、標注結果格式、標注結果性質、標注結果形式等維度。
標注任務需建立標注規則,如根據法規文件、專家共識、文獻分析等確定標注規則,需明確標注人員的要求,如標注人員來源的醫療機構、工作年限、職稱、工作量、培訓考核評價情況、標注任務,不同角色人員(如初級標注人員、審核人員、仲裁人員)分別進行闡述,明確人員分工,制定決策機制,明確分歧處理程序。此外,需明確標注過程適用的標注工具,如設備型號、標注軟件的信息,描述標注環境,標注數據如何進行數據清洗、查重等。
要求整個標注過程中追蹤結果應可以導出并可追溯,避免數據丟失,具體要求如下。(1)標注時間監測:可以通過記錄測試過程中醫師對于每一個病例的標注時間,建立每一位標注者的標注時間分布;在實際標注階段,可以通過不斷比對每一個病例的標注時間、該時間在該標注人員標注時間分布中的位置來判斷標注的狀態;若標注時間多次出現過長或過短的情況,則需要同時評估標注人員的狀態和數據的質量。(2)標注一致性監測:在標注過程中,引入部分病例,讓同一名標注人員進行二次標注,并計算同一個人兩次標注之間的一致性,以確保標注人員的標注一致性水準始終能夠達到項目的要求,保證整體標注的一致性。(3)標注準確率監測:在標注過程中,引入部分醫學專家提供的帶有標準標注答案的病例,計算標注人員對于帶標準答案病例標注的準確性,用以評估標注人員的實時狀態。
3.5 算法訓練
算法訓練需結合繪制訓練數據量-評估指標曲線,重點進行算法性能影像因素分析以及數據多樣性分析。
算法訓練如涉及數據擴增,需明確數據擴增的對象、方法、倍數,分析擴增倍數過大的影響及其風險。數據擴增并不總能產生積極的作用,不當的數據擴增可能產生負面影響。而什么是適當的數據擴增,取決于具體的任務和數據集。因此需要慎重考慮擴增過程中的數據偏移問題,同時進行擴增倍數過大的影響分析。
3.6 算法驗證與確認
測試集應與算法的研發、訓練集和調優集保持獨立,以保證數據集的安全性和封閉性。根據靈敏度、特異度計算單次測試的樣本量,考慮人群特征,疾病分類和分級、數據質量要求,不同采集設備等,確保數據容量和數據多樣性。
4 臨床評價
該類產品的臨床評價方式與其必備的軟件功能類型有關。用于病情評估的量化分析功能、數據對比功能、常見影像后處理功能(如多平面重建、曲面重建、最大密度投影、最小密度投影、表面遮蓋顯示、容積再現、仿真內窺鏡、偽彩、圖像銳化、去噪、增強、分割、配準、融合等)屬于非輔助決策類軟件功能,可基于核心功能按同品種醫療器械比對的臨床評價途徑。簡單操作類軟件功能(如隨訪結果對比、多窗口顯示、圖像縮放移動、窗寬窗位調節、長度測量、角度測量、標注工具)、單純流程優化類軟件功能(如一鍵輸出報告功能、批量導出功能、隨訪提醒功能、膠片智能排版打印、分診指引功能)可通過非臨床證據予以評價。
分診提示、異常識別、疾病類型分析、病灶種類鑒別、良惡性風險提示、病程階段分析、提供輔助診斷結果(自動化報告)、提供醫學建議(給出臨床診斷治療依據和/或建議、用藥建議)等功能屬于輔助決策類軟件功能,可基于核心算法進行同品種醫療器械比對,比對所選產品的臨床證據需基于臨床試驗。全新的核心算法、核心功能、預期用途原則上均應開展臨床試驗[4]。
4.1 試驗設計
若無同類已上市產品可采用單組目標值試驗設計;若有同類已上市產品可考慮平行對照試驗設計。
采用單組目標值試驗設計,目標值應符合臨床應用需求,并提供目標值確定的依據。目標值可來源于權威醫學組織、臨床文獻或回顧性臨床研究結果確定。
臨床機構應當具備代表性和廣泛性,不同于訓練數據主要來源機構,地域分布盡可能廣泛,機構數量盡可能多,以確認算法泛化能力。
4.2 評價指標
針對采用AI算法設計的臨床功能原則上選擇靈敏度、特異度、ROC曲線下面積(area undercurve,AUC)為主要評價指標,亦可在此基礎上根據軟件特點選擇靈敏度/特異度衍生指標、ROCAUC衍生指標(如診斷準確率、精確率、召回率)、F1系數、組內相關系數、Kappa系數、時間效率(如輔助診斷平均時間、日人均診斷量增益率和診斷平均時間增益率)、數據有效使用率等指標作為次要評價指標。
5 小結
AI 技術在醫學領域的應用日益廣泛,前景廣闊,但仍存在如下問題:因其不確定性帶來潛在風險,目前相關的監管體系尚不健全,評估標準缺失,難以及時對潛在的醫療質量安全問題進行監督與管理。國家藥監部門有必要盡快出臺具體的評價標準,發布相關的指導原則、審評指南,指導企業從研發、注冊申報,到臨床應用,規范注冊審評審批,構建全生命周期的監管體系,為產品的安全、有效保駕護航,使AI軟件產品更好地服務于臨床。
【參考文獻】
[1]李曼,藤依杉,郭佳穎,等 . 基于人工智能的醫學影像輔助診斷類軟件監管與測評方法研究 [J]. 電子技術與軟件工程,2022(2):77-82.
[2]國家食品藥品監督管理總局 . 醫療器械通用名稱命名規則(國家食品藥品監督管理總局令第19號)[Z].2015-12-21.
[3]國家藥品監督管理局 . 國家藥監局關于發布人工智能醫用軟件產品分類界定指導原則的通告(2021年第47號)[Z].2021-07-01.
[4]國家藥品監督管理局醫療器械技術審評中心 . 國家藥監局器審中心關于發布人工智能醫療器械注冊審查指導原則的通告(2022年第8號)[Z].2022-03-07.
內容來源于《醫療裝備》雜志,如需轉載請注明出處。