人工智能輔助檢測醫療器械(軟件)臨床評價(jià)注冊審查指導原則(2023年第38號)
發(fā)布日期:2023-11-07 閱讀量:次
附件:人工智能輔助檢測醫療器械(軟件)臨床評價(jià)注冊審查指導原則(2023年第38號).doc
人工智能輔助檢測醫療器械(軟件)臨床評價(jià)
注冊審查指導原則
本指導原則旨在指導注冊申請人開(kāi)展人工智能(artificial intelligence,AI)輔助檢測類(lèi)醫療器械臨床評價(jià)的資料準備,同時(shí)為技術(shù)審評部門(mén)審評人工智能輔助檢測類(lèi)產(chǎn)品臨床評價(jià)資料提供參考。
本指導原則進(jìn)一步明確人工智能輔助檢測類(lèi)醫療器械臨床評價(jià)的要求和適用情形。申請人可依據產(chǎn)品的具體特征確定其中內容是否適用,若不適用,需闡述理由并提供相應的科學(xué)依據,并依據產(chǎn)品的具體特征對臨床評價(jià)資料的內容進(jìn)行充實(shí)和細化。
本指導原則是供注冊申請人和技術(shù)審評人員使用的指導性文件,但不包括審評審批所涉及的行政事項,亦不作為法規強制執行,應在遵循相關(guān)法規的前提下使用本指導原則。如果有能夠滿(mǎn)足相關(guān)法規要求的其他方法,也可以采用,但是需要提供詳細的合理性論述和驗證確認資料。
本指導原則是在現行法規和標準體系以及當前認知水平下制定,隨著(zhù)法規和標準的不斷完善,以及科學(xué)技術(shù)的不斷發(fā)展,相關(guān)內容也將適時(shí)進(jìn)行調整。
一、適用范圍
人工智能醫療器械從與預期用途角度可分為輔助決策類(lèi)和非輔助決策類(lèi)。其中,輔助決策是指通過(guò)提供診療活動(dòng)建議輔助醫務(wù)人員進(jìn)行臨床決策,如通過(guò)異常識別、自動(dòng)制定手術(shù)計劃進(jìn)行輔助分診、輔助檢測、輔助診斷、輔助治療等。
人工智能輔助檢測產(chǎn)品,是指基于計算機人工智能算法,可包含模式識別和數據分析等功能,通過(guò)識別、標記、突出等方式提示醫師關(guān)注可能的異常/病變區域,從而輔助臨床醫師做出相應診療決策的產(chǎn)品,可為獨立軟件或嵌入式軟件;分類(lèi)編碼為21-04-02,管理類(lèi)別為第III類(lèi);產(chǎn)品還可同時(shí)包含非輔助決策功能,如結構化報告生成、前后圖像對比、正常解剖組織的分割(如肺葉、肋骨等)、尺寸測量、CT值測量等臨床功能和數據儲存、傳輸等非臨床功能。人工智能輔助檢測產(chǎn)品常見(jiàn)的有針對肺結節、乳腺結節、骨折、血管狹窄、結腸息肉等病變/異常的檢出產(chǎn)品,本指導原則給出此類(lèi)產(chǎn)品的通用要求,并以肺結節輔助檢測和結腸息肉輔助檢測產(chǎn)品為例(詳見(jiàn)附件),闡述對人工智能輔助檢測產(chǎn)品的臨床試驗中具體要素的考慮建議,同類(lèi)型產(chǎn)品可參考相關(guān)適用部分。
本指導原則不適用于如下情形(但下述產(chǎn)品可參照本指導原則中適用部分的要求):1.可鑒別病變的性質(zhì)(如良惡性)或疾病分期分型的人工智能輔助診斷類(lèi)產(chǎn)品;2.預測疾病發(fā)生概率的產(chǎn)品;3.可同時(shí)輔助檢測、鑒別診斷多種病變的多分類(lèi)人工智能輔助檢測產(chǎn)品(例如同時(shí)輔助檢測并分類(lèi)肺結節、條索、胸膜增厚、胸腔積液、肋骨骨折等的產(chǎn)品);4.人工智能輔助分診、轉診產(chǎn)品,此類(lèi)產(chǎn)品通過(guò)初步評估患者是否疑似患有目標疾病,從而對患者的分診轉診提供輔助決策建議,該類(lèi)產(chǎn)品不給出具體病變情況,且無(wú)論輔助分診結果為陰性、陽(yáng)性,均需專(zhuān)業(yè)醫師再一次對患者影像進(jìn)行評閱,常見(jiàn)的有糖尿病視網(wǎng)膜病變輔助分診、肺炎輔助分診、腦出血輔助分診等;5.配合體外診斷試劑產(chǎn)品使用的人工智能輔助分析軟件。
二、臨床試驗設計
(一)臨床試驗目的
臨床試驗目的一般是評價(jià)申報產(chǎn)品在預期適用范圍下使用時(shí)輔助檢測的診斷學(xué)性能,亦可一并觀(guān)察產(chǎn)品的可用性與安全性。
(二)臨床試驗基本設計類(lèi)型
人工智能輔助檢測類(lèi)產(chǎn)品的臨床意義通常在于提升醫師的病變檢測準確度,為充分評估產(chǎn)品的臨床受益風(fēng)險可接受性,此類(lèi)產(chǎn)品一般需考慮開(kāi)展對照試驗,根據產(chǎn)品特征及臨床診療實(shí)際,可以為隨機平行對照、交叉自身對照或多閱片者多數據樣本(multiple reader multiple case,MRMC)試驗設計。
試驗組一般為醫師在軟件的輔助下完成異常/病變的檢測,對照組一般為臨床醫師獨立的異常/病變的檢測,比較二者的檢測準確度。
(三)研究對象
1.適用人群的影像學(xué)樣本
預期人群的影像學(xué)樣本是人工智能輔助檢測產(chǎn)品臨床試驗的典型研究對象,影像學(xué)樣本需基于定義明確的入選和排除標準收集,可為臨床已有數據(如臨床診療中產(chǎn)生的真實(shí)世界數據)??紤]到AI與醫師觀(guān)察、操作的協(xié)同交互等因素,基于實(shí)時(shí)影像的輔助檢測產(chǎn)品臨床試驗,推薦考慮前瞻性采集影像檢查,作為臨床試驗研究對象。
為了保證臨床試驗質(zhì)量以及結果的可靠性,選取研究對象時(shí),申請人需考慮如下措施:一是納入數據樣本獨立于申報產(chǎn)品或前代產(chǎn)品開(kāi)發(fā)所用數據集,如申報產(chǎn)品或前代產(chǎn)品的訓練集、測試集。二是采用臨床已有數據進(jìn)行研究時(shí),需基于明確且嚴格的入排標準和臨床試驗計劃,連續收集過(guò)往某段時(shí)間內、特定醫療機構內患者影像學(xué)數據,避免主觀(guān)挑選病例。三是考慮陽(yáng)性樣本中,目標疾病的疾病譜分布(如分型、分期)合理性,某些對輔助檢測具有挑戰性的分期、分型,必要時(shí)在臨床試驗中富集相關(guān)具有代表性的亞組。四是通常情況下,需避免在一項臨床試驗中同時(shí)入組同一患者同一目標部位的多組樣本數據。五是臨床已有數據收集時(shí),需盡可能全面的收集與疾病相關(guān)的信息(適用的),具體包括但不限于:
(1)人口統計學(xué)信息(如年齡、性別);
(2)與輔助檢測目標疾病相關(guān)的信息,如病史、疾病狀態(tài)、分期、分型、病變大小、病變位置、器官特征(如乳腺腺體分型)、伴隨疾病等。
(3)確定為陽(yáng)性/陰性病例的依據,如既往診斷結論,以及確定疾病狀態(tài)、部位和程度的方法。
2.閱片者
由于閱片者表現的變異度及其與患者樣本變異度和診斷方法(即AI輔助器械)之間的交互效應,一般情況下宜將閱片者列入研究對象?;诜菍?shí)時(shí)影像的輔助檢測產(chǎn)品(如肺結節/骨折/乳腺結節輔助檢測等),采用MRMC設計可較好的控制閱片者偏倚,同等情況下所需的樣本量一般較少,申請人可優(yōu)先考慮選擇。采用MRMC設計時(shí),根據預期的使用者情況,選取不同年資的多位醫師作為閱片者,申請人需論述閱片者數量的合理性。
(四)評價(jià)指標
主要評價(jià)指標應結合產(chǎn)品設計特征進(jìn)行綜合選擇,一般認為靈敏度、特異度、ROC或其衍生曲線(xiàn)等診斷準確性指標受樣本患病率差異的影響較小,因此,宜優(yōu)先考慮此類(lèi)指標作為主要評價(jià)指標。
無(wú)論選擇哪些指標作為主要評價(jià)指標,該類(lèi)產(chǎn)品臨床試驗應當考慮整體的優(yōu)效性設計,例如ROC或其衍生曲線(xiàn)下面積(Area Under Curve,AUC)的優(yōu)效設計,或者目標疾病輔助檢測特異度非劣效前提下的靈敏度優(yōu)效性,或者息肉/腺瘤初檢檢出率的優(yōu)效性等。
(五)臨床參考標準構建
申請人應詳述臨床參考標準的選擇、構建方法及理由??晒┻x擇的臨床參考標準構建方法包括:一是以臨床已確認結果為臨床參考標準,即臨床上結合患者影像學(xué)檢查、病史、實(shí)驗室檢查(如病理檢查)、長(cháng)期隨訪(fǎng)結果等方法綜合判定的臨床診斷結果;二是通過(guò)專(zhuān)家組對研究對象(影像樣本)的閱片判定作為臨床參考標準。
對于人工智能輔助檢測產(chǎn)品,若根據產(chǎn)品設計判定可采用專(zhuān)家組意見(jiàn)作為臨床參考標準,通??蛇x擇高年資醫師組成的閱片專(zhuān)家組綜合意見(jiàn)為臨床參考標準,閱片專(zhuān)家組的成員需獨立于“試驗和對照組的閱片研究者”,并需要明確:1.專(zhuān)家數量;2.專(zhuān)家經(jīng)驗及專(zhuān)業(yè)水平;3.決策機制(如遵循多數意見(jiàn)、背靠背第三人仲裁等);4.專(zhuān)家決策時(shí)所依據的信息(如圖像上是否有標記,是否還提供了病史或其他檢查結果等);5.判定所依據的臨床準則(如臨床指南、診療規范、專(zhuān)家共識等)。
對于試驗中對病灶的檢出是否與臨床參考標準專(zhuān)家組意見(jiàn)一致,一般可考慮1.試驗組/對照組勾畫(huà)病灶的中心在專(zhuān)家組勾畫(huà)的病灶輪廓邊界范圍內;2.試驗組/對照組勾畫(huà)病灶與專(zhuān)家組勾畫(huà)病灶的像素重合度高于一定比例(需提供比例設定的支持依據);若采用其他判定方法,則需論述合理性。
若采用臨床已確認結果作為臨床參考標準,則需明確1.已確認結果所依據的臨床信息,包括檢查類(lèi)型及結果;2.各類(lèi)影像學(xué)檢查的設備信息,包括影像檢查的掃描條件等;3.已確認結果的臨床診斷依據;4.得出已確認結果的醫師情況,包括專(zhuān)家會(huì )診,需明確醫師資質(zhì);5.若還依據了臨床隨訪(fǎng)數據,則還需明確隨訪(fǎng)的時(shí)間以及隨訪(fǎng)所做的檢查類(lèi)型及結果。
(六)樣本量估算與統計分析
樣本量估算需綜合考慮臨床試驗設計、主要評價(jià)指標和統計學(xué)要求。申請人需明確計算公式、相應參數及確定理由,以及所用的統計軟件。
臨床試驗資料中可以提供樣本患病率以及目標疾病的流行病學(xué)研究的患病率情況進(jìn)行合理性論述,并確保臨床研究設計中樣本數據隨機分配給閱片者進(jìn)行評閱。
平行對照試驗樣本量計算可參考《醫療器械臨床試驗設計指導原則》中的相關(guān)內容。
若采用MRMC的試驗設計,樣本量計算需首先明確具體的分析方法,如Obuchowski-Rockette Analysis(OR分析方法)、Dorfman-Berbaum-Metz-Hillis Analysis(DBMH分析法),并進(jìn)一步明確受試醫師數量,檢驗水準α、檢驗效能1-β、預計效應值,優(yōu)效/非劣效界值,其中預計效應值可通過(guò)預試驗或調研并匯總分析目標病灶檢出的診斷學(xué)研究文獻獲得,優(yōu)效/非劣效界值應通過(guò)同品種產(chǎn)品臨床試驗結果或權威文獻研究等確定。不同疾病的檢測效應不同,在試驗設計中應明確優(yōu)效/非劣效界值的設定依據。以DBMH分析法為例,樣本量估算與交互隨機效應值,檢驗的檢驗效能、檢驗水準,受試醫師數量,優(yōu)效界值,非劣效界值(如有)等要素有關(guān)。用于樣本量估算的效應值(effect size)選擇時(shí),可通過(guò)預試驗得到的誤差和混合效應方差來(lái)估計,并考慮預試驗樣本量等情況,在預試驗結果的基礎上采用適度保守的估計。
所有應用了試驗產(chǎn)品的受試醫師和患者都將被納入分析,對于主要指標,除給出主要評價(jià)指標(靈敏度、特異度、AUC)的點(diǎn)估計外,還將分別對其對應的95%置信區間進(jìn)行估計,通過(guò)試驗組與對照組的優(yōu)效/非劣效比較判斷本試驗產(chǎn)品是否滿(mǎn)足臨床應用的需要。
(七)其他臨床試驗設計需關(guān)注的問(wèn)題
1.臨床試驗培訓
在試驗前對閱片者開(kāi)展必要的培訓,可以有效降低試驗的偏倚。除基本情況培訓(試驗流程、術(shù)語(yǔ)定義、數據樣本閱片的評價(jià)標準等)以外,還需考慮案例培訓和典型數據樣本講解等,且所用案例獨立于試驗研究數據樣本;培訓中宜設置閱片者培訓結果測試及合格接受標準;建議臨床試驗中,對閱片者的培訓與臨床應用時(shí)的培訓,在方法、時(shí)間、接受標準上盡量保持一致性;并考慮對臨床試驗閱片者資質(zhì)、能力等要求與臨床應用時(shí)使用者情況的匹配性。對專(zhuān)家組的培訓時(shí)間和接受標準宜顯著(zhù)高于試驗組/對照組的閱片者的培訓時(shí)間和接受標準。
2.影像樣本評閱質(zhì)量控制
一是由閱片者在獨立盲法條件下對患者關(guān)于試驗的影像檢測結果進(jìn)行解釋。二是在選取試驗閱片者時(shí)基于其專(zhuān)業(yè)能力和參與研究的可能性,充分保證閱片者對預期使用者的代表性??煽紤]不同醫療機構來(lái)源、不同年資/專(zhuān)業(yè)水平的醫師。三是將數據樣本的臨床診斷結果、臨床參考標準判定結果、其他診斷信息(如生化檢測結果、后續治療等)或基本信息(如年齡、病史等)對試驗的閱片者設盲。四是對照試驗可考慮采用交叉閱片設計,交叉設計中可根據相關(guān)領(lǐng)域記憶曲線(xiàn)的研究設置合理的洗脫期。若采用多閱片者,最好每位閱片者按照不同的數據樣本順序進(jìn)行評閱,有文獻報道典型的洗脫期一般為4~6周。是否采用交叉設計可根據申報產(chǎn)品的臨床應用方法、場(chǎng)景及適用范圍等綜合判定。
三、產(chǎn)品中非輔助決策臨床功能的評價(jià)
人工智能輔助檢測醫療器械產(chǎn)品還可能包括結構化報告生成、前后圖像對比、正常解剖組織的分割(如肺葉、肋骨等)、流程優(yōu)化、尺寸測量(包括大小、體積等)、CT值測量等非輔助決策類(lèi)軟件功能,可在臨床試驗中設置次要評價(jià)指標用于評價(jià)這些功能的安全有效性,亦可根據《醫療器械臨床評價(jià)技術(shù)指導原則》提交相應臨床評價(jià)資料。若提交臨床評價(jià),上述功能的驗證確認可以考慮測試集測試、壓力測試、對抗測試、質(zhì)量良好的數據庫測試結果中的一種或幾種作為臨床評價(jià)的支持證據;若在臨床試驗中設置次要指標,指標一般采用臨床上對功能準確性評價(jià)的臨床參考標準或學(xué)術(shù)上常用的方法,如分割的準確性考慮,與醫師的分割結果的分割一致性Dice相似系數(Dice similarity coefficient)等;配準功能可考慮標志點(diǎn)配準誤差(Fiducial Registration Error)、目標配準誤差(target registration error)、標志點(diǎn)定位誤差(Fiducial Localization Error)等。
四、與臨床評價(jià)相關(guān)的說(shuō)明書(shū)內容
說(shuō)明書(shū)中一般需結合臨床與非臨床資料給出下列適用的信息:1)臨床試驗總結;2)適用范圍;3)數據采集設備和數據采集過(guò)程相關(guān)要求等。臨床試驗總結通??紤]臨床數據基本信息、評價(jià)指標與結果(必要時(shí)含亞組結果)。人工智能輔助檢測類(lèi)產(chǎn)品的適用范圍需明確輔助檢測適應癥(如肺結節、骨折),所基于的影像類(lèi)型(如胸部CT或結腸鏡檢查影像),產(chǎn)品其他主要功能(如影像的顯示、處理、測量和分析),以及產(chǎn)品臨床定位(不能單獨用作臨床診療決策依據)等。
建議申請人根據產(chǎn)品實(shí)際情況在說(shuō)明書(shū)中體現如下方面的警告注意事項。1)軟件僅輔助醫師進(jìn)行病灶檢測,存在假陰/陽(yáng)性可能,應由專(zhuān)業(yè)醫師結合患者的病史、癥狀、體征、其他檢查結果情況綜合給出最終的病灶檢出結論,核實(shí)是否需要進(jìn)一步診療的決策,并對臨床診斷結果負責。2)產(chǎn)品依據YYYY年版指南(例如《胸部CT肺結節數據標注與質(zhì)量控制專(zhuān)家共識(2018)》)設計,如診療指南有所更新,使用者應充分評估指南差異可能帶來(lái)的風(fēng)險。3)明確產(chǎn)品臨床試驗中未對病灶邊界分割的準確性進(jìn)行評價(jià),如依據軟件的檢測結果決定手術(shù)干預或穿刺活檢,醫師應當充分評估其風(fēng)險。
五、參考文獻
[1]中華醫學(xué)會(huì )呼吸病學(xué)分會(huì )肺癌學(xué)組, 中國肺癌防治聯(lián)盟專(zhuān)家組,肺結節診治中國專(zhuān)家共識(2018版)[J]. 中華結核和呼吸雜志, 2018,41(10): 763-771.
[2]原國家食品藥品監督管理總局.醫療器械臨床試驗設計指導原則:食品藥品監管總局通告2018年第6號[Z].
[3]國家藥品監督管理局醫療器械技術(shù)審評中心.深度學(xué)習輔助決策醫療器械軟件審評要點(diǎn):國家食品藥品監督管理局醫療器械技術(shù)審評中心通告2019年第7號[Z].
[4]Guidance for Industry and Food and Drug Administration Staff Computer-Assisted Detection Devices Applied to Radiology Images and Radiology Device Data - Premarket Notification [510(k)] Submissions(FDA,2012.07.03)
[5]Lung Cancer Screening CT ProtocolsVersion5.1(AAPM,2019.9.13)
[6]FDA. Clinical Performance Assessment: Considerations for Computer-Assisted Detection Devices Applied to Radiology Images and Radiology Device Data - Premarket Approval (PMA) and Premarket Notification [510(k)] Submissions - Guidance for Industry and FDA Staff,(2012.11)[2021-4-15]. https://www.fda.gov/regulatory-information/search-fda-guidance-documents/clinical-performance-assessment-considerations-computer-assisted-detection-devices-applied-radiology
[6]Sica, G.T., 2006. Bias in research studies. Radiology, 238(3), pp.780-789.
[7]Xiao-Hua Zhou, Nacy A. Obuchowski, Donna K. McClish. Statistical Methods in Diagnostic Medicine [M]. Hoboken: JohnWiley&Sons, 2011.
[8]國家衛生健康委員會(huì ). 人工智能輔助診斷技術(shù)臨床應用質(zhì)量控制指標(2017年版):國家衛生計生委通知2017第7號[Z].
[9]Brandon D. Gallas.et al. Evaluating Imaging and Computer-aided Detection and Diagnosis Devices at the FDA [J]. Acad Radiol. 2012 Apr; 19(4): 463–477. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5557046/
[10]蕭毅, 劉士遠. 肺結節影像人工智能技術(shù)現狀與思考[J]. 腫瘤影像學(xué), 2018, 27: 249-252.
[11]Rees, Colin J., et al. “UK key performance indicators and quality assurance standards for colonoscopy.” Gut 65.12 (2016): 1923-1929.
[12]Misawa, Masashi, et al. "Development of a computer-aided detection system for colonoscopy and a publicly accessible large colonoscopy video database (with video)." Gastrointestinal endoscopy 93.4 (2021): 960-967.
[13]國家消化系統疾病臨床醫學(xué)研究中心(上海), 中華醫學(xué)會(huì )消化內鏡學(xué)分會(huì ),中華醫學(xué)會(huì )健康管理學(xué)分會(huì )等. 中國早期結直腸癌篩查流程專(zhuān)家共識意見(jiàn)(2019)[J]. 中華醫學(xué)會(huì )雜志,2019,99(38):2961-2970.
[14]Rompianesi, Gianluca, et al. "Artificial intelligence in the diagnosis and management of colorectal cancer liver metastases." World Journal of Gastroenterology 28.1 (2022): 108.
[15]國家藥品監督管理局.醫療器械臨床評價(jià)技術(shù)指導原則:國家藥品監督管理局通告2021年第73號[Z].
附件1
肺結節CT圖像輔助檢測產(chǎn)品
臨床評價(jià)考慮要素舉例
一、試驗設計基本類(lèi)型
肺結節CT影像輔助檢測產(chǎn)品采用MRMC設計、交叉自身對照設計或平行對照設計。平行對照設計的具體過(guò)程及方法參考《醫療器械臨床試驗設計指導原則》相關(guān)內容。
若采用MRMC的設計,試驗過(guò)程具體為,將參與試驗的臨床醫師隨機劃分為A、B兩組。A組:醫師第一階段在使用AI輔助的條件下完成所有數據樣本CT影像的肺結節檢測;經(jīng)一定的洗脫期后,第二階段在不使用AI輔助的條件下完成所有數據樣本CT影像的肺結節檢測。B組:醫師第一階段在不使用AI輔助的條件下完成所有數據樣本CT影像的肺結節檢測;經(jīng)一定的洗脫期后,第二階段在使用AI輔助的條件下完成所有數據樣本CT影像的肺結節檢測。該試驗中醫師使用AI輔助的作為試驗組,不使用AI輔助的作為對照組,對比試驗組與對照組肺結節檢測的診斷準確度指標,閱片過(guò)程中每名醫師需分別在使用AI和不使用AI的條件下都完成所有入組影像數據樣本的閱片。
二、評價(jià)指標
此類(lèi)產(chǎn)品臨床試驗通常選擇檢出的靈敏度(以病灶為單位)和特異度(以患者為單位)等組成的復合指標,亦可在此基礎上添加受試者工作特征(receiver operating Characteristic, ROC)曲線(xiàn)或其衍生曲線(xiàn)組成復合指標,如因變量自由的受試者工作特征(free-response receiver operating Characteristic, FROC)曲線(xiàn)、定位受試者工作特征(location-specific receiver operating characteristic, LROC)曲線(xiàn)等。使用ROC曲線(xiàn)或其衍生曲線(xiàn)時(shí),可考慮在試驗組醫師閱片階段,由閱片醫師標記對目標疾病判定的檢驗效能(可考慮百分數評分),從而構建ROC曲線(xiàn),并需考慮在培訓階段明確醫師百分數評分的標準和方法。
次要指標可包括AI輔助醫師檢出目標疾病的陽(yáng)性預測值/陰性預測值,似然比,Kappa系數,軟件獨立檢出目標疾病的靈敏度(以病灶為單位),軟件獨立檢出目標疾病的靈敏度和特異度(以患者為單位),閱片時(shí)間,醫生診斷信心評價(jià),軟件功能易用性和穩定性(可采用主觀(guān)感受評價(jià),如李克特量表等)。若同時(shí)觀(guān)察量化分析等非輔助決策臨床功能的性能表現,亦可設立相應次要評價(jià)指標。
三、樣本量估算及統計學(xué)分析
以MRMC設計為例,說(shuō)明樣本量估算考慮要素,若主要評價(jià)指標為AUC、結節水平靈敏度、患者水平特異度。試驗中,檢驗的檢驗效能取80%。對于主要評價(jià)指標,優(yōu)效性與非劣效統計分析將在單側0.025的檢驗水準下進(jìn)行。下述內容僅為示意舉例,可根據產(chǎn)品具體情況合理調整相關(guān)參數:
1.基于A(yíng)UC的樣本量計算,預試驗或文獻資料確認效應值取0.05,研究醫師設定為12名,AUC優(yōu)效界值取0,則總樣本量不得低于87例,陰性、陽(yáng)性患者比為1:1。
2.基于結節水平靈敏度,效應值取0.069,研究醫師設定為12名,優(yōu)效界值取0,需陽(yáng)性樣本至少116個(gè)結節,假定平均每個(gè)陽(yáng)性患者存在2個(gè)結節,則至少需要58例陽(yáng)性數據樣本。
3.基于患者水平的特異度,效應值取-0.055,非劣效值取0.1(參考Riverain ClearRead CT 的特異度95%區間下限),在當受試醫師為12名時(shí),非劣效驗證(非劣效界值取0.1)需要陰性樣本達到至少157例。
綜合以上各指標樣本量估算值,本試驗樣本量最低為215例,陽(yáng)性數據樣本58例,陰性數據樣本157例??紤]到樣本存在剔除和脫落的可能,當預期脫落率為5%,剔除率為5%時(shí),陽(yáng)性樣本需要達到至少62例,陰性樣本需要達到至少166例,共計228例。
附件2
結腸息肉電子內窺鏡圖像輔助檢測產(chǎn)品
臨床評價(jià)考慮要素舉例
一、試驗設計基本類(lèi)型
結腸息肉電子內窺鏡圖像輔助檢測產(chǎn)品可考慮平行對照設計,此處以序貫的平行對照為例進(jìn)行說(shuō)明,申請人亦可采用其他科學(xué)的平行對照設計開(kāi)展研究,序貫的平行對照具體設計及試驗程序如下:
入組的受試者隨機分配到A組和B組,A組:常規結直腸鏡檢查先進(jìn)行組:先接受無(wú) AI 輔助的常規結直腸鏡檢查,對檢查過(guò)程中發(fā)現的所有息肉都凍結影像留存圖片。第一次退鏡后在A(yíng)I 輔助下再做一次結直腸鏡檢查,對檢查過(guò)程中發(fā)現的所有息肉都凍結影像留存圖片。B 組:AI 輔助檢查先進(jìn)行組:先接受 AI 輔助的結直腸鏡檢查,對檢查過(guò)程中發(fā)現的所有息肉都凍結影像留存圖片。第一次退鏡后再進(jìn)行一次常規結直腸鏡檢查,對檢查過(guò)程中發(fā)現的所有息肉都凍結影像留存圖片。分別以各組兩次檢出的腸息肉作為基準,比較第一次檢查時(shí),有AI輔助檢測和無(wú)AI輔助檢測的病變檢出能力。原則上,結腸息肉人工智能輔助檢測產(chǎn)品臨床試驗需將前瞻性腸鏡檢查樣本作為臨床試驗研究對象。
二、評價(jià)指標
此類(lèi)產(chǎn)品臨床試驗因不完美臨床參考標準等問(wèn)題,可考慮選取息肉/腺瘤的初檢檢出率/漏診率或息肉檢出的靈敏度與特異性等作為主要評價(jià)指標。相關(guān)指標需以息肉/腺瘤水平而非受試者水平進(jìn)行計算,例如初檢息肉檢出率=初檢發(fā)現的息肉數量÷兩次檢測到的息肉總數,腺瘤漏診率=第二次檢測到的腺瘤數÷兩次檢測到的腺瘤總數。
次要評價(jià)指標可考慮息肉/腺瘤檢出率(受試者水平),平均息肉/腺瘤檢出數,軟件獨立評估性能(即軟件獨立的息肉/腺瘤檢出率、息肉檢測準確性等):結直腸鏡操作時(shí)間(包括各次進(jìn)鏡時(shí)間、退鏡時(shí)間)、軟件易用性評價(jià)、穩定性評價(jià)、不良事件情況等。若同時(shí)觀(guān)察圖像傳輸、儲存等非輔助決策臨床功能的性能表現,亦可設立相應次要評價(jià)指標。
三、樣本量估算
1.以序貫的平行對照試驗為例,若采用腺瘤漏診率作為評價(jià)指標,樣本量的計算基于腺瘤漏檢率的主要結果(每個(gè)病灶),假設如下: AI 先進(jìn)行組別的腺瘤漏診率為 10%,標準檢查先進(jìn)行組別的腺瘤漏診率為 30%,優(yōu)效界值設定為0,在 80%統計功效的條件下, 雙側α值設為 0.05。主要評價(jià)指標為初檢息肉檢出率,其樣本量估算公式為:
假設每位患者的平均腺瘤數為 0.6,考慮10%的脫落率,需入組220名受試者,AI 先進(jìn)行組110名,標準檢查先進(jìn)行組110名。
2.若采用初檢息肉檢出率作為主要評價(jià)指標,A 組: 常規結直腸鏡檢查先進(jìn)行組; B 組: AI 輔助檢查先進(jìn)行組。PC、 PT分別為 A 組和 B 組預期初檢息肉檢出率,其中 PC=70%、 PT=80%;|D|為兩組預期率差的絕對值, |D| = |PC- PT|; Δ 為優(yōu)效性界值,取 0。主要評價(jià)指標為初檢息肉檢出率,其樣本量估算公式為:
假設每位患者的平均息肉數為 2.5, 需約 234 例,脫落率為 20%,最終樣本量為 296 例, A組和 B 組各 148 例。
站點(diǎn)聲明
本網(wǎng)站所提供的信息僅供參考之用,并不代表本網(wǎng)贊同其觀(guān)點(diǎn),也不代表本網(wǎng)對其真實(shí)性負責。圖片版權歸原作者所有,如有侵權請聯(lián)系我們,我們立刻刪除。如有關(guān)于作品內容、版權或其它問(wèn)題請于作品發(fā)表后的30日內與本站聯(lián)系,本網(wǎng)將迅速給您回應并做相關(guān)處理。
鄭州思途醫療科技有限公司專(zhuān)注于醫療器械產(chǎn)品政策與法規規事務(wù)服務(wù),提供產(chǎn)品注冊備案申報代理、臨床試驗、體系建立輔導、分類(lèi)界定、申請創(chuàng )新辦理服務(wù)。
行業(yè)資訊
知識分享