Стэнфордское исследование показало, что некоторые одобренные FDA медицинские устройства искусственного интеллекта не проходят «адекватную» оценку

Источник · Перевод автора

Некоторые медицинские устройства на базе искусственного интеллекта, одобренные Управлением по санитарному надзору за качеством пищевых продуктов и медикаментов (FDA) США, уязвимы для изменений данных и предвзятости в отношении недостаточно представленных пациентов. Это согласно Стэнфордскому исследованию, опубликованному в журнале Nature Medicine на прошлой неделе, которое показало, что даже когда ИИ становится встроенным в большее количество медицинских устройств – FDA одобрило более 65 устройств ИИ в прошлом году – точность этих алгоритмов не обязательно подвергается тщательному изучению.

Хотя академическое сообщество начало разрабатывать рекомендации по клиническим испытаниям искусственного интеллекта, не существует установленной практики для оценки коммерческих алгоритмов. В США FDA отвечает за одобрение медицинских устройств на базе искусственного интеллекта, и агентство регулярно публикует информацию об этих устройствах, включая данные о производительности.

Соавторы Стэнфордского исследования создали базу данных одобренных FDA медицинских устройств искусственного интеллекта и проанализировали, как каждое из них было протестировано, прежде чем оно получило одобрение. По словам исследователей, почти все устройства на базе ИИ – 126 из 130 – одобренных FDA в период с января 2015 по декабрь 2020 года, прошли только ретроспективные исследования. И ни одно из 54 утвержденных устройств высокого риска не было оценено проспективными исследованиями, то есть данные испытаний собирались до утверждения устройств, а не одновременно с их развертыванием.

Соавторы утверждают, что необходимы проспективные исследования, особенно в отношении медицинских устройств с искусственным интеллектом, поскольку их использование в полевых условиях может отличаться от предполагаемого. Например, большинство устройств компьютерной диагностики предназначены для поддержки принятия решений, а не для первичной диагностики. Проспективное исследование может выявить, что врачи неправильно используют устройство для диагностики, что приводит к результатам, отличным от ожидаемых.

Есть основания полагать, что эти отклонения могут привести к ошибкам. Отслеживание, проведенное Управлением по безопасности пациентов Пенсильвании в Гаррисбурге, показало, что с января 2016 года по декабрь 2017 года системы EHR были ответственны за 775 проблем во время лабораторных испытаний в штате, при этом взаимодействия человека с компьютером стали причиной 54,7% событий, а остальные 45,3% были вызваны компьютер. Кроме того, проект отчета правительства США, выпущенный в 2018 году, показал, что клиницисты нередко пропускают предупреждения, некоторые из которых основаны на искусственном интеллекте, от незначительных проблем, связанных с взаимодействием лекарств, до тех, которые представляют значительный риск.

Исследователи из Стэнфорда также обнаружили отсутствие разнообразия пациентов в тестах, проведенных на устройствах, одобренных FDA. Из 130 устройств 93 не прошли многосайтовую оценку, в то время как 4 были протестированы только на одном сайте и 8 устройств только на двух сайтах. В отчетах по 59 устройствам не упоминается размер выборки исследований. Из 71 исследования устройств, в которых была указана эта информация, средний размер составлял 300, и только в 17 исследованиях устройств рассматривалось, как алгоритм может работать на разных группах пациентов.

Отчасти из-за нежелания публиковать код, наборы данных и методы, большая часть данных, используемых сегодня для обучения алгоритмов искусственного интеллекта для диагностики заболеваний, может увековечить неравенство, как показали предыдущие исследования. Группа ученых из Великобритании обнаружила, что почти все наборы данных о заболеваниях глаз поступают от пациентов из Северной Америки, Европы и Китая, а это означает, что алгоритмы диагностики заболеваний глаз с меньшей вероятностью работают для расовых групп из недостаточно представленных стран. В другом исследовании исследователи из Университета Торонто, Института вектора и Массачусетского технологического института показали, что широко используемые наборы данных рентгеновского снимка грудной клетки кодируют расовые, гендерные и социально-экономические предубеждения.

Помимо основных проблем с набором данных, модели, не имеющие достаточной экспертной оценки, могут столкнуться с непредвиденными препятствиями при развертывании в реальном мире. Ученые из Гарварда обнаружили, что алгоритмы, обученные распознавать и классифицировать компьютерную томографию, могут быть смещены в сторону форматов сканирования от определенных производителей компьютерной томографии. Между тем, опубликованный Google технический документ выявил проблемы при внедрении системы прогнозирования заболеваний глаз в больницах Таиланда, в том числе проблемы с точностью сканирования. И исследования, проведенные такими компаниями, как Babylon Health, хорошо финансируемый стартап в области телемедицины, который утверждает, что может определять ряд заболеваний по текстовым сообщениям, неоднократно подвергались сомнению.

Соавторы Стэнфордского исследования утверждают, что информация о количестве сайтов в оценке должна «постоянно сообщаться», чтобы клиницисты, исследователи и пациенты могли сделать обоснованные суждения о надежности данного медицинского устройства с искусственным интеллектом. По их словам, многосайтовые оценки важны для понимания алгоритмической предвзятости и надежности и могут помочь в учете различий в оборудовании, технических стандартах, форматах хранения изображений, демографическом составе и распространенности заболеваний.

«Оценка производительности устройств искусственного интеллекта в нескольких клинических центрах важна для обеспечения хорошей работы алгоритмов в репрезентативных популяциях», – пишут соавторы. «Поощрение проспективных исследований по сравнению со стандартом лечения снижает риск вредного переобучения и более точно отражает истинные клинические результаты. Постмаркетинговое наблюдение за устройствами ИИ также необходимо для понимания и измерения непредвиденных результатов и ошибок, которые не обнаруживаются в проспективном многоцентровом исследовании».