В машинном обучении для диагностики COVID-19 обнаружены основные недостатки

Источник · Перевод автора

Коалиция исследователей искусственного интеллекта и специалистов здравоохранения в таких областях, как инфекционные заболевания, радиология и онтология, обнаружила несколько общих, но серьезных недостатков машинного обучения, предназначенного для диагностики или прогноза COVID-19.

После начала глобальной пандемии такие стартапы, как DarwinAI, крупные компании, такие как Nvidia, и группы, такие как Американский колледж радиологии, запустили инициативы по обнаружению COVID-19 с помощью компьютерной томографии, рентгеновских лучей или других форм медицинской визуализации. Обещание такой технологии состоит в том, что она может помочь специалистам в области здравоохранения различать пневмонию и COVID-19 или предоставить больше возможностей для диагностики пациентов. Некоторые модели даже были разработаны, чтобы предсказать, умрет ли человек или ему понадобится вентилятор на основе компьютерной томографии. Однако исследователи говорят, что необходимы серьезные изменения, прежде чем эту форму машинного обучения можно будет использовать в клинических условиях.

Исследователи проанализировали более 2200 статей и, удалив дубликаты и нерелевантные заголовки, сузили результаты до 320 статей, качество которых было подвергнуто полнотекстовой проверке. Наконец, 62 статьи были сочтены подходящими для включения в то, что авторы называют систематическим обзором опубликованных исследований и препринтов, размещенных в открытых репозиториях исследовательских работ, таких как arXiv, bioRxiv и medRxiv.

Из этих 62 статей, включенных в анализ, примерно половина не пыталась выполнить внешнюю проверку обучающих данных, не оценивала чувствительность или надежность модели и не сообщала демографические данные людей, представленных в обучающих данных.

Наборы данных «Франкенштейн», созданные с использованием дубликатов изображений, полученных из других наборов данных, также оказались распространенной проблемой, и только одна из пяти моделей диагностики или прогноза COVID-19 делилась своим кодом, чтобы другие могли воспроизводить результаты, заявленные в литературе.

«В их нынешней отчетной форме ни одна из моделей машинного обучения, включенных в этот обзор, не является вероятным кандидатом на клинический перевод для диагностики / прогноза COVID-19», – говорится в документе. «Несмотря на огромные усилия исследователей по разработке моделей машинного обучения для диагностики и прогноза COVID-19, мы обнаружили методологические недостатки и множество предубеждений во всей литературе, что привело к весьма оптимистичным результатам».

Исследование было опубликовано на прошлой неделе в мартовском выпуске журнала Nature Machine Intelligence исследователями из Кембриджского и Манчестерского университетов. Другая распространенная проблема, которую они обнаружили с моделями машинного обучения, разработанными с использованием данных медицинской визуализации, заключалась в том, что фактически не проводилась оценка систематической ошибки и, как правило, не было достаточно изображений. Было обнаружено, что почти каждая рассмотренная статья имеет высокий или неопределенный риск систематической ошибки; только шесть из них были признаны группой с низким риском систематической ошибки.

Общедоступные наборы данных также часто страдали от форматов изображений более низкого качества и были недостаточно большими для обучения надежных моделей искусственного интеллекта. Исследователи использовали контрольный список для искусственного интеллекта в медицинской визуализации (CLAIM) и оценку качества радиомики (RQS), чтобы помочь оценить наборы данных и модели.

«Неотложность пандемии привела к многочисленным исследованиям с использованием наборов данных, которые содержат очевидные предубеждения или не репрезентативны для целевой группы населения, например, педиатрических пациентов. Перед оценкой модели крайне важно, чтобы авторы представили демографическую статистику для своих наборов данных, включая распределение по возрасту и полу», – говорится в статье. «Высококачественные наборы данных, рукописи с достаточной документацией для воспроизводимости и внешней валидации необходимы для повышения вероятности внедрения моделей и их интеграции в будущие клинические испытания для обеспечения независимой технической и клинической валидации, а также экономической эффективности».

Другие рекомендации, предложенные группой исследователей искусственного интеллекта и специалистов здравоохранения, включают обеспечение воспроизводимости результатов производительности модели, изложенных в исследовательских документах, и рассмотрение того, как собираются и объединяются наборы данных.

Из других новостей на пересечении COVID-19 и машинного обучения: ранее на этой неделе Управление по санитарному надзору за качеством пищевых продуктов и медикаментов (FDA) одобрило разрешение на экстренное использование скринингового устройства на основе машинного обучения, которое, по словам агентства, является первым одобренным в США.