«Анонимные» наборы рентгеновских данных могут раскрыть личность пациента

Источник · Перевод автора

Рентген грудной клетки используется во всем мире для выявления заболеваний от пневмонии до ХОБЛ. Но хотя они играют решающую роль в клинической помощи, обнаружение определенных аномалий в рентгеновских лучах может быть сложной задачей для радиологов. Это привело к созданию систем классификации болезней на базе искусственного интеллекта, анализирующих рентгеновские лучи, некоторые из которых продемонстрировали многообещающую эффективность. Однако этим системам требуется большой объем данных о пациентах, на основе которых можно научиться ставить диагнозы, что может иметь пугающие последствия для конфиденциальности, если данные не были должным образом анонимны.

В исследовании, проведенном в соавторстве с исследователями из Университета Эрланген-Нюрнберг в Эрлангене, Германия, была предпринята попытка определить, в какой степени данные пациентов могут быть скомпрометированы системой классификации рентгеновских лучей. Опираясь на общедоступный набор данных из более чем 112000 рентгеновских снимков грудной клетки, они разработали метод – модель повторной идентификации, основанную на глубоком обучении, – которая может определить, принадлежат ли два рентгеновских изображения одного и того же человека с точностью 95,55%, предполагая, что по крайней мере некоторые наборы данных уязвимы для атак.

Как отмечают исследователи, общедоступные наборы данных, которые предположительно являются анонимными, могут содержать конфиденциальную информацию о пациентах, включая диагнозы, истории лечения и клинические учреждения. Если рентгеновский снимок известного человека доступен злоумышленнику и существует правильно работающая модель повторной идентификации, то эту модель можно использовать для сравнения данного рентгеновского снимка с каждым отдельным изображением в наборе данных рентгеновского снимка. Таким образом, человек может быть связан с конфиденциальными данными, содержащимися в наборе данных.

Соавторы говорят, что их метод устойчив к «нежестким» преобразованиям, которые могут появиться между двумя изображениями одного и того же человека в общедоступном наборе данных, например, деформации формы легких. Они выдвигают гипотезу о том, что в наборах данных появляются зашумленные шаблоны изображений, характерные для уникальных пациентов, что упрощает идентификацию людей. Но, по мнению соавторов, даже наборы данных, которые показывают слабую корреляцию между шумами и идентичностями, могут оказаться компромиссными.

«Повторная идентификация применима к данным, которые были получены в различных больницах по всему миру, где перед публикацией данных могут быть предприняты другие шаги предварительной обработки по сравнению с набором данных ChestX-ray14», – написали исследователи в статье, описывающей свою работу. «Мы пришли к выводу, что общедоступные данные рентгеновского снимка грудной клетки не являются полностью анонимными. Использование сети повторной идентификации на основе глубокого обучения позволяет злоумышленнику сравнивать заданную рентгенограмму с общедоступными наборами данных и связывать доступные метаданные с интересующим изображением. Таким образом, конфиденциальные данные пациента подвергаются высокому риску попадания в неавторизованные руки злоумышленника, который может распространить полученную информацию против воли соответствующего пациента».

Подобная утечка данных потребует от злоумышленника доступа к изображению известного человека. Однако даже если у злоумышленника есть только часть изображения неизвестного пациента, исследователи говорят, что их метод может быть использован для поиска одного и того же пациента в различных наборах данных. Предполагая, что несколько наборов данных содержат одного и того же пациента, но разные метаданные, злоумышленник может получить полную картину пациента.

Учитывая учащение случаев утечки медицинских записей, это не является нереалистичным сценарием. В 2017 году 27% эксплойтов были связаны с данными здравоохранения в 2017 году. И только в первой половине 2019 года было взломано более 31 миллиона историй болезни, что вдвое превышает количество взломанных записей по сравнению с 15 миллионами в 2018 году.

«Мы предполагаем, что сбор информации о пациенте таким способом может значительно помочь злоумышленнику установить истинную личность пациента», – пишут исследователи. «Поэтому мы настоятельно призываем пересмотреть традиционные методы анонимизации и разработать более безопасные методы, чтобы противостоять потенциальным атакам со стороны алгоритмов, основанных на глубоком обучении».

Решения этих проблем с данными о здравоохранении обязательно потребуют комбинации методов, подходов и парадигм. Защита данных требует предотвращения потери данных, управления политиками и идентификацией, а также технологий шифрования, в том числе тех, которые позволяют организациям отслеживать действия, влияющие на их данные. Что касается конфиденциальности, эксперты сходятся во мнении, что прозрачность – лучшая политика: возможности деидентификации, которые удаляют или скрывают личную информацию, являются решающим фактором для систем здравоохранения, как и методы сохранения конфиденциальности, такие как дифференциальная конфиденциальность, федеративное обучение и гомоморфное шифрование.

«Я думаю, что [федеративное обучение] – действительно захватывающее исследование, особенно в области конфиденциальности пациентов и личной информации человека», – сказал VentureBeat в предыдущем интервью Андре Эстева (Andre Esteva), руководитель отдела медицинского искусственного интеллекта Salesforce Research. «Федеративное обучение обладает большим неиспользованным потенциалом… [это] еще один уровень защиты, предотвращающий физическое удаление данных из [больниц] и делая что-то для обеспечения доступа к ИИ, который сегодня недоступен по множеству причин».