Nvidia и Гарвард разрабатывают инструмент искусственного интеллекта, ускоряющий анализ генома

Источник · Перевод автора

Исследователи, связанные с Nvidia и Harvard, подробно описали AtacWorks, набор инструментов для машинного обучения, предназначенный для снижения затрат и времени, необходимых для экспериментов с редкими и одноклеточными элементами. В исследовании, опубликованном в журнале Nature Communications, соавторы показали, что AtacWorks может выполнять анализ всего генома всего за полчаса по сравнению с несколькими часами, которые занимают традиционные методы.

Большинство клеток тела несут полную копию ДНК человека с миллиардами пар оснований, втиснутыми в ядро. Но отдельная клетка извлекает только часть генетических компонентов, которые ей необходимы для функционирования, при этом такие типы клеток, как печень, кровь или клетки кожи, используют разные гены. Области ДНК, которые определяют функцию клетки, более или менее легко доступны, в то время как остальные защищены белками.

AtacWorks, доступный в центре NGC, оптимизированном для GPU, работает с ATAC-seq – методом поиска открытых участков в геноме в клетках, впервые разработанным профессором Гарварда Джейсоном Буэнростро, одним из соавторов статьи. ATAC-seq измеряет интенсивность сигнала в каждой точке генома. Пики сигнала соответствуют областям с ДНК, поэтому чем меньше клеток доступно, тем более шумными выглядят данные, что затрудняет определение доступных участков ДНК.

ATAC-seq обычно требует десятков тысяч ячеек для получения чистого сигнала. По словам соавторов, применение AtacWorks дает такое же качество результатов, используя всего несколько десятков ячеек.

AtacWorks был обучен на помеченных парах совпадающих наборов данных ATAC-seq: один высококачественный, а другой – шумный. Учитывая субдискретизированную копию данных, модель научилась предсказывать точную высококачественную версию и определять пики в сигнале. Используя AtacWorks, исследователи обнаружили, что они могут обнаружить доступный хроматин, комплекс ДНК и белка, основная функция которого заключается в упаковке длинных молекул в более компактные структуры, в зашумленной последовательности из 1 миллиона считываний, почти так же хорошо, как традиционные методы с чистым набором данных. 50 миллионов прочтений.

AtacWorks может позволить ученым проводить исследования с меньшим количеством клеток, снижая стоимость сбора образцов и секвенирования. Анализ тоже может стать быстрее и дешевле. Работая на графических процессорах Nvidia Tensor Core, AtacWorks потребовалось менее 30 минут для вывода о геноме, процесс, который займет 15 часов в системе с 32 ядрами ЦП.

В статье Nature Communications исследователи из Гарварда применили AtacWorks к набору данных о стволовых клетках, которые производят красные и белые кровяные тельца – редкие подтипы, которые невозможно изучить традиционными методами. Имея набор образцов всего из 50 клеток, команда смогла использовать AtacWorks для идентификации отдельных участков ДНК, связанных с клетками, которые развиваются в белые кровяные тельца, и отдельных последовательностей, которые коррелируют с эритроцитами.

«С очень редкими типами клеток невозможно изучить различия в их ДНК с помощью существующих методов», – сказала исследователь Nvidia Авантика Лал (Avantika Lal), первый автор статьи. «AtacWorks может помочь не только снизить затраты на сбор данных о доступности хроматина, но и открыть новые возможности в открытии и диагностике лекарств».