Технологии на основе машинного обучения – следующий прорыв в области биологии

Технологии на основе машинного обучения – следующий прорыв в области биологии

Источник · Перевод автора

Цифровая биология находится на той же стадии (ранней, захватывающей и преобразующей) развития, что и Интернет в 90-х годах. В то время концепция IP-адресов была новой, а «техническая подкованность» означала, что вы знали, как пользоваться Интернетом. Перенесемся на три десятилетия вперед, и сегодня мы наслаждаемся промышленным общением в Интернете, не зная, как это работает. Интернет имеет развитую инфраструктуру, от которой выигрывает весь мир.

Нам нужно привнести подобную индустриализацию в биологию. Полное использование его потенциала поможет нам бороться с разрушительными болезнями, такими как рак. A16z перефразировал свой знаменитый девиз «Программное обеспечение пожирает мир» на «Биология пожирает мир». Биология – это не просто наука; это также становится инженерной дисциплиной. Мы приближаемся к возможности «программировать биологию» для диагностических и лечебных целей.

Интеграция передовых технологий, таких как машинное обучение, в такие области, как открытие лекарств, позволит ускорить процесс оцифровки биологии. Однако, чтобы достичь этого, необходимо преодолеть большие проблемы.

Оцифрованная биология: плавание в океанах данных

Вскоре после того, как гигабайты биологических данных стали считаться большим объемом, мы ожидаем, что биологические данные, полученные в ближайшие годы, будут подсчитываться в эксабайтах. Работа с данными в таких масштабах – сложная задача. Чтобы справиться с этой проблемой, отрасль должна разработать и внедрить современные методы управления и обработки данных.

В биотехнологической отрасли еще нет зрелой культуры управления данными. Результаты экспериментов собираются и хранятся в разных местах в самых разных форматах. Это серьезное препятствие для подготовки данных для обучения машинному обучению и быстрого анализа. Подготовка оцифрованных данных и наборов биологических данных для анализа может занять месяцы.

Для развития практики управления биологическими данными также потребуются стандарты для описания биологических и биологических данных в цифровом виде, аналогичные нашим стандартам для протоколов связи.

Индексирование наборов данных в центральных хранилищах данных и следование практикам управления данными, которые стали широко распространенными в индустрии программного обеспечения, значительно упростят подготовку и использование наборов данных в необходимом нам коллективном масштабе. Для этого биофармацевтическим компаниям потребуется поддержка высшего руководства и широкомасштабные культурные и операционные изменения.

Добро пожаловать в мир симуляторов

Проведение одного биологического эксперимента может стоить миллионы долларов. Издержки такого масштаба делают невозможным проведение экспериментов в масштабах, которые нам понадобятся, например, для обеспечения подлинной персонализации здравоохранения – от открытия лекарств до планирования лечения. Единственный способ решить эту проблему – использовать моделирование (эксперименты in-silico) для дополнения биологических экспериментов. Это означает, что нам необходимо в первую очередь интегрировать рабочие процессы машинного обучения (ML) в биологические исследования.

С развитием индустрии искусственного интеллекта и развитием компьютерных микросхем, разработанных специально для рабочих нагрузок машинного обучения, мы скоро сможем проводить миллионы экспериментов in-silico за считанные дни по той же цене, что и один эксперимент в реальном времени. в течение нескольких месяцев.

Конечно, смоделированные эксперименты страдают от недостатка точности по сравнению с биологическими экспериментами. Один из способов преодолеть это – провести эксперименты in-silico in vitro или in vivo, чтобы получить наиболее интересные результаты. Интеграция данных in-silico из экспериментов vitro / vivo приводит к петле обратной связи, в которой результаты экспериментов in vitro / vivo становятся обучающими данными для будущих прогнозов, что приводит к повышению точности и сокращению экспериментальных затрат в долгосрочной перспективе. Некоторые академические группы и компании уже используют такие подходы и сократили затраты в 50 раз.

Такой подход к использованию моделей машинного обучения для выбора экспериментов и последовательной передачи экспериментальных данных в обучение машинному обучению должен стать отраслевым стандартом.

Мастера вселенной

Как однажды классно сказал Стив Джобс: «Люди, которые достаточно безумны, чтобы думать, что могут изменить мир, – это те, кто это делают».

Последние два десятилетия принесли грандиозные технологические достижения в области секвенирования генома, разработки программного обеспечения и машинного обучения. Все эти достижения сразу же применимы в области биологии. У всех нас есть возможность участвовать и создавать продукты, которые могут значительно улучшить условия для человечества в целом.

Биологии нужны инженеры-программисты, инженеры инфраструктуры и инженеры машинного обучения. Без их помощи на оцифровку биологии потребуются десятилетия. Основная проблема в том, что биология как область настолько сложна, что пугает людей. В этом смысле биология напоминает мне информатику конца 80-х, когда разработчикам нужно было знать электротехнику, чтобы разрабатывать программное обеспечение.

Для любого, кто работает в индустрии программного обеспечения, возможно, я могу предложить другой взгляд на эту сложность: воспринимайте сложность биологии как возможность, а не как непреодолимую проблему. Компьютеры и программное обеспечение стали достаточно мощными, чтобы переключить нас на совершенно новый механизм биологического понимания. Вы – первое поколение программистов, у которого есть такая возможность. Возьмитесь за него обеими руками.

Принесите свои навыки, интеллект и знания в биологию. Помогите биологам расширить возможности таких технологий, как CRISPR, одноклеточная геномика, иммунология и клеточная инженерия. Помогите открыть новые методы лечения рака, болезни Альцгеймера и многих других заболеваний, против которых мы были бессильны на протяжении тысячелетий. До настоящего времени.