Интерфейсы мозг-компьютер в этом году добились больших успехов

Интерфейсы мозг-компьютер в этом году добились больших успехов

Источник · Перевод автора

Через восемь месяцев 2021 год уже стал рекордным по финансированию интерфейса мозг-компьютер (BCI, brain-computer interface), утроив 97 миллионов долларов, собранных в 2019 году. BCI переводят человеческие мозговые волны в понятные для машины команды, позволяя людям управлять компьютером, например, с помощью их ум. Буквально за последние пару недель компания Илона Маска BCI, Neuralink, объявила о финансировании серии C в размере 205 миллионов долларов, а Paradromics, другая фирма BCI, объявила о начале раунда семян на 20 миллионов долларов несколькими днями ранее.

Практически одновременно с этим конкурент Neuralink, компания Synchron, объявила, что получила новаторское разрешение от FDA на проведение клинических испытаний своего флагманского продукта, Stentrode, на людях. Еще до этого утверждения стентрод Synchron уже проходил клинические испытания в Австралии, и четыре пациента получили имплант.

(Вверху: стентрод Synchron в действии)

(Вверху: демонстрация Neurlink, апрель 2021 г.)

Тем не менее, многие скептически относятся к прогрессу Neuralink и утверждениям, что BCI не за горами. И хотя определение BCI и его приложений может быть двусмысленным, я бы предложил другую точку зрения, объясняющую, как прорывы в другой области делают перспективы BCI намного более ощутимыми, чем раньше.

BCI по своей сути – это расширение наших человеческих возможностей или компенсация утраченных, например, парализованных людей.

Компании в этой сфере достигают этого с помощью двух форм BCI – инвазивной и неинвазивной. В обоих случаях регистрируется активность мозга для преобразования нейронных сигналов в команды, такие как перемещение предметов с помощью роботизированной руки, набор текста или говорение посредством мысли. Механизмом этих мощных переводов является машинное обучение, которое распознает закономерности на основе данных мозга и способно обобщить эти закономерности на многие человеческие мозги.

Распознавание образов и переносное обучение

Способность преобразовывать мозговую активность в действия была достигнута несколько десятилетий назад. Основная задача для частных компаний сегодня – это создание коммерческих продуктов для масс, которые могут находить общие сигналы в разных мозгах, которые переводятся в похожие действия, такие как образец мозговых волн, который означает «двигай моей правой рукой».

Это не означает, что двигатель должен делать это без какой-либо тонкой настройки. В приведенной выше демонстрации MindPong от Neuralink обезьяна-резус прошла несколько минут калибровки, прежде чем модель была адаптирована к паттернам нейронной активности его мозга. Мы можем ожидать, что эта процедура будет происходить и с другими задачами, хотя в какой-то момент движок может быть достаточно мощным, чтобы предсказать правильную команду без какой-либо тонкой настройки, что тогда называется обучением с нулевым выстрелом.

К счастью, исследования искусственного интеллекта в области обнаружения паттернов достигли огромных успехов, особенно в областях зрения, звука и текста, создав более надежные методы и архитектуры, позволяющие приложениям искусственного интеллекта обобщаться.

Новаторская статья «Внимание» – это все, что вам нужно, вдохновившая на многие другие интересные статьи с предлагаемой архитектурой «Трансформер». Его выпуск в конце 2017 года привел к множеству прорывов в разных областях и модальностях, таких как ViT от Google, мультимодальный Perceiver DeepMind и wav2vec 2.0 от Facebook. Каждый из них достиг самых современных результатов в своих тестах, превзойдя предыдущие методы решения поставленной задачи.

Одной из ключевых черт архитектуры Transformer является ее способность к обучению с нулевым или частичным обучением, что позволяет обобщать модели ИИ.

Обилие данных

Современные модели глубокого обучения, такие как выделенные выше от Google, DeepMind и Facebook, требуют огромных объемов данных. Для справки: хорошо известная модель OpenAI GPT-3, Transformer, способная генерировать язык, похожий на человеческий, была обучена с использованием 45 ГБ текста, включая наборы данных Common Crawl, WebText2 и Wikipedia.

Онлайн-данные являются одним из основных катализаторов недавнего взрыва компьютерных приложений на естественном языке. Конечно, данные ЭЭГ (электроэнцефалографии) не так доступны, как страницы Википедии, но это начинает меняться.

Исследовательские учреждения по всему миру публикуют все больше и больше наборов данных, связанных с BCI, что позволяет исследователям использовать знания друг друга. Например, исследователи из Университета Торонто использовали набор данных EEG Corpus больницы Университета Темпл (TUEG), состоящий из клинических записей более 10 000 человек. В своем исследовании они использовали подход к обучению, вдохновленный преобразователем естественного языка BERT от Google, чтобы разработать предварительно обученную модель, которая может моделировать необработанные последовательности ЭЭГ, записанные с помощью различного оборудования и по различным предметам и последующим задачам. Затем они показывают, как такой подход может создавать представления, подходящие для огромных объемов немаркированных данных EEF и последующих приложений BCI.

Данные, собранные в исследовательских лабораториях, – отличное начало, но могут оказаться недостаточными для реальных приложений. Если BCI будет ускоряться, нам нужно будет увидеть появление коммерческих продуктов, которые люди смогут использовать в своей повседневной жизни. Благодаря таким проектам, как OpenBCI, делающим доступное оборудование доступным, а другие коммерческие компании теперь запускают свои неинвазивные продукты для широкой публики, данные вскоре могут стать более доступными. Два примера включают NextMind, которая в прошлом году запустила комплект разработчика для разработчиков, которые хотят писать свой код на основе аппаратного обеспечения и API NextMind, и Kernel, которая вскоре планирует выпустить свой шлем для неинвазивной записи мозга Flow.

Аппаратное обеспечение и периферийные вычисления

Приложения BCI работают в режиме реального времени, как при вводе текста или во время игры. Задержка более одной секунды от мысли к действию создаст неприемлемый пользовательский опыт, поскольку взаимодействие будет медленным и непоследовательным (подумайте о игре в шутер от первого лица с задержкой в ​​одну секунду).

Отправка необработанных данных ЭЭГ на удаленный сервер логического вывода, чтобы затем декодировать их в конкретное действие и вернуть ответ устройству BCI, приведет к такой задержке. Кроме того, отправка конфиденциальных данных, таких как активность вашего мозга, создает проблемы с конфиденциальностью.

Недавний прогресс в разработке микросхем AI может решить эти проблемы. Такие гиганты, как Nvidia и Google, делают большие ставки на создание более мелких и более мощных чипов, оптимизированных для вывода на периферии. Это, в свою очередь, может позволить устройствам BCI работать в автономном режиме и избежать необходимости отправлять данные, устраняя связанные с этим проблемы с задержкой.

Последние мысли

Человеческий мозг не претерпел значительных изменений за тысячи лет, в то время как мир вокруг нас сильно изменился только за последнее десятилетие. Человечество достигло переломного момента, когда ему необходимо расширить возможности своего мозга, чтобы не отставать от технологических инноваций, окружающих нас.

Возможно, нынешний подход, сводящий активность мозга к электрическим сигналам, неверен, и что мы можем испытать зиму BCI, если такие компании, как Kernel и NextMind, не будут создавать многообещающие коммерческие приложения. Но потенциал роста слишком важен, чтобы его игнорировать – от помощи парализованным людям, которые уже отказались от идеи жить нормальной жизнью, до улучшения нашего повседневного опыта.

BCI все еще находится на начальной стадии, и ему предстоит решить множество проблем и преодолеть препятствия. Тем не менее, для некоторых это уже должно быть достаточно захватывающим, чтобы бросить все и начать строительство.