Исследователи разрабатывают структуру ИИ, которая предсказывает движение объекта на основе изображений и тактильных данных

Источник · Перевод автора

Недавние исследования искусственного интеллекта показали синергию между осязанием и зрением. Один позволяет измерять трехмерную поверхность и инерционные свойства, а другой обеспечивает целостное представление проецируемого внешнего вида объектов. Основываясь на этой работе, исследователи из Samsung, Университета Макгилла и Йоркского университета исследовали, может ли система искусственного интеллекта предсказать движение объекта на основе визуальных и тактильных измерений его начального состояния.

«Предыдущие исследования показали, что предсказать траекторию движущихся объектов сложно из-за неизвестных фрикционных и геометрических свойств и неопределенного распределения давления на взаимодействующей поверхности», – написали исследователи в статье, описывающей работу. «Чтобы облегчить эти трудности, мы сосредотачиваемся на обучении предсказателя, обученного улавливать наиболее информативные и стабильные элементы траектории движения».

Исследователи разработали датчик See-Through-Your-Skin, который, как они утверждают, может захватывать изображения, обеспечивая при этом подробные тактильные измерения. Наряду с этим они создали структуру под названием Генеративное мультимодальное восприятие, которая использует визуальные и тактильные данные, когда они доступны, для изучения представления, которое кодирует информацию о позе, форме и силе объекта, и делает прогнозы о динамике объекта. А чтобы предвидеть состояние покоя объекта во время физических взаимодействий, они использовали то, что они называют предсказаниями состояния покоя, наряду с визуально-актильным набором данных о движениях в динамических сценах, включая объекты, свободно падающие на плоской поверхности, скользящие по наклонной плоскости и возмущенные из-за своей позы покоя.

Исследователи говорят, что в ходе экспериментов их подход смог с высокой точностью предсказать исходные визуальные и тактильные измерения конфигурации покоящегося объекта, причем прогнозы близко совпадают с наземными метками истинности. Более того, они утверждают, что их фреймворк научился отображать между визуальным, тактильным и трехмерным режимами поз, чтобы он мог обрабатывать отсутствующие модальности, например, когда тактильная информация была недоступна во входных данных, а также предсказывать случаи, когда объект упал с поверхности датчика, в результате чего выходные изображения пустые.

«Если ранее невидимый объект падает в руку человека, мы можем сделать вывод о категории объекта и угадать некоторые из его физических свойств, но самый непосредственный вывод заключается в том, благополучно ли он окажется у нас в ладони или мы необходимо настроить наше восприятие объекта, чтобы поддерживать контакт», – написали соавторы. «[В своей работе] мы обнаруживаем, что прогнозирование движений объекта в физических сценариях выигрывает от использования обеих модальностей: визуальная информация фиксирует свойства объекта, такие как трехмерная форма и местоположение, а тактильная информация дает важные подсказки о силах взаимодействия и результирующем движении объекта и контактах».