Сможем ли мы вместе решить основные проблемы патентного поиска с использованием искусственного интеллекта?

Источник · Перевод автора

«ИИ – это основной преобразующий способ, с помощью которого мы переосмысливаем то, как мы все делаем», – Генеральный директор Google Сундар Пичаи (Sundar Pichai).

Патенты были впервые оцифрованы в массовом масштабе в 90-х годах. С тех пор большинство приложений, построенных на основе патентных данных, оставались более или менее в рамках удобных границ предоставления доступа к данным с помощью фильтров по ключевым словам или полевого поиска. Однако с появлением в последние несколько лет новых и мощных методов искусственного интеллекта было предпринято гораздо больше попыток. Возможности безграничны, но есть еще много проблем, которые нужно преодолеть.

Патенты пишутся иначе

Сегодня доступен ряд программ ИИ, которые в некоторой степени понимают язык. Их называют языковыми моделями. Однако большинство языковых моделей обучаются на данных, полученных из онлайн-ресурсов, таких как Википедия и Reddit. То, что изучает ИИ, зависит от данных его обучения, поэтому эти языковые модели не работают так же хорошо с патентными данными.

Недавно команда Google создала языковые модели, специально обученные на основе патентного текста. Эти модели будут играть важную роль в разработке патентных приложений искусственного интеллекта.

Патентный текст сложен

Патентные поверенные не славятся тем, что оформляют патенты таким образом, чтобы облегчить читаемость. Они не называют лопату лопатой, они могут назвать это «землеройным инструментом с ручным управлением». Использование таких всеобъемлющих терминов – это то, что затрудняет чтение патентов. Кроме того, в большинстве патентов также используется некоторая вымышленная терминология. Это может показаться ненужным усложнением, но это не так. В большинстве патентов описываются новые вещи, а новые вещи необходимо называть! Это проблема для модели ИИ, потому что как вы должны понимать термин, который никогда раньше не видели? Даже патентные эксперты должны внимательно читать (и перечитывать) патенты, чтобы понять их смысл. ИИ должен пройти долгий путь, чтобы достичь этого уровня.

Не все в тексте

Для многих патентов, особенно связанных с машиностроением, трудно понять текст, не глядя на изображения. То же самое и со многими химическими патентами, где рисунок молекулярной структуры имеет гораздо больше смысла, чем его название IUPAC, которое ИИ не может визуализировать. Даже для других патентов изображения являются неотъемлемой частью. Спецификация написана вместе с изображениями. Методы искусственного интеллекта, которые могут понимать текст с учетом связанных с ним изображений, еще не разработаны. Это большая и увлекательная задача.

Низкое соотношение сигнал / шум

Большинство патентов похожи на фугу – в центре их простая идея, которую можно описать несколькими строками. Но патенты продолжают появляться на страницах, описывающих это в мучительных деталях. Конечно, это делается по законным причинам, но это огромная проблема для алгоритмов ИИ, потому что все детали сбивают ИИ с пути. Для алгоритмов ИИ важно отделить зерна от плевел и «уловить суть».

Логическая структура

Патенты описывают изобретения, и большинство изобретений определяется сложным взаимодействием их компонентов. Современные алгоритмы искусственного интеллекта не очень хорошо моделируют такие взаимодействия и взаимосвязи. Они могут анализировать фрагмент текста и извлекать некоторое подобие обсуждаемых компонентов, но они не очень хорошо понимают, как эти компоненты связаны друг с другом.

Что ждет?

Мы уже начали наблюдать, как довольно много групп пытаются по отдельности преодолеть эти проблемы патентного поиска ИИ. Я считаю, что было бы замечательно, если бы эти группы могли объединиться и совместно использовать ИИ, чтобы сделать поиск по известному уровню техники доступным для всех. Одной из некоммерческих инициатив по преодолению этих проблем в патентном поиске ИИ является PQAI – Patent Quality Through Artificial Intelligence. Вы знаете о каких-либо подобных инициативах?