Технологические лидеры LinkedIn и Intel о состоянии ИИ

Технологические лидеры LinkedIn и Intel о состоянии ИИ

Источник · Перевод автора

ИИ в ударе. Принятие решений растет повсеместно, и организации уже видят ощутимые выгоды. Однако определение того, что такое ИИ и что он может делать, открыто для понимания, а вложения, необходимые для его работы, не всегда легко оправдать. Несмотря на новооткрытую практичность ИИ, предстоит еще долгий путь.

Давайте совершим экскурсию по прошлому, настоящему и будущему искусственного интеллекта и поучимся у лидеров и новаторов из LinkedIn, Intel Labs и передовых исследовательских институтов.

Соединение данных с помощью изоленты в LinkedIn

Майк Диллинджер – технический руководитель отдела таксономий и онтологий в отделе искусственного интеллекта LinkedIn. Он имеет разнообразный опыт, от академических исследований до консультирования по переводческим технологиям для компаний из списка Fortune 500. Последние несколько лет он работал с таксономиями в LinkedIn.

LinkedIn в значительной степени полагается на таксономию. Как де-факто социальная сеть для профессионалов, запуск платформы для развития навыков является центральным элементом ее стратегии. После заявления генерального директора Райана Рослански недавно был анонсирован LinkedIn Learning Hub, основанный на LinkedIn Skills Graph, получившем название «самая полная в мире систематика навыков».

График навыков включает более 36 000 навыков, более 14 миллионов объявлений о вакансиях и крупнейшую профессиональную сеть с более чем 740 миллионами участников. Это дает пользователям LinkedIn более обширную информацию о развитии навыков, персонализированный контент и обучение на базе сообщества.

Однако для Диллинджера таксономии могут быть переоценены. Ожидается, что в своем предстоящем выступлении в Connected Data World 2021 Диллинджер будет называть таксономии скотчем для соединения данных. Это отсылает к Perl, языку программирования, который часто называют изолентой Интернета.

«Клейкая лента хороша тем, что она гибкая и простая в использовании, но она, как правило, скрывает проблемы, а не исправляет их», – сказал Диллинджер.

Много усилий уходит на построение таксономий, на то, чтобы сделать их правильными и связными, а затем на получение одобрения основных заинтересованных сторон. Но вот тогда и начинают появляться проблемы.

Ключевые заинтересованные стороны, такие как менеджеры по продукту, систематики, пользователи и менеджеры, по очереди пробивают дыры в том, что было тщательно построено. Они указывают на проблемы охвата, точности, масштабируемости и связи. И с их собственной точки зрения все в порядке, признает Диллинджер. Итак, вопрос – что это дает?

Ключевой тезис Диллинджера заключается в том, что таксономии просто не очень хороши как инструмент для организации знаний. Поначалу это может показаться удивительным, но исходящее от кого-то вроде Диллинджера, оно имеет значительный вес.

Диллинджер подробно останавливается на проблемах с таксономиями, но, что, возможно, более интересно, он также дает подсказки, как решить эти проблемы:

«Хорошая новость заключается в том, что мы можем добиться большего, чем таксономии. Фактически, мы должны добиться большего. Мы закладываем основы нового поколения семантических технологий и искусственного интеллекта. Мы должны сделать это правильно», – говорит Диллинджер.

Диллинджер продолжает говорить о более надежных строительных блоках, чем таксономии для ИИ. Он цитирует каталоги понятий, модели понятий, явные концепции отношений, более реалистичные эпистемологические предположения и графы знаний следующего поколения.

По словам Диллинджера, это следующее поколение, потому что современные графы знаний не всегда используют концепции с явной понятной человеку семантикой. У них много преимуществ по сравнению с таксономиями, и нам нужно работать над уровнями людей, процессов и инструментов, чтобы добраться до них.

Thrill-K: переосмысление высшего машинного познания

Вопрос организации знаний также является центральным для Гади Зингера. Сингер – вице-президент и директор по развитию искусственного интеллекта в Intel Labs. Предлагая одну технологию за другой, он последние четыре десятилетия продвигал передовые достижения в области вычислений и внес ключевой вклад в компьютерные архитектуры Intel, разработку аппаратного и программного обеспечения, технологии искусственного интеллекта и многое другое.

Сингер сказал, что, по его мнению, последнее десятилетие было феноменальным для ИИ, в основном из-за глубокого обучения, но грядет следующая волна: «третья волна» ИИ, которая более когнитивна, лучше понимает мир и высший интеллект. Это произойдет за счет комбинации компонентов:

«В нем будут нейронные сети. В нем будет символическое представление и символическое обоснование. И, конечно же, это будет основано на глубоких знаниях. И когда она у нас появится, ценность, предоставляемая частным лицам и компаниям, будет пересмотрена и значительно увеличена по сравнению даже с теми великими делами, которые мы можем делать сегодня», – говорит Сингер.

В своем предстоящем программном докладе для Connected Data World 2021 Зингер подробно остановится на Thrill-K, своей архитектуре для переосмысления разделения и построения знаний для более высокого уровня познания машин.

Зингер отличает распознавание, как и тип операции сопоставления с образцом с использованием неглубоких данных и глубоких вычислений, в которых нейронные сети преуспевают, от познания. Познание, утверждает Сингер, требует понимания очень глубокой структуры знания.

Чтобы иметь возможность обрабатывать даже, казалось бы, простые вопросы, необходимо организовать внутренний взгляд на мир, понимать значение слов в контексте и рассуждать на основе знаний. И именно поэтому даже более сложные модели глубокого обучения, которые у нас есть в настоящее время, а именно языковые модели, не подходят для глубоких знаний.

Языковые модели содержат статистическую информацию, фактические знания и даже некоторые знания здравого смысла. Однако они никогда не предназначались для использования в качестве инструмента для организации знаний. Сингер считает, что языковые модели имеют некоторые базовые ограничения, которые делают их хорошими, но не подходящими для этой задачи.

Сингер сказал, что отличной моделью знаний является способность хорошо масштабироваться в пяти областях возможностей: масштабируемость, точность, адаптируемость, богатство и объяснимость. Он добавляет, что иногда с помощью языковых моделей изучается так много информации, что мы можем извлечь ее и улучшить специальные модели знаний.

Чтобы преобразовать принципы наличия отличной модели знаний в реальную архитектуру, которая может поддерживать следующую волну искусственного интеллекта, Сингер предлагает архитектуру для знаний и информации, организованную на трех уровнях, которую он называет Thrill-K.

Первый уровень предназначен для самых непосредственных знаний, которые Зингер называет шкалой Гига, и считает, что она должна находиться в нейронной сети.

Следующий уровень знаний – это глубокая база знаний, такая как граф знаний. Именно здесь в Terascale хранятся понятные, структурированные и явные знания, доступные по запросу для нейронной сети.

И, наконец, есть мировая информация и мировой уровень знаний, где данные хранятся в масштабе Зетта.

Знание, утверждает Сингер, является основой для принятия обоснованных и разумных решений. Может адаптироваться к новым обстоятельствам и новым задачам. Это потому, что данные и знания не структурированы для конкретной задачи, но присутствуют во всем их богатстве и выразительности.

Для этого потребуются согласованные усилия, и Intel Labs со своей стороны изучает аспекты НЛП, мультимодальности, здравого смысла и нейроморфных вычислений.

Системы, которые учатся и рассуждают

Если организация знаний – это то, что и Диллинджер, и Сингер ценят как ключевой компонент всеобъемлющей структуры ИИ, то для Фрэнка ван Хармелена это центральный элемент всей его карьеры. Ван Хармелен возглавляет группу представления и обоснования знаний на факультете компьютерных наук Университета VU в Амстердаме.

Он также является главным исследователем Центра гибридного интеллекта (Hybrid Intelligence Center), десятилетнего сотрудничества исследователей шести голландских университетов в области искусственного интеллекта, рассчитанного на 22,7 миллиона долларов (20 миллионов евро).

Ван Хармелен (Van Harmelen) отмечает, что после прорывов в машинном обучении (глубоком обучении или другом) за последнее десятилетие недостатки машинного обучения также становятся все более очевидными: необъяснимые результаты, нехватка данных и ограниченная возможность обобщения становятся узкими местами.

В своем предстоящем программном выступлении в Connected Data World 2021 Ван Хармелен рассмотрит, как сочетание с символическим ИИ в виде очень больших графов знаний может дать нам путь вперед: к системам машинного обучения, которые могут объяснить свои результаты и которым требуется меньше данных, и которые лучше обобщают вне их обучающей выборки.

В современном искусственном интеллекте упор делается не столько на замену людей системами искусственного интеллекта, сколько на системах искусственного интеллекта, которые взаимодействуют с людьми и поддерживают их. Однако для Ван Хармелена очевидно, что существующим системам ИИ не хватает базовых знаний, контекстных знаний и способности объяснять себя, что делает их не очень ориентированными на человека:

«Они не могут поддерживать людей и не могут быть компетентными партнерами. Так что же сдерживает ИИ? Почему мы в такой ситуации? Долгое время исследователи ИИ заперлись в одной из двух башен. В случае с ИИ мы могли бы назвать их символической башней ИИ и статистической башней ИИ ».

Если вы участвуете в лагере статистического ИИ, вы создаете нейронные сети и программы машинного обучения. Если вы находитесь в лагере символического ИИ, вы строите базы знаний и графики знаний и делаете на их основе выводы. В любом случае, вам не нужно разговаривать с людьми из другого лагеря, потому что они все равно ошибаются.

Что на самом деле не так, – утверждает Ван Хармелен, – это разделение. Наш мозг работает в обоих направлениях, поэтому нет причин, по которым их приближение с помощью ИИ должно полагаться исключительно на оба подхода. Фактически, эти подходы очень хорошо дополняют друг друга с точки зрения сильных и слабых сторон.

Символический ИИ, наиболее известный как граф знаний, стоит дорого создавать и поддерживать, так как требует ручных усилий. Статистический ИИ, наиболее известный из которых – глубокое обучение, требует большого количества данных, а зачастую и больших усилий. Они оба страдают от проблемы «скачка производительности» (т. е. их производительность падает при определенных обстоятельствах, но обстоятельства и способы различаются).

Ван Хармелен приводит множество примеров практических способов, с помощью которых символический и статистический ИИ могут дополнять друг друга. Машинное обучение может помочь построить и поддерживать графы знаний, а графы знаний могут предоставить контекст для улучшения машинного обучения:

«Это уже неправда, что символическое знание стоит дорого и мы не можем получить его все. Очень большие графы знаний свидетельствуют о том, что это символическое знание очень хорошо доступно, поэтому больше нет необходимости изучать то, что мы уже знаем.

Мы можем внедрить то, что мы уже знаем, в наши системы машинного обучения и, комбинируя эти два типа систем, создавать более надежные, более эффективные и более понятные системы», – говорит Ван Хармелен.

Маятник колеблется между символическим и статистическим ИИ вот уже несколько десятилетий. Возможно, сейчас хорошее время для двух лагерей, чтобы помириться и начать разговор. Чтобы создать искусственный интеллект для реального мира, нам нужно подключить не только данные. Нам также необходимо объединить людей и идеи.