Будущее: искусственный интеллект и фотография

Источник · Перевод автора

Искусственный интеллект (ИИ) был модным словом этого современного мира довольно долгое время. Когда мы говорим о таких словах, как «ИИ», «боты» или «машинное обучение», многие люди начинают думать о говорящих и ходячих роботах — благодаря нашим научно-фантастическим фильмам. Но на самом деле ИИ не имеет ничего общего с этим и был с нами в течение многих лет. Это в ваших смартфонах, приложениях для мобильного банкинга, автомобильной системе GPS и даже в социальных сетях, которые вы используете. Это в каждой области, и фотография не является исключением. На самом деле, мы уже используем ИИ для фотографирования в камерах нашего смартфона, и вы можете даже не знать об этом. Теперь фотография уже не просто камера, объектив и сенсор — это набор алгоритмов, которые немедленно манипулируют изображениями для получения фотографических результатов, которые в противном случае потребовали бы нескольких часов изменений с помощью какого-либо программного инструмента. ИИ превращает фотографию в вычислительный процесс. И это только начало. В ближайшие пять-десять лет фотография будет посвящена искусственному интеллекту и машинному обучению.

ИИ и фотография

Почти каждая фотография, которую вы видите, была бы захвачена или создана живым человеком. Без сомнения, существуют тысячи инструментов для создания изображений, но большинству из них необходимо присутствие человека, чтобы руководить процессом. Но если говорить о достижениях — Microsoft создала художника из ИИ под названием «бот для рисования». Бот может создавать изображения на основе письменных описаний объекта. Этот бот также суммирует некоторые детали с изображениями, которые не были введены в текст, символизируя, что ИИ имеет немного собственного воображения.

Это заставляет меня задуматься о времени в ближайшем будущем, когда вам просто нужно подать некоторые инструкции в приложении, например, «мне нужна моя фотография, стоящая перед статуей свободы», и вуаля, это будет сделано.

Влияние ИИ на фотографов

С появлением новых технологических достижений инструменты искусственного интеллекта могут начать заменять необходимые технические навыки для фотографии. Google Clips — это камера с искусственным интеллектом, которая может решить, когда освещение или композиция эстетичны. Это говорит о том, что мы недалеки от того, чтобы получить полностью автоматизированного фотографа. Отзывы о Google Clips не были так хороши, но семена были посеяны наверняка. Кроме того, благодаря постоянно развивающейся технологии генерации изображений, предприятия могут создавать свои собственные изображения в будущем вместо найма профессионального фотографа.

Генеративные состязательные сети и фотография

По словам Яна ЛеКуна —
«GAN — самая интересная идея за последние 10 лет в ML»

Функционирование GAN

GAN (Generative adversarial network) представляют собой обширные архитектуры нейронных сетей, состоящие из двух сетей, лежащих одна против другой («состязательная»). Это основа генерации синтетического изображения. В Монреальском университете Ян Гудфеллоу (Ian Goodfellow) и другие исследователи представили GAN в 2014 году, и с тех пор он стал наиболее широко используемым и захватывающим аспектом глубокого обучения. GAN также могут быть классифицированы как набор порождающих моделей. Ганс обладает огромным потенциалом в фотографии и других областях, поскольку он может научиться имитировать любой набор данных. Ганса можно определить как художника-робота, и результат был хорош до настоящего времени. Портрет, созданный GAN, был продан за 432 000 долларов. Использование этой технологии можно увидеть в Inpainting и Outpainting, синтез лица и GANimation.

Результаты рисования изображений (слева) и рисования (справа) [источник:Github]
Созданные лица воображаемых знаменитостей с помощью Progressive GAN. (Авторы изображений: NVIDIA)

Перевод картин в фотографии

GAN также можно использовать для того, чтобы сделать фотографии более реалистичными или просто превратить картину в новую фотографию. Для этого процесса используется другой тип GAN, известный как CycleGAN. Это использует два дискриминатора и два генератора.

Что мы ожидаем от этого?

ИИ наверняка окажет огромное влияние на фотографию и изображение в ближайшем будущем. Такие технологии, как GAN, способны генерировать фотографии из текстового ввода. Вы не можете отрицать тот факт, что в обозримом будущем такие технологии смогут создавать фотографии и видео высокого разрешения с помощью простых команд. Подумайте о целом видео, созданном путем подачи некоторых кодов в GAN. В будущем, возможно, не понадобятся такие инструменты, как CorelDRAW и Photoshop для улучшения изображений. Единственное, что меня преследует — это конец настоящей фотографии?