Оказывается, внимание и фокусировка на определённых частях изображения присущи и нейронным сетям, причем их внимание привлекают другие вещи, нежели людей. Такие результаты ученые представили в работе, опубликованной в электронной библиотеке препринтов ArXiv.
Карты внимания человека и трёх нейросетей
Добровольцам необходимо было ответить на простые вопросы о фотографиях: «Как называется кафе?», «Что делают мужчины?» и прочие. Но все фото были размыты, а для ответа на вопрос, надо было лишь кликнуть мышкой в области, которую испытуемые хотели увидеть четко. Далее создавали карту кликов, демонстрирующие фокусировку внимания.
Такое же задание выполняли и нейросети: Stacked Attention Networks и HieCoAtt-P. Обе способны понимать и отвечать на вопросы. Так ученые создали карту и для неронных сетей.
Разные зоны внимания в зависимости от вопроса, с которым рассматривается изображение
Выяснилось, что нейросети смотрели на другие области фотографий для поиска ответа, в отличие от людей. Кроме того, человеку требовалась более резкая фотография, чем программам. По шкале от 1 (что значило, что снимок был сделан полностью резким) до −1 (никакого увеличения резкости) люди получили балл 0,63, а нейросети «заработали» всего около 0,26 баллов. Несмотря на это, они достаточно хорошо справились с заданием (точность распознавания 62,1 процент).
Такая работа, считают авторы, помогает улучшить работу нейросетей и даже сделать их более «человечными».