Оказывается, что современные сверточные нейросети испытывают одинаковые с человеком трудности при распознавании изображений. А именно, обе визуальные системы труднее всего справляются с поворотом объектов в пространстве. Подробности можно найти в препринте, опубликованном на сайте ArXiv.org
И в современных сверточных нейросетях и в биологических сетях нейронов изображение обрабатывается послойно, каждый слой «выявляет» все более абстрактные черты. Но изображение в обоих случаях остается плоским, даже слои, отвечающие за трехмерность, руководствуются плоским рискунком признаков, что предоставил нижележащий слой.
Но в обеих «типах» зрения все же существуют различия, поэтому пока непонятно как слабые места одной могут совпадать с другой.
Авторы статьи предложили сложное задание по распознаванию изображения людям-добровольцам и двум современным свёрточным нейросетям (система Крижевского и сеть Very Deep), чтобы выяснить ответ на этот вопрос.
Добровольцам надо было классифицировать предложенную картинку по определенным категориям: автомобиль, корабль, мотоцикл или животное. Каждую картинку демонстрировали в течение всего 12,5 микросекунд, после чего необходимо было ответить, что было изображено.
Объекты находились на ярком неоднородном фоне и кроме того были искажены перемещением, масштабированием поворотом в плоскости и в пространстве.
Выяснилось, что оба «зрения» тяжелее всего справляются с поворотом объекта в пространстве, а легче – с перемещением, поворотом на плоскости и масштабированием. «Это говорит о том» — считают авторы, — «что люди распознают объекты прежде всего через сопоставление с двумерным шаблоном, а не путем конструкции трехмерных моделей в пространстве».
Ученые считают, что понимание общих слабостей нейросетей и человека, может помочь делать анализ изображения на понятность настоящему зрителю, а также создавать улучшенные системы машинного зрения, без этих слабостей.