Skip to main content
RSS

Михаил Бурцев о го, глубоком обучении и дальнейших перспективах компьютера в играх

Вчера завершился эпохальный матч по игре в го между созданной в Google программой AlphaGo и одним из сильнейших игроков мира Ли Седолем. В январе эта программа уже обыграла всухую чемпиона Европы по го Фань Хуэя, и теперь все ждали: сможет ли нейронная сеть справиться с гуру подобного интеллектуального досуга, а если да, то как быстро.

Оказалось, что Ли Седоль, перед игрой абсолютно уверенный в своей победе, мало что смог противопоставить программе с машинным обучением. В первых трёх партиях чемпион проиграл, сразу сняв интригу победы в матче. Четвёртую партию человек выиграл, хотя игра и затянулась. Тем не менее здесь Седоль смог сделать сильный ход и заметить ошибку программы. Но пятая партия тоже завершилась проигрышем человека. Общий счёт: 4-1 в пользу AlphaGo. По нашей просьбе этот матч и перспективы нейронных сетей в играх против человека прокомментировал эксперт нашего портала Михаил Бурцев, который руководит лабораториями по глубокому обучению и нейронным сетям в МФТИ и Курчатовском институте.

 

В чём  достижение AlphaGo  по сравнению с другими системами, например, с обыгравшей некогда Гарри Каспарова программой DeepBlue?

Шахматные программы сравнивают все возможные комбинации и выбирают лучший ход. В го такой обсчёт невозможен. Поэтому нейронная сеть AlphaGo тренировалась в несколько этапов. Ее просто учили оценивать, хороший ход или нет. Сначала на играх реальных людей она училась предсказывать следующий ход мастера. Затем игра сыграла несколько миллионов игр сама с собой. А потом, поверх первой нейронной сети, умеющей оценивать следующий ход, добавили слой, который оценивает всё состояние доски. 

В итоге получился очень хороший результат. В одной из игр программа совершила неожиданный ход, и комментаторы даже отметили, что это какой-то глюк. Однако через несколько ходов выяснилось, что это  действительно гениальный ход, принёсший выигрыш в партии.

Что дальше?

Мы же пишем такие программы не для того, чтобы выиграть игру у человека, а для создания всё более совершенных алгоритмов. Мне кажется, что глубокое обучение придёт в те игры, которые максимально приближены к реальности: в ролевые игры и подобные им. Компьютер будет учиться реагировать на неожиданности  это требуется от программ в реальной жизни, и игры — наилучший вариант для подобных тренировок.

#Глубокое обучение   #Бурцев  
16 Марта 2016 г.