Unity разработала игру для нейросетевых ботов

20 марта 2019, 17:49
Руководство Unity Technologies анонсировало конкурс по разработке алгоритмов Machine Learning для прохождения компьютерных игр, а также возможного получения преимущества в азартных играх, где теорией вероятности возможно получение преимущества над игорным домом.
Unity разработала игру для нейросетевых ботов

Руководство Unity Technologies анонсировало конкурс по разработке алгоритмов Machine Learning для прохождения компьютерных игр, а также возможного получения преимущества в азартных играх, где теорией вероятности возможно получение преимущества над игорным домом. По информации от аналитиков сайта truetop, проект предусматривает сто уровней, где предложенные программные решения будут соревноваться друг с другом. Для победы потребуется выполнить ряд условий, решить задачи для дальнейшего продвижения.

Соревнование алгоритмов начнется 11 февраля и будет проходить в игровой среде, которая подробно описана в специальной статье в блоге компании. Уже есть первые результаты экспериментов. Призовой фонд мероприятия – больше $100.000.

Стоит отметить, что азартных игр этот алгоритм касаться не будет. Дело в том, что в них используются ГСЧ – генераторы случайных чисел, предугадать исход которых невозможно.

Человеку не так сложно освоить интерактивную игру хотя бы на среднем уровне. Он способен справиться с этой задачей за сравнительно малое время. Но для компьютерного алгоритма прохождение даже элементарного 2D-платформера может стать нетривиальным испытанием.

Последние 5 лет исследователи активизировали работу по созданию схем машинного обучения. Игры являются подходящей платформой для испытаний, в которых агент может усваивать новые способы взаимодействия с объектами. Важно, что при этом выполняются не изначально предустановленные скрипты, а усваиваются не занесенные в программу способы решения задач.

Нюанс в том, что для обучения алгоритмов в играх проекты должны подвергаться адаптации. С этой целью создается API, который позволяет взаимодействовать агенту с окружающим виртуальным пространством. Например, разрабатываются специальные карты, которые упрощают получение новых навыков программой. Стандартная механика, ориентированная на человека, не подходит для бота. Изменить ее под нужные критерии практически невозможно, проще создать с нуля.

Корпорация UT, сотрудники которой создали востребованный индустрией движок Unity, представили среду ObstacleTower. Она ориентирована исключительно на обучение алгоритмов. Новая разработка – уникальный игровой мир, воплощенный в стоэтажной башне. На каждом уровне предусмотрено несколько комнат. В одной расположена стартовая точка для агента, в другой – выход в следующую стадию.

Чем выше поднимается бот, тем больше становится помещений. Чтобы перейти на другой этаж, алгоритм должен решить ряд задач. Например, от него может требоваться разобраться со всеми головоломками или уничтожить противников. На преодоление дается ограниченный промежуток времени, но оно может быть увеличено. Для этого агенту нужно находить бонусы и продвигаться вперед.

Каждый уровень – плод процедурной генерации. Это позволяет игре, отнюдь не азартной, проверить генерализованность навыков, которые изучил бот. В ходе эксперимента он работает с двумя видами информации: цветными изображениями 168x168 пикселей и дополнительным вектором, для создания которого используются собранные ключи. Движение возможно в четырех направлениях, разрешены повороты и прыжки.

Среда Obstacle Tower настроена на обучение алгоритмов с подкреплением, поэтому разработчики продумали функционал, поощряющий программу за определенные достижения. Всего предусмотрено 2 режима вознаграждения. В первом случае боту выдается награда, если он добирается до финишной двери, открывающей доступ к другому этажу. Во втором варианте агент стимулируется также за другие действия. Например, может использоваться нахождение ключей, отпирание межкомнатных дверей, решение определенных головоломок.

Разработчики провели тестирование трех алгоритмических схем. Для каждой был выбран режим обучения с уникальной вариацией игрового окружения. Все боты показали в игре результаты, которые значительно уступали человеческому прохождению. К тому же они очевидно были лишены порций адреналина и азарта во время прохождения.

Однако исследователи отметили один любопытный факт: лучшие результаты оказались у программ, взаимодействовавших с фиксированной средой. Этот феномен разработчики связали с тем фактом, что стабильные параметры мира позволили агенту прогрессировать более успешно и сделать свое поведение вариабельным. Закрепленные в статической реальности паттерны пригодны к использованию и в других режимах.

Программистами UT на GitHub была опубликована первоначальная версия среды с 25 уровнями. Сейчас готовится выход полностью завершенного проекта. Конкурсное мероприятие Obstacle TowerChallenge стартует 11 февраля. Завершится предварительный этап в последних числах марта. Соревнования с использованием полной версии стоэтажной башни будут проходить 15 апреля – 14 июня.

В 2017 г. корпорация "Близзард" анонсировала открытый API для проекта StarCraft II, который разработчики могли использовать в обучении собственных алгоритмов. В начале 2019 г. в ходе состязаний нейросеть AlphaStar, созданная в недрах компании DeepMind, одолела профессиональных геймеров в SC2. Компьютерные сражения выявили однозначного победителя. Агент AS сумел взять верх во всех пяти поединках.


Подписывайтесь на наш канал в RSS, чтобы оперативно получать свежие новости