Эксперимент Илона Маска с «Dota 2»: как OpenAI Five разрушил киберспорт
В течение многих лет искусственный интеллект неуклонно расширял границы стратегических игр: от монументальной победы Deep Blue в шахматах до изящного мастерства AlphaGo в го. Однако эти классические игры, при всей их стратегической глубине, работают на предсказуемой доске с полной, прозрачной информацией. Реальный мир, однако, представляет собой гораздо более хаотичную и непредсказуемую арену, определяемую неполной информацией, непрерывным действием и сложными, часто хаотичными взаимодействиями.
Именно здесь OpenAI выступила с проектом OpenAI Five, амбициозным проектом, который бросил вызов профессиональным игрокам в условиях чрезвычайно сложной и хаотичной вселенной Dota 2. Его замечательное путешествие от примитивного бота до грозной команды позволило глубоко понять растущую способность ИИ решать реальные задачи.
Краткое изложение OpenAI Five
- Цель проекта: Создать ИИ-ботов, способных играть в сложную стратегическую игру в реальном времени Dota 2, имитируя непредсказуемость реального мира.
- Метод обучения: Преимущественно обучение с подкреплением путем обширной самообучения, без человеческих данных.
- Ключевые этапы:
- Август 2017 г .: одиночный бот победил профессионального игрока Dendi в матче 1 на 1.
- Июнь 2018 г .: команда из пяти ботов последовательно побеждала любителей и полупрофессиональных игроков.
- Апрель 2019 г .: победили чемпионов The International 2018, OG, в серии до двух побед.
- Технические возможности: Использовано 256 графических процессоров и 128 000 ядер ЦП, ежедневно накапливая 180 лет опыта обучения.
- Воздействие: Продемонстрировал потенциал ИИ в сложных многоагентных средах, влияя на робототехнику и логистику.
Эволюция ботов OpenAI Five
OpenAI начал создавать алгоритмы, которые должны были обеспечить работу их ботов Dota 2, в ноябре 2016 года. Их основная цель заключалась в создании универсальных систем решения проблем, погрузив их в игру, такую как Dota 2, которая отражала присущую реальному миру непредсказуемость и непрерывный поток. Игра оказалась идеальным выбором не только благодаря своей огромной популярности на Twitch, но и благодаря встроенной поддержке ботов и доступному API.
Первый публичный взгляд на бота OpenAI появился в августе 2017 года на The International, главном турнире Dota 2. Здесь известный украинский профессиональный игрок Dendi оказался в непростом положении в матче один на один против одиночного бота OpenAI.

Источник: transfermarkt.co.uk
На The International 2017 профессиональный игрок Dendi проиграл матч один на один против одиночного бота OpenAI.
Главный технический директор OpenAI позже сообщил, что этот одиночный бот освоил свои навыки всего за две недели неустанного самостоятельного обучения, что убедительно демонстрирует потенциал такого обучающего программного обеспечения для решения сложных задач, даже таких сложных, как хирургия.
К июню 2018 года боты значительно эволюционировали, не только способны работать как сплоченная команда из пяти игроков, но и последовательно побеждать как любителей, так и полупрофессиональных игроков. Они приняли участие в The International 2018, сразившись с такими грозными противниками, как paiN Gaming, и командой, состоящей из бывших китайских профессиональных игроков. Хотя OpenAI Five в конечном итоге проиграли оба матча, организация считала эти поражения успехом, поскольку они дали ценные данные для анализа и доработки алгоритмов.
Заключительное публичное выступление ботов в апреле 2019 года ознаменовало выдающееся достижение: они убедительно победили OG, действующих чемпионов The International 2018, в серии решающих матчей до двух побед.

Источник: clipground.com
В своем последнем публичном показе боты победили OG, действующих чемпионов The International 2018.
Во время захватывающего четырехдневного онлайн-мероприятия в том же месяце публике было предложено сыграть против ботов. В ошеломляющих 42 729 публичных играх OpenAI Five добились поразительного 99,4% уровня побед.
Как OpenAI Five учился и играл
OpenAI Five использовал сложный метод, называемый обучением с подкреплением. В этом методе боты учились, играя сотни игр каждый день в течение нескольких месяцев, непрерывно совершенствуя свои стратегии. Они получали заранее определенные награды за успешные действия, такие как устранение противников или разрушение башен. Каждый бот по сути представлял собой нейронную сеть с одним слоем и 4096 нейронами, наблюдающую за состоянием игры напрямую через API разработчика Dota. Это означало, что игровой мир обрабатывался как полный список, содержащий 20 000 чисел, а затем выполнялись действия с восемью перечислимыми значениями, с отдельными выходными данными для элементов, таких как задержка, тип действия и координаты.

Источник: builtin.com
Инфраструктура OpenAI «Rapid» состояла из тысяч машин, ежедневно накапливая 180 лет опыта обучения.
В качестве ключевого алгоритма обучения с подкреплением использовалась оптимизация проксимальной политики (PPO).
Сложность Dota 2 для ИИ
Dota 2 представляла собой гораздо более сложную среду, чем традиционные стратегические игры, такие как шахматы или го. В отличие от них, Dota 2 ставит перед ИИ несколько уникальных задач:
- Непрерывное пространство действий: Действия не являются дискретными шагами, а происходят в реальном времени.
- Частичная наблюдаемость: «Туман войны» означает, что игроки (и боты) не имеют полной информации о карте.
- Высокая размерность: Как пространсва действий, так и пространсва наблюдений огромны. Один герой может иметь 170 000 возможных действий.
- Сложные, развивающиеся наборы правил: Игра часто обновляется, вводятся новые герои, предметы и механики.
Чтобы поставить это в перспективу:
| Игра | Среднее количество допустимых действий за тик | Средняя продолжительность игры |
|---|---|---|
| Шахматы | 35 | ~60 ходы |
| Го | 250 | ~200 ходы |
| Dota 2 | ~1,000 | 45 минут (~80,000 тики) |
OpenAI Five наблюдал каждый четвертый кадр, обрабатывая впечатляющие 20 000 ходов за игру.
Самообучение и стратегическое развитие
По-настоящему отличительной чертой обучающего пути OpenAI Five была его непоколебимая опора на самообучение. Начиная с совершенно случайных параметров и, что особенно важно, без каких-либо данных, сгенерированных человеком, или алгоритмов поиска, боты органически генерировали свои собственные уникальные стратегии. Чтобы стимулировать обширное исследование, агенты были запрограммированы играть 80% своих игр против себя и 20% против немного более старых версий. Этот гениальный процесс быстро привел к спонтанному развитию фундаментальных концепций, таких как игра на линиях и фарм, которые затем изящно трансформировались в сложные стратегии, такие как «пуш из пяти героев», всего за несколько дней.
Проблемы и критика
Несмотря на неоспоримо впечатляющие достижения, OpenAI Five столкнулся с определенным скептицизмом, особенно в отношении справедливости его подхода. Боты получали доступ к данным о состоянии игры напрямую через API, а не кропотливо обрабатывали визуальную информацию, как это делают люди. Это фундаментальное различие побудило некоторых критиков назвать его победы «обманом», особенно учитывая ограниченный пул героев ботов и этот прямой доступ к API. Критики также отмечали, что OpenAI Five испытывал трудности с долгосрочным стратегическим планированием, часто не имея предвидения за пределом примерно 14-минутного горизонта. На The International 2018 боты заметно продемонстрировали выраженную неспособность адаптироваться, когда столкнулись с непредвиденными стратегиями или внезапными изменениями состояния игры.
Естественно, возникли этические дебаты относительно этих присущих преимуществ. В то время как люди должны были вручную проверять позиции, здоровье и инвентарь, OpenAI Five имел немедленный, прямой доступ ко всей этой информации. Его среднее время реакции в 80 миллисекунд также было значительно быстрее, чем у любого человека. Илон Маск, соучредитель OpenAI, лично обеспечил проекту скидку на вычислительные мощности, назвав победу бота первым случаем, когда ИИ когда-либо побеждал профессионалов в соревновательной киберспортивной игре. Революционный проект OpenAI Five, несомненно, заложил значительную основу для будущих кооперативных ИИ-игровых приложений.
❝ впервые ИИ победил профессионалов в соревновательной киберспортивной игре ❞
Соучредитель OpenAI
Часто задаваемые вопросы
Что такое OpenAI Five?
OpenAI Five — это проект OpenAI, в рамках которого были созданы боты машинного обучения для игры в сложную видеоигру Dota 2. Целью было создание универсальных ИИ-систем решения проблем путем их обучения в среде, имитирующей непредсказуемость реального мира.
Как OpenAI Five научился играть в Dota 2?
Боты учились посредством процесса, называемого обучением с подкреплением, когда они ежедневно играли сотни игр друг против друга. Они получали награды за успешные действия, такие как убийство противников или уничтожение башен, и совершенствовали свои стратегии в течение месяцев самостоятельного обучения.
Имел ли OpenAI Five какие-либо преимущества перед игроками?<
Да, боты имели прямой доступ к данным о состоянии игры через API, в отличие от людей, которые обрабатывают визуальную информацию. Они также имели значительно более быстрое время реакции (около 80 мс) и могли выполнять больше действий в минуту, чем люди.
Какова была основная критика OpenAI Five?
Критики утверждали, что прямой доступ ботов к API представлял собой «обман». Они также отмечали трудности ботов с долгосрочным стратегическим планированием (за пределами 14-минутного горизонта) и их неспособность адаптироваться к непредвиденным человеческим стратегиям или внезапным изменениям состояния игры.
Заключение
Проект OpenAI Five стал монументальным экспериментом в области искусственного интеллекта, смело раздвинув границы того, чего может достичь машинное обучение в сложных, реального времени и многоагентных средах. Его замечательные успехи наглядно продемонстрировали чистую мощь обучения с подкреплением и огромных вычислительных ресурсов для разработки высокосложных стратегий путем неустанного самостоятельного обучения. Даже его признанные недостатки предложили невероятно ценные уроки, наглядно демонстрируя области, где ИИ в играх и более широкие приложения ИИ все еще требуют дальнейшего развития в плане адаптивности и глубокой долгосрочной стратегической глубины. Непреходящее наследие проекта выходит далеко за пределы Dota 2, активно влияя на разработку робототехники, передовых логистических систем и совместных пользовательских интерфейсов «человек-ИИ», тем самым устанавливая важный прецедент того, как ИИ может противостоять сложной непредсказуемости реального мира.
Источник: YouTube
Источник: YouTube