14 искусственных интеллектов сошлись в боях в игре Street Fighter III: что из этого вышло

Основные тезисы

Инженер Amazon Банджо Обайоми объединил ИИ в матчах Street Fighter III, чтобы проверить мощность речевых моделей.
Меньшие языковые модели показали лучшие результаты, вероятно, из-за меньшей задержки обработки данных.
Различные модели ИИ обнаружили свои уникальные стили игры во время бенчмарка, включая агрессивный и оборонительный подходы.

Источник:

AWS Community

Инженер по обработке данных поставил четырнадцать ботов с искусственным интеллектом противостоять друг другу в матчах Street Fighter III. Он хотел проверить, какая модель является лучшей.

Кто победил

Автор ролика на YouTube Мэтью Берман первым использовал LLM Colosseum, тестовую программу с открытым исходным кодом, которая позволяет пользователям оценивать качество больших языковых моделей и ранжировать их по различным характеристикам – например, мощностью. Colosseum представил несколько недель назад французский программист Стэн Жирар.

В своем первом тесте Жирар сравнил модели OpenAI и MistralAI, чтобы увидеть, какая из них работает лучше. Затем технический энтузиаст Мэтью Берман взялся проверять инструмент на играх. А еще позже за дело взялся инженер Amazon Банджо Обайоми. Он решил объединить 14 разных ИИ в 314 матчах Street Fighter III с помощью сервиса генеративного ИИ Amazon Bedrock.

Чтобы выполнить этот тест, Обайоми использовал приложение с открытым исходным кодом от Girard и эмулятор, запускающий Street Fighter 1997 года от Capcom на базе дуэльной арены с искусственным интеллектом Diambra. Для начала матча выбираются два случайных ИИ, которые управляют Кеном с помощью Colosseum, затем собирают данные о состоянии игры, получают ходы игроков с помощью ИИ и переходят к выполнению выбранных ими ходов в эмуляторе.

Результаты удивляют, ведь меньшие языковые модели превзошли большие. Это, вероятно, связано с меньшей задержкой (программе с большим количеством параметров нужно больше времени на обработку всех данных). Три разные модели Claude от Anthropic возглавляют график производительности.

Этот новый бенчмарк предложил несколько интересных результатов, включая случаи, когда модели пытались применить свои знания для выполнения невозможных действий, таких как "Сильнейшая комбинация из всех". Кроме того, оказалось, что каждая модель выработала свой собственный стиль игры во время бенчмарка: некоторые использовали оборонительный подход, а другие - агрессивный. Некоторые модели даже отказывались от боя, говоря: "Я извиняюсь, после размышлений я не чувствую себя комфортно, рекомендуя насильственные действия или стратегии, даже в вымышленном контексте".

Действительно интересно наблюдать за тем, как такие ИИ-боты сражаются друг с другом, и как быстро они уже могут адаптироваться.

Связанные темы:

Искусственный интеллект Games