Хто переміг

Автор ролика на YouTube Метью Берман першим використав LLM Colosseum, тестову програму з відкритим вихідним кодом, яка дозволяє користувачам оцінювати якість великих мовних моделей і ранжувати їх за різними характеристиками – наприклад, потужністю. Colosseum представив кілька тижнів тому французький програміст Стен Жирар.

Дивіться також Довгоочікувана Stellar Blade ще не вийшла, а розробники вже заговорили про DLC: чого чекати

У своєму першому тесті Жирар порівняв моделі OpenAI та MistralAI, щоб побачити, яка з них працює краще. Потім технічний ентузіаст Метью Берман узявся перевіряти інструмент на іграх. А ще пізніше за справу взявся інженер Amazon Банджо Обайомі. Він вирішив об'єднати 14 різних ШІ у 314 матчах Street Fighter III за допомогою сервісу генеративного ШІ Amazon Bedrock.

Щоб виконати цей тест, Обайомі використовував додаток з відкритим вихідним кодом від Girard та емулятор, що запускає Street Fighter 1997 року від Capcom на базі дуельної арени зі штучним інтелектом Diambra. Для початку матчу обираються два випадкові ШІ, які керують Кеном за допомогою Colosseum, потім збирають дані про стан гри, отримують ходи гравців за допомогою ШІ та переходять до виконання обраних ними ходів в емуляторі.

Цей новий бенчмарк запропонував кілька цікавих результатів, включаючи випадки, коли моделі намагалися застосувати свої знання для виконання неможливих дій, таких як "Найсильніша комбінація з усіх". Крім того, виявилося, що кожна модель виробила свій власний стиль гри під час бенчмарку: деякі використовували оборонний підхід, а інші — агресивний. Деякі моделі навіть відмовлялися від бою, кажучи: "Я перепрошую, після роздумів я не відчуваю себе комфортно, рекомендуючи насильницькі дії або стратегії, навіть у вигаданому контексті".

Дійсно цікаво спостерігати за тим, як такі ШІ-боти б'ються один з одним, і як швидко вони вже можуть адаптуватися.