Microsoft демонструє генеративну модель для реального часу в іграх – WHAMM

Укладаючи в одну фразу: Microsoft продемонстрував, як працює Quake II на генеративній AI моделі для реального часу в іграх, відомій як WHAMM. Хоча гра підтримує повний контроль з допомогою джойстика, вона, як і очікувалося, працює з дуже низькими частотами кадрів. Microsoft зазначає, що цей демо-версія є лише прикладом потенціалу моделі, а не готовим продуктом для ігор.

Модель WHAMM (World and Human Action MaskGIT Model) є вдосконаленою версією попередньої моделі WHAM-1.6B, яка була випущена у лютому цього року. На відміну від попередника, WHAMM забезпечує швидше виведення зображень завдяки архітектурі MaskGIT, яка дозволяє генерувати токени зображень паралельно. Відмовившись від автогресивної моделі, що передбачала послідовне генерування токенів, WHAMM знижує затримку та дозволяє генерувати зображення в реальному часі, що є важливим кроком до забезпечення більш плавної взаємодії в іграх.

Процес навчання моделі також зазнав значних змін. Якщо WHAM-1.6B потребував семи років даних ігор для навчання, WHAMM було навчено на основі одного тижня даних із грайв Quake II, що зібрані професійними тестувальниками ігор, які зосередилися на одному рівні. Це дозволило значно зменшити час навчання. Роздільна здатність виведеного зображення була також покращена: з 300 x 180 пікселів до 640 x 360 пікселів, що забезпечило кращу якість зображень без змін у базовій архітектурі енкодера-декодера.

Проблеми і виклики WHAMM

Незважаючи на ці технологічні досягнення, WHAMM далека від ідеалу і залишається більше дослідницьким проектом, а не повністю готовим ігровим рішенням. Модель демонструє вражаючу здатність адаптуватися до введення користувача, але вона страждає від затримок і графічних аномалій.

Гравці можуть виконувати основні дії, такі як стрільба, стрибки, присідання та взаємодія з ворогами. Однак взаємодія з ворогами залишає бажати кращого: персонажі часто виглядають нечіткими, а механіка бою є непослідовною, що веде до помилок в обліку здоров’я і статистики пошкоджень.


WHAMM AI Model Demo

Обмеження і можливості майбутнього

Модель має обмежену довжину контексту: вона забуває об’єкти, що зникають з виду гравця більше ніж на дев’яту частину секунди. Це створює дивні особливості в ігровому процесі, такі як телепортація або випадкове з’явлення ворогів при зміні кута огляду.

Також можливості WHAMM обмежуються лише одним рівнем Quake II. Якщо спробувати пройти далі, процес генерування зображення зупиняється через відсутність відповідних даних для подальших рівнів. Затримки та проблеми з масштабуванням також впливають на якість досвіду при публічному використанні.

Взаємодія з WHAMM може бути цікавою як новинка, але Microsoft не планує замінити оригінальний Quake II цим AI. Модель використовувалась для вивчення можливостей машинного навчання для створення інтерактивних медіа.

Майбутнє інтерактивних медіа з використанням AI

Компанія Microsoft позиціонує WHAMM як приклад того, як AI може доповнювати, а не замінювати людську креативність. Це співзвучно з технологією ACE від Nvidia, яка покращує NPC в іграх. І хоча повністю AI-генеровані ігри та фільми ще не досягли високого рівня розвитку, новаторські рішення, як WHAMM, можуть стати основою для майбутніх досягнень в інтерактивних медіа.

Microsoft вірить, що майбутні версії моделі WHAMM дозволять вирішити існуючі недоліки та нададуть можливість розробникам створювати ще більш захоплюючі інтерактивні історії, збагачені інструментами, які дозволяє AI.