Попри те, що ми часто перевіряємо можливості штучного інтелекту у створенні есе, кодуванні та генерації фотографій, дослідники з Apple та Університету Вашингтона поставили набагато більш практичне запитання: що буде, якщо надати штучному інтелекту повний доступ до управління мобільними додатками? І що найважливіше — чи розуміє він наслідки своїх дій?
Що відомо з дослідження
У дослідженні під назвою «Від взаємодії до впливу: до безпечніших агентів AI через розуміння та оцінку мобільних наслідків експлуатації інтерфейсу», яке було опубліковане на конференції IUI 2025, команда вчених виявила серйозний розрив:
Сучасні великі мовні моделі (LLM) здатні досить добре розуміти інтерфейси, але не усвідомлюють наслідки своїх дій у цих інтерфейсах.
Наприклад, для AI натискання кнопки «Видалити обліковий запис» виглядає майже так само, як «Поставити як». Йому ще потрібно пояснити різницю між ними. Для того, щоб навчити машину розрізняти важливість і ризики дій у мобільних додатках, команда розробила спеціальну систематику, яка описує десять основних типів впливу дій на користувача, інтерфейсу, інших людей, а також враховує оборот, тривалі наслідки, перевірки ефективності та зовнішні контексти (наприклад, геолокація чи рахунок).
Створення унікального DASET
Дослідники розробили унікальний DASET, що містить 250 сценаріїв, у яких AI повинен розуміти, які дії є безпечними, які потребують підтвердження, а які не повинні виконуватись без втручання людини. Порівняно з популярними AndroidControl та наборами мотивів DASETS, новий набір набагато багатший на реальні ситуації — від покупок та зміни паролів до управління розумними будинками.

Веб-інтерфейс для учасників, який дозволяє генерувати сліди інтерфейсних дій з впливами, включаючи екран мобільного телефону (зліва), а також функції входу та запису (праворуч). Ілюстрація: Apple
- GPT-4 (Текстова версія) — класичний текстовий варіант без роботи з інтерфейсними зображеннями.
- Мультимодальний GPT-4 (GPT-4 мм) — мультимодальна версія, яка може аналізувати не тільки текст, але й зображення інтерфейсів (наприклад, скріншоти мобільних додатків).
- Близнюки 1,5 спалах (Текстова версія) — модель Google, яка працює з текстовими даними.
- Мм1,5 (MLLM) — мультимодальна модель Meta (Meta Multimodal 1.5), здатна аналізувати як текст, так і зображення.
- Тхор (MLLM) — спеціалізована мультимодальна модель, що навчається для точного розуміння та роботи з інтерфейсами користувачів.
Тестування та результати моделей
Ці моделі були протестовані в чотирьох режимах:
- Нуль — без додаткової підготовки чи прикладів.
- Замовник (KAP) — з додаванням таксономії впливу дії в натяк.
- В контекстному навчанні (ICL) — з прикладами в підказці.
- Ланцюг (ліжечко) — з порадами, які включають кроки.
Що показали тести? Навіть найкращі моделі, включаючи мультимодальні версії та GPT-4, досягають точності лише трохи вище 58% при визначенні рівня впливу. Найскладніша частина — це оцінка нюансів типу дії або довгострокового ефекту.

Точність прогнозування загального рівня впливу за допомогою різних моделей. Ілюстрація: Apple
Результати показали, що навіть топ-моделі, такі як мультимодальний GPT-4, не досягають точності більше 60% у класифікації рівня впливу дій в інтерфейсі. Їм особливо важко оцінювати тонкощі, такі як поновлення дій або їх вплив на інших користувачів.
Висновки та перспектива розвитку
Як результат, дослідники зробили кілька висновків: по-перше, більш складні та точні підходи до розуміння контексту необхідні для безпечної роботи автономних агентів ШІ; по-друге, користувачам в майбутньому доведеться встановлювати рівень «обережності» своїх ШІ — що можна зробити без підтвердження, а що категорично не можна.
Це дослідження є важливим кроком на шляху до створення розумних агентів для смартфонів, які не просто натискають кнопки, а й розуміють, що вони роблять, а також можуть вчасно звернутися до людини.