Meta Llama 3.1 та порушення авторських прав: нове дослідження
У результаті незалежного дослідження, проведеного науковими фахівцями Стенфордського, Корнельського та Західновірджинського університетів, було встановлено, що штучний інтелект Meta Llama 3.1 з обсягом параметрів у 70 мільярдів, реліз якого відбувся у липні 2024 року, здатний точно відтворювати фрагменти текстів популярних художніх творів. При аналізі було виявлено, що модель змогла з високою точністю повторити приблизно 42 % першої книги з серії про Гаррі Поттера, лише маючи як вхідне значення перше речення.
Масштаб запам’ятовування моделей ШІ
У ході дослідження було виявлено, що штучний інтелект проявляє здатність до майже дослівного відтворення уривків, якщо в навчальному наборі даних містилися тексти, які мають широку популярність у культурному середовищі. Серед таких – серії про Гаррі Поттера або “Гобіта”, які неодноразово зустрічаються на форумах, у рецензіях, фанатських перекладах та інших неофіційних джерелах. Навпаки, менш поширені твори, такі як “Sandman Slim”, практично не запам’ятовувалися – у цих випадках рівень відтворення становив менше 1 %.
Впевненість моделі та механізми аналізу
Дослідники застосували методику, яка дозволяє визначити, з якою впевненістю штучний інтелект прогнозує наступне слово в тексті. Виявилося, що у багатьох випадках впевненість у продовженні була надзвичайно високою — що вказує на попереднє пряме знайомство з конкретним текстом. Цей метод показує важливий індикатор потенційного порушення авторських прав, коли модель на основі ймовірності демонструє не аналітичне продовження, а запам’ятовування.
Авторське право та ризики відтворення текстів ШІ
- Тексти художньої літератури, зокрема відомі книги, охороняються авторським правом, що робить факт відтворення без ліцензії потенційним правопорушенням.
- Створення нових творів, які є результатом обробки таких фрагментів, але містять занадто подібний контент, може бути прирівняне до створення похідного твору без дозволу.
- У випадках, коли модель повторює уривки з високою точністю, юридичні аргументи набувають характеру цифрового плагіату з усіма супутніми правовими наслідками.
Причини високої точності запам’ятовування
Meta Llama 3.1 була навчена на надзвичайно масштабному корпусі тексту, що складався з понад 15 трильйонів слів, охоплюючи не лише класичні книги, але й численні форуми, фанатські обговорення, анотації, цитати та огляди. Інтенсивність появи певного тексту у цьому наборі прямо впливала на здатність моделі зберігати та відтворювати його фрагменти. Це дозволяє зрозуміти, чому саме масова наявність певного твору у публічному інформаційному просторі підвищила ймовірність його точного запам’ятовування мовною моделлю.
Юридична вразливість відкритих моделей
Однією з найбільш суперечливих проблем є те, що відкритість Meta Llama 3.1, яка дозволяє будь-кому завантажити та протестувати модель, одночасно робить її об’єктом глибокої перевірки з боку юристів. Якщо буде доведено, що модель не просто генерує схожі структури, а безпосередньо відтворює конкретні пасажі, це може бути використано у судовому процесі як доказ порушення авторських прав. Складність полягає у тому, що мовні моделі закритого типу, такі як GPT від OpenAI або Claude від Anthropic, не можуть бути настільки детально перевірені через відсутність доступу до архітектури та навчального корпусу.
Прозорість, яка вважається чеснотою відкритого ШІ, може обернутися проти розробників у юридичному аспекті.
Імовірні наслідки для галузі штучного інтелекту
Мовні моделі, які здатні реконструювати значні обсяги інформації з навчальних даних, зіштовхуються з юридичною дилемою: чи є така поведінка елементом аналітичного прогнозування, чи фактичним порушенням авторських прав. Якщо суд визнає, що навіть у відкритій моделі така пам’ять свідчить про відтворення, це може призвести до перегляду вимог до прозорості ШІ. Одночасно може виникнути тиск на закриті компанії з вимогою надання доказів дотримання авторського законодавства, що в перспективі змінить підхід до створення та оцінювання великих мовних моделей у глобальному масштабі.