Великі корпорації, зокрема Apple та Nvidia, використовують відео-транскрипти тисяч YouTube-креаторів для навчання ШІ без їх дозволу чи компенсації. Це не є чимось новим, адже ці компанії просто приєдналися до таких гігантів, як Microsoft, Google, Meta та OpenAI, які вже мають історію неетичного використання авторських матеріалів.
Розслідування Proof News показало, що деякі з найбагатших ШІ-компаній, зокрема Anthropic, Nvidia, Apple і Salesforce, використовували матеріали з тисяч відео на YouTube для навчання своїх моделей. Це порушує умови використання YouTube, які забороняють збір даних без дозволу, однак, це продовжує тенденцію, започатковану такими компаніями, як Google та OpenAI.
Дані, що отримали назву «YouTube Subtitles», є частиною більшого набору даних «The Pile». Вони включають транскрипти з 173 536 відео з понад 48 000 каналів, серед яких такі освітні платформи, як Khan Academy, MIT, Harvard, а також популярні медіа-ресурси, такі як The Wall Street Journal, NPR та BBC. У цьому наборі також є транскрипти з розважальних шоу, таких як «The Late Show With Stephen Colbert». Трансляції таких YouTube-зірок, як MrBeast, Jacksepticeye та PewDiePie також потрапили до цього набору даних.
Proof News Contributor Алекс Рейзнер виявив «The Pile» ще минулого року. Це набір даних, що містить все: від авторських книжок та академічних робіт до онлайн-розмов і транскриптів з YouTube. У відповідь на це Рейзнер створив пошукову базу даних для цих матеріалів, оскільки вважає, що власники інтелектуальної власності повинні знати, чи використовують компанії ШІ їхні роботи для тренування своїх систем.
«Мені здається, що складно вести розмову про ШІ, якщо ми не знаємо, як його створюють», — каже Рейзнер. «Я вважав, що креатори YouTube повинні знати, що їхній контент використовується. Це також важливо для всіх, хто публікує відео, фото або пише щось в інтернеті, оскільки зараз компанії ШІ зловживають всім, що потрапляє їм до рук.»
Девід Пакман, ведучий «The David Pakman Show», висловив своє обурення, виявивши, що майже 160 його відео потрапили до цього набору даних. Ці транскрипти були використані без його відома. Пакман, чий канал підтримує чотирьох постійних співробітників, стверджує, що він має право на компенсацію, якщо компанії ШІ отримують фінансову вигоду від його контенту. Він підкреслив значні зусилля та ресурси, вкладені в створення його контенту, назвавши несанкціоноване використання крадіжкою.
«Ніхто не звернувся до мене і не сказав: «Ми хочемо використати це», — сказав Пакман. «Це моє джерело доходу, я вкладаю час, ресурси, гроші та час співробітників у створення цього контенту. Тому що я маю дуже багато роботи.»
Дейв Віскус, CEO сервісу стрімінгу Nebula, який належить креаторам, також висловив своє занепокоєння, назвавши таку практику неповажною і експлуататорською. Він попередив, що генеративний ШІ може замінити художників і завдати шкоди творчій індустрії. Ще більше проблем створює те, що деякі великі контент-продюсери, такі як Associated Press, укладають вигідні угоди з творцями ШІ, в той час як менші виробники контенту залишаються без уваги, і їхні роботи крадуть без попередження.
Розслідування показало, що компанія EleutherAI є розробником набору даних «The Pile». Її основною метою є зробити передові технології ШІ доступними для всіх, однак її методи викликають етичні сумніви — в першу чергу щодо секретних угод з великими гравцями ШІ. Різні розробники ШІ, включаючи такі технологічні гіганти, як Apple та Nvidia, використовують цей набір даних для тренування своїх моделей. Жодна з компаній, що брали участь у створенні набору, не відповіла на запити для коментарів.
Законодавці повільно реагують на різні загрози, що виникають через ШІ. Після років розвитку і зловживань технологією deepfake, Сенат США нарешті ініціював законопроект, що має обмежити зловживання технологією ШІ, під назвою «Закон про захист походження контенту та інтегритет від змінених і підроблених медіа», або COPIED Act. Законопроект має на меті створити правову основу для етичних і юридичних питань розвитку ШІ та забезпечити прозорість у використанні інтелектуальної власності через скрапінг в Інтернеті та інші методи.