ШІ Perplexity використовував дані з заборонених сайтів для аналізу

ШІ Perplexity використовував дані з заборонених сайтів для аналізу

Cloudflare опублікував дослідження, яке показує, що здивування веб-сайтів AI SKREIPL (завантаження та аналіз даних) відбувається, навіть якщо вони чітко вказані в Robots.txt, що автоматичний доступ заборонений. Більше того, система успішно обходить захист, змінюючи агент користувача (наприклад, використовуючи хром на MacOS) і переадресовуючи трафік через різні ASN—“STEALLESS SCRAMBING”.

Активність AI була помічена на десятках тисяч доменів, з мільйонами запитів щодня. CloudFlare змогла ідентифікувати цього бота за допомогою моделей ML і мережевих сигналів, що вказують на його присутність.

Як працює AI SKREIPL

Здивування — це пошукова система на базі SEI, що намагається бути розумнішою альтернативою Google, з орієнтацією на діалоговий пошук і конверсії. Вона прагне проаналізувати знайдені результати і негайно дати користувачеві витяг без переходу за посиланнями. Google також спіймав цю тенденцію і додав власні аналоги до своєї пошукової системи.

Як реагує здивування

Представник компанії, Джессі Дуайер, заявив, що кастинг — це «подушка», і скріншоти не підтверджують доступ до вмісту. Згодом він навіть сказав, що згаданий бот не належить до здивування.

Історія підозрілої поведінки

У 2024 році провідні журналісти та розробник Робба Найта опублікували результати, які показали, що здивування ігнорує robots.txt за допомогою прихованих IP-адрес і сторонніх гусениць. Генеральний директор компанії визнав наявність такого Крулера, але відмовився чітко пояснити, чи зупинить компанія його використання в майбутньому.

Наскільки це законно?

Дискусії щодо законності таких дій продовжуються. На думку юристів, навіть якщо боти обходять захист і robots.txt, це не завжди означає порушення закону, однак наявність захисту у вигляді “STEALLESS SCRAMBING” ставить під сумнів правомірність такого доступу.

Реакції та наслідки

BBC погрожує позовом через скребок без дозволу, вимагаючи видалення матеріалів, компенсації та припинення доступу. Amazon / AWS також розпочав внутрішню перевірку щодо здивування за порушення умов використання їхніх послуг.

Джерело: Techcrunch.com