Гаррі Поттер і прокляття ШІ-детекторів

Кирик Наталья
Кирик Наталія
Ти прочитаєш це за 4 хвилин(и)

У світі SEO та копірайтингу останні кілька місяців нагадували справжню війну, спричинену тим, що штучний інтелект досяг темпів, які можна порівняти з третьою космічною швидкістю. З одного боку, деякі автори все більше покладаються на нейронні мережі для створення текстів. З іншого — клієнти не бажають платити реальні гроші за згенерований машинами контент.

Тож ми є свідками справжньої «гонки озброєнь». Автори створюють усе досконаліші промпти для генерації «ідеально людських» текстів за допомогою ШІ. Тим часом інструменти, призначені для виявлення ШІ-контенту, також не стоять на місці. Розробники найдосконаліших детекторів заявляють, що їхні системи можуть виявляти навіть найбільш «олюднені» витвори штучного інтелекту з точністю 99%.

Але в цій битві є і третя сторона — райтери, які створюють реально унікальний контент, не використовуючи нейронні мережі. Чи означає це, що він завжди без проблем пройде перевірку детекторами ШІ? Аж ніяк! Нерідко 100% авторський текст позначається такими сервісами як штучний.

Ці «промахи» детекторів породили цілу низку міфів. Як насправді працюють такі інструменти? Чому вони позначають певні оригінальні тексти як створені машиною? Чи можна їх обдурити? І чи всі вони однаково ефективні? У WordFactory ми вирішили спростувати найпоширеніші міфи, протестувавши кілька відомих ШІ-детекторів.

Як працює виявлення ШІ

Насамперед слід розуміти, що детектори ШІ не аналізують «штучність» самого контенту, а шукають статистичні та стилістичні маркери, які відрізняють тексти, створені великими мовними моделями (LLM), від текстів, написаних людиною.

Основними є два маркери: передбачуваність і різноманітність. Передбачуваність — це показник, який вимірює, наскільки текст є передбачуваним для мовної моделі. Наприклад, речення «Кіт сидить на килимі» має низький ступінь заплутаності, оскільки слово «килим» досить прогнозовано вжито після «сидить на». А от речення «Кіт сидить, задумливо дивлячись вниз» є менш передбачуваним, тобто  більш притаманним для людського письма.

Параметр різноманітності відбиває варіації довжини та структури речень. Людські тексти зазвичай складаються з коротких і довгих речень і характеризуються нерівномірним ритмом. Натомість ШІ здебільшого генерує однотипні за структурою і довжиною фрази. Тому очікувати, що він напише романи в стилістиці Матіаса Енара чи Майка Маккормака (обидва написані практично без жодної крапки), навряд чи варто.

Міфи та їхнє спростування

Міф 1. Будь-який ідеально структурований текст обов’язково згенерований ШІ

LLM часто створюють «надто охайні» тексти, в яких вступ, основні тези та висновок викладені наче в шафі перфекціоніста. Клієнти бачать це і одразу починають щось підозрювати. Але насправді добре структурований текст — це не лише ознака ШІ, а й стандарт серед професійних копірайтерів, журналістів і письменників. 

Міф 2. ШІ має «улюблені» розділові знаки

Дехто стверджує, що текст, насичений довгими тире, обов’язково написаний роботом. Нібито люди рідко їх використовують. Але насправді правильне використання довгих тире вказує на освіченість райтерів, які дотримуються типографічних правил. Те саме стосується і таких «характерних для ШІ» особливостей, як використання крапок замість крапок із комою у списках, що також властиво багатьом авторам із філологічною освітою. 

Міф 3. Детектори ШІ ніколи не помиляються

Більшість клієнтів вважає детектори безпомильними. Але це не так. Навіть найкращі сервіси рідко показують точність понад 70–85% на реальних текстах. Хибні  результати перевірки є звичним явищем. Наприклад, короткі тексти (до 100 слів) майже завжди помилково визначаються як згенеровані. Пам’ятайте: детектори не «розуміють» змісту — вони просто обробляють статистичні шаблони.

Міф 4. Відсутність емоцій = ШІ

При правильному підході нейронна мережа може видавати емоції, гідні бродвейської сцени. Але в більшості комерційних текстів це недоречна надмірність. Люди також пишуть сухо й лаконічно, особливо в сферах бізнесу, журналістики та науки. Відсутність емоцій не є ознакою «машинності».

Міф 5. Повторення слів = ШІ

ШІ іноді «зациклюється» на однакових чи однотипних фразах. Але копірайтер, який пише тексти для SEO, навмисно повторює ключові слова. Це просто частина роботи, а не доказ штучного походження тексту.

Як бачите, більшість цих міфів — лише міфи. Але скептичний читач може сказати: «Це все теорія. А як це працює на практиці?». Давайте з’ясуємо.

Перевірка теорії на практиці

Для тестування детекторів ШІ ми підготували три короткі тексти:

  1. Написаний людиною і опублікований ще до того, як ШІ став мейнстримом.
  2. Версія першого тексту, навмисно відредагована ChatGPT так, щоб бути більш «машинною», але зі збереженням початкових стилю і лексики.
  3. Повністю згенерований ШІ текст на ту саму тему.

Для «еталонного» тексту, написаного людиною, ми вибрали рецензію на книгу «Гаррі Поттер і філософський камінь» від користувача Emilypotter, опубліковану на сайті The Guardian 29 липня 2015 року.

Друга версія була перероблена ChatGPT-4o.

Третя — це 100% згенерована ШІ рецензія на «Гаррі Поттера».

Потім ми перевірили всі три тексти за допомогою п’яти популярних детекторів ШІ:

  • ZeroGPT;
  • Originality.AI;
  • Copyleaks;
  • Winston AI;
  • AI Detector.

І ось, що ми побачили.

ZeroGPT

Для оригінального авторського тексту ZeroGPT показав… 48,19% імовірності ШІ.

Дивно, але версія, відредагована ChatGPT, яку ми навмисно зробили «більш роботизованою», отримала лише близько 2,5% імовірності ШІ.

А як щодо повністю згенерованого ШІ тексту? Тут ZeroGPT майже чітко визначив машинне авторство.

Originality.AI

Ця платформа славиться своєю точністю і здебільшого виправдовує очікування. Перший текст був правильно розпізнаний як написаний людиною.

У другому тексті детектор не помітив редагування ШІ і визначив його на 100% авторським.

Третій текст безпомилково визначений як згенерований ШІ (скриншот розмитий через закінчення терміну дії пробної версії).

Copyleaks

Результати були ідентичними Originality.AI.

Winston AI

Цей детектор перший і другий тексти визнав на 100% авторськими (хоча ми знаємо, що другий текст був відредагований ШІ), а третій — на 99% згенерованим LLM.

AI Detector

Сервіс нас розчарував: усі три тексти він визначив як 100% людські. Але ми використовували безплатну базову версію. Можливо, преміуммодель працює краще.

Порівняльна таблиця

ДетекторАвторський текстТекст, відредагований ШІПовністю згенерований ШІ
ZeroGPT48% ШІ2,5% ШІ91% ШІ
Originality.AI0% ШІ0% ШІ100% ШІ
Copyleaks0% ШІ0% ШІ100% ШІ
Winston AI0% ШІ0% ШІ99% ШІ
AI Detector0% ШІ0% ШІ0% ШІ

Висновки

Якщо вірити міфам, детектори ШІ точно і швидко виявляють машинне авторство за певними ознаками — «не такими» розділовими знаками, надто «правильними» реченнями чи структурою. Але експеримент показує іншу картину. Навіть 100% авторський контент може бути безпідставно «викритий», тоді як текст, повністю згенерований LLM, здатен «прослизнути» непоміченим.

З повагою
Наталія Кирик,
власниця та CEO https://wordfactory.ua/
https://www.linkedin.com/in/natali

Розсилка блогу
Якщо ця стаття була вам корисна, поділіться нею з друзями.
Telegram