Jak rozpoznać tekst generowany przez AI?

Czy można ze 100 proc. pewnością rozpoznać kontent generowany z użyciem narzędzi AI? Powiedzmy, że jeżeli średnio rozgarnięty student przynosi pracę na poziomie doktorskim, możemy podejrzewać, że użył Chat GPT. Nawet mało wprawne oko zauważy, że dołączona do postu grafika została wygenerowana przez AI (użyłem Gemini, Chat GPT w wersji pro ma cały czas problem z polskimi znakami).
Parę słów o tekście. W miarę kolejnych aktywnych godzin pracy z AI możemy zauważyć pewne symptomy potwierdzające, że w pisaniu wspiera nas AI. Znalazłem ciekawe opracowanie NASK. Po dokładnej analizie stwierdzam, że faktycznie, większość punktów potwierdza się w praktyce. Oto najważniejsze tezy:

1. Wyliczenia, liczby. LLMy kochają uporządkowaną strukturę. A co porządkuje lepiej niż pisanie „1, 2, 3……?
2. Kapitaliki. Często w poście napisanym w AI znajdziemy sporo słów, które będą zaczynały się wielkimi literami. Ma to lepiej porządkować strukturę tekstu. 
3. Małe niezręczności stylistyczne. Pusty znak na początku akapitu, amerykański cudzysłów (oba ogonkiem do góry, jak apostrofy) –  to tylko niektóre znaki z interpunkcji wskazujące na ingerencję AI. Ekspertki i eksperci z NASK zwracają jeszcze uwagę na charakterystyczne dla modeli AI używanie przy punktowaniu dwukropka i kontynuacji treści wielką literą. Używana jest też pauza lub półpauza zamiast przecinków, niezgodnie z zasadami polskiej ortografii. 
4. Charakterystyczne emotikonki w nadprogramowym natężeniu. 💰🌈 🚀 🙂 🤔 💡 ✅ 🔧 📌 🧠 🚀 🔍 🎯 
5. Brak emocji, zaskoczeń, żartów, nieoczekiwanych puent. Generatory AI zwykle nie formują kontrowersyjnych teorii, piszą jednolicie i w sposób pozbawiony subiektywnych odczuć. Żadnych przenośni, odwołań do osobistych przeżyć i doświadczeń. Zazwyczaj modele unikają jednoznacznych ocen i trzymają się dość bezpiecznych sformułowań  – mówią Ewelina Bartuzi-Trokielewicz i Aleksandra Krasnodębska z NASK. 
6. „Płaski” styl. Często wskazówką sugerująca, że to może być tekst „wypluty” z AI, jest jego idealna struktura. Można powiedzieć, że tekst „idzie jak po sznurku”. Jeśli w jednym zdaniu padnie słowo „niesamowity”, to w kolejnym będzie użyty synonim „fantastyczny” albo „wyjątkowy”. LLMy uczą się dokonywać predykcji, czyli przewidywać najbardziej prawdopodobne kolejne słowa na podstawie ogromnych zbiorów danych. Człowiek często wprowadza nowe wątki, zmienia styl, stosuje nieoczywiste porównania albo używa mniej typowych słów. Jego sposób pisania jest bardziej „randomowy”, spontaniczny, nie zawsze logiczny z punktu widzenia modelu statystycznego.
7. Szyki zdania, zwroty żywcem przeniesione z angielskiego. „Drugi po nikim”, „na koniec dnia”, „produkt dedykowany” itp.
8. Nienaturalnie długie zdania. W postach w social mediach raczej wąskie grono osób używa normalnie zdań wielokrotnie złożonych, Inaczej AI – modele uczą się, że długie zdania „brzmią mądrze”, i dlatego będą je generować.
9. Sformalizowany układ. AI zawsze przygotowuje akapit podsumowania tekstu, który nam „wypluła”. Model nauczył się, że tak wyglądają „dobrze” napisane teksty. Zwracajmy więc uwagę na akapit podsumowania, jak ze szkolnej rozprawki czy „podręcznika PR z lat 90-tych” (jak powiedział mi pewien ekspert).
10. Brak lokalnego kontekstu. Teksty wygenerowane przez model często zawierają niepoprawne rozwinięcia polskich skrótów np. PKP – Polska Kolej Prywatna zamiast Polskie Koleje Państwowe. Warto przyjrzeć się, czy w tekście nie ma zmyślonych faktów, dat czy nazwisk.