Jak zhakować chatGPT konikiem morskim.

Spróbujcie teraz — taka luka wciąż działa, ale może wkrótce zostać zamknięta.

Test na halucynacje i nadmierną pewność modeli językowych: zapytanie o nieistniejące emoji konika morskiego często wywołuje spirale „poprawek”, losowe ciągi emoji i sprzeczne twierdzenia, co świetnie nadaje się do audytu jakości odpowiedzi i kalibracji pewności w produktach AI.​
Dlaczego działa: nie ma oficjalnego emoji konika morskiego, ale zbiorowe „pamiętam, że było” oraz skojarzenia tokenów (sea + horse) pchają model do zgadywania zamiast przyznania „nie wiem”. To łączy się z efektem Mandeli i brakiem twardego odwołania do źródeł w trybie bez weryfikacji zewnętrznej.​
Jak spróbować:
Krótki prompt‑test w demo/live: Czy istnieje emoji konika morskiego? Pokaż je. Następnie omówienie: co model zrobił, gdzie zgadywał, gdzie powinien zatrzymać się z niepewnością.​
Wnioski produktowe: potrzebna walidacja faktów, mechanizmy „I don’t know”, RAG/KB, polityki anty‑pętlowe i limity długości odpowiedzi, oraz telemetria wykrywająca spirale.​
Wartość jako materiał edukacyjny dla zespołów AI/PM/Trust & Safety i angażujący post dla społeczności tech.​

hasztag#AIHallucinations hasztag#PromptEngineering hasztag#TrustworthyAI hasztag#RAG"​

https://lnkd.in/efHuN5Ag
https://lnkd.in/eJghKKRm