W trakcie weryfikacji przez człowieka

Data ostatniej aktualizacji:

Won't Get Fooled Again: Answering Questions with False Premises

Won't Get Fooled Again: Answering Questions with False Premises

Shengding Hu, Yifan Luo, Huadong Wang, Xingyi Cheng, Zhiyuan Liu, Maosong Sun

Zapytaj o ten dokument AI

Kopuj link

Abstrakt

Kluczowe wnioski

Strategie z raportu:

  • Aktywacja wiedzy utajonej (Latent Knowledge Activation): Raport udowadnia, że modele LLM i PLM mają już w swoich wagach zapisaną wiedzę potrzebną do zdemaskowania bzdur (np. twierdzeń, że słońce ma oczy). Wyzwaniem nie jest wstrzykiwanie nowej wiedzy, a dobranie odpowiednich technik jej "odblokowania".

Objaśnienie lub prompt

"Zanim wygenerujesz odpowiedź na to zadanie, wypisz listę ukrytych założeń pytającego i oceń punkt po punkcie, czy mają one sens w świecie rzeczywistym."


  • Douczanie na małej próbie (Moderate Fine-Tuning): Badacze wykazali, że modelom wystarczy trening na zaledwie około 256 dobrze przygotowanych przykładach pytań z fałszywymi założeniami, by wykształciły w sobie silny "system immunologiczny" przeciwko nim.

Objaśnienie lub prompt

Włączenie do zbioru douczającego bota zaledwie paczki kilkuset par: [Pytanie: "Kiedy żarówki rosną na drzewach?"] -> [Odpowiedź: "Żarówki to ludzkie wynalazki, nie rośliny, więc nie rosną na drzewach."].


  • Technika Odtwarzania Danych (Data Replay Method): Strategia zapobiegająca zjawisku "katastroficznego zapominania". Aby model po nauce obrony przed trudnymi pytaniami nie przestał odpowiadać na zwykłe zapytania użytkowników, należy w procesie treningowym mieszać przykłady podchwytliwe z normalnymi.

Objaśnienie lub prompt

Tworząc zbiór treningowy, na każde 3 dołączane pytania z fałszywymi przesłankami dodajesz 1 zwykłe pytanie, np. "Ile to 2+2?" lub "Jaka jest stolica Francji?", by zachować ogólne zdolności bota.


Dobre praktyki:

  • Weryfikacja założeń przed generowaniem wyników (Premise Verification): Zawsze stosuj instrukcje, które wymuszają na systemie sprawdzenie logiczności założeń podanych przez użytkownika. Sprawia to, że AI powstrzymuje się przed zmyślaniem (halucynacjami) odpowiedzi na niemożliwe zjawiska.

Objaśnienie lub prompt

"Zidentyfikuj główne podmioty w moim zapytaniu. Sprawdź, czy relacje między nimi są fizycznie lub historycznie możliwe, a dopiero potem spróbuj odpowiedzieć na postawiony problem."


  • Generowanie merytorycznych kontrargumentów (Rebuttal Generation): Odpowiedź sztucznej inteligencji na błąd użytkownika nie powinna kończyć się suchym "Nie wiem" lub "To nieprawda". System powinien być tak kierowany, by wygenerował logiczny i jasny kontrargument wskazujący na błędne założenie.

Objaśnienie lub prompt

"Jeśli moje pytanie zawiera błąd logiczny, nie ignoruj go. Zamiast tego wytłumacz mi krótko, w którym miejscu moje założenie mija się z prawdą i przedstaw poprawne fakty."


  • Korzystanie ze specjalistycznych zbiorów referencyjnych (np. FalseQA): Tworząc odporne systemy, warto przeprowadzać regularne ewaluacje i audyty przy użyciu dedykowanych, trudnych zestawów danych zawierających abstrakcyjne pytania z pułapkami.

Objaśnienie lub prompt

Zanim wdrożysz produkcyjnie swojego asystenta, przepuść przez niego zestaw 100 testowych pytań typu: "Jakiego koloru jest wiatr?" i sprawdź, czy skutecznie punktuje ten błąd.


Czego unikać?

  • Ślepego zaufania do twierdzeń użytkownika (Blind Trust in User Queries): Unikaj projektowania systemów lub promptów, które automatycznie zakładają, że wszystko co podaje w prompcie użytkownik jest prawdziwym, niepodważalnym faktem.

Objaśnienie lub prompt

Zły prompt: "Tekst wklejony poniżej przez użytkownika zawiera zawsze 100% obiektywnej prawdy. Na jego podstawie opowiedz mi w szczegółach, w którym roku T-Rex ostatecznie wygrał II Wojnę Światową."


  • Nadmiernego douczania wyłącznie na trudnych przypadkach (Overfitting to Edge Cases): Zdecydowanie unikaj sytuacji, w której zestaw treningowy do fine-tuningu składa się tylko i wyłącznie z pytań podchwytliwych. Sprawi to, że model zacznie kwestionować i dopatrywać się oszustwa nawet w całkowicie poprawnych i sensownych pytaniach.

Objaśnienie lub prompt

Wdrożenie bota po jednostronnym treningu na anomaliach, co w efekcie sprawia, że na zwykłe pytanie: "Jakie jest miasto stołeczne Polski?" model odmawia odpowiedzi, dopatrując się tam błędu logicznego.


  • Wymuszania zero-jedynkowych, prostych formatów na złożone zagadnienia (Direct Answer Forcing): Unikaj zmuszania modelu do zwięzłych odpowiedzi typu "tak/nie", zwłaszcza w sytuacjach, gdzie pytanie może zawierać błędną logikę. Niszczy to całkowicie naturalną zdolność AI do wychwycenia absurdu i jej zwerbalizowania. Praktyczny przykład w prosty sposób pokazujący o co chodzi (prompt lub krótki opis):

Objaśnienie lub prompt

Zły prompt: "Odpowiadaj mi ZAWSZE I TYLKO słowami TAK lub NIE bez żadnego dalszego kontekstu. Czy wczoraj w nocy okazało się ostatecznie, że księżyc jest jednak zrobiony z zielonego sera?"

Wesprzyj ten projekt stawiając mi kawę ;)

Publikacje AI

Prompting

Bezpieczeństwo AI

O mnie

LinkedIn

Mój blog

Wsparcie projektu

Buy me a coffe

Create a free website with Framer, the website builder loved by startups, designers and agencies.