W trakcie weryfikacji przez człowieka

Data ostatniej aktualizacji:

23 lut 2026

Self-Consistency Improves Chain of Thought Reasoning in LLMs

Self-Consistency Improves Chain of Thought Reasoning in LLMs

Self-Consistency Improves Chain of Thought Reasoning in LLMs

Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, Denny Zhou

Zapytaj o ten dokument AI

Kopuj link

Abstrakt

Kluczowe wnioski

Strategie z raportu

  • Samokonsystencja (Self-Consistency): Model generuje wiele różnych ścieżek prowadzących do rozwiązania, a ostateczny wynik wybiera poprzez głosowanie na najczęstszą odpowiedź. Wykorzystuje to ludzką intuicję, że wiele poprawnych dróg myślowych powinno prowadzić do tej samej konkluzji.

    Objaśnienie lub prompt

    "Wygeneruj 5 różnych sposobów na rozwiązanie tego zadania matematycznego, a następnie podaj jako ostateczny wynik ten, który pojawia się najczęściej."


  • Zastąpienie dekodowania zachłannego (Greedy Decoding Replacement): Zamiast wybierać zawsze "najbardziej prawdopodobne" następne słowo (co promuje schematyczność), model losuje różne ścieżki i tworzy unikalne analizy dla tego samego problemu.

Objaśnienie lub prompt

Ustawienie nieco wyższej wartości temperature w API i polecenie: "Przeanalizuj problem dostaw na trzy zupełnie różne sposoby, generując alternatywne scenariusze wyliczeń."


  • Marginalizacja ścieżek (Path Marginalization): Strategia oddzielenia "procesu myślenia" od ostatecznej odpowiedzi w celu policzenia statystycznej zgodności. Model ignoruje różnice w tym, jak doszedł do wyniku, skupiając się tylko na tym, czy sama liczba lub fakt na końcu są zbieżne.

Objaśnienie lub prompt

"Dla każdej z 3 wygenerowanych przez ciebie ścieżek wyciągnij wyłącznie ostateczną kwotę do zapłaty, a następnie wskaż najczęściej powtarzającą się sumę."


Dobre praktyki:

  • Łączenie z Chain-of-Thought (CoT Synergy): Metoda samokonsystencji została zaprojektowana tak, aby potęgować moc promptowania "krok po kroku". Zawsze łącz te dwie techniki dla najlepszych rezultatów.

    Objaśnienie lub prompt

    "Pomyśl o tym zadaniu krok po kroku. Wygeneruj 3 oddzielne toki rozumowania krok po kroku dla tego problemu, a na koniec wybierz wspólną odpowiedź większością głosów."



  • Stosowanie do zadań z jedną konkretną odpowiedzią (Fixed-answer tasks): Technika najlepiej sprawdza się w dziedzinach, w których ostateczny wynik można jednoznacznie wyodrębnić i matematycznie zliczyć (np. matematyka, zaawansowana logika, pytania zamknięte prawda/fałsz).

    Objaśnienie lub prompt

    Użycie instrukcji "oblicz to na 5 sposobów i zagłosuj" do zadania brzmiącego "Oblicz roczny podatek VAT dla poniższej faktury", gdzie odpowiedzią jest konkretna liczba.



  • Skalowanie próbkowania dla trudniejszych zadań (Scaling samples): Badania pokazują, że im trudniejszy i bardziej złożony problem, tym więcej ścieżek powinieneś kazać wygenerować modelowi. Generowanie kilkunastu wariantów zwiększa szansę na przefiltrowanie halucynacji.

Objaśnienie lub prompt

"To bardzo trudny problem algorytmiczny. Przeanalizuj go na 10 niezależnych sposobów i rozpisz ścieżki, zanim ostatecznie wytypujesz jedno prawidłowe rozwiązanie."


Czego unikać?

  • Nadmiernego zużycia zasobów obliczeniowych (Overcomputing): Nie proś modelu o generowanie kilkunastu dróg myślowych dla prostych, trywialnych pytań faktograficznych. Zużywa to niepotrzebnie tokeny i Twój czas (oraz budżet).

Objaśnienie lub prompt

"Napisz mi 10 różnych analiz dedukcyjnych tego, stolicą jakiego kraju jest Paryż, a następnie wybierz odpowiedź głosowaniem." (Strata czasu dla oczywistej odpowiedzi).


  • Używania techniki w generowaniu tekstów otwartych (Open-ended tasks): Unikaj wymuszania samokonsystencji przy kreatywnym pisaniu, generowaniu wierszy czy esejów, ponieważ nie ma tam spójnego, zamkniętego rozwiązania, nad którym model mógłby jednoznacznie "zagłosować".

Objaśnienie lub prompt

"Napisz 5 opowiadań sci-fi, a potem wybierz dokładnie to, które pojawia się najczęściej jako najlepsze." (Zadanie nie ma logicznego sensu dla tego mechanizmu).


  • Ślepego ufania pojedynczej ścieżce (Single-path reliance): Jeśli zadanie ma duży margines błędu wewnątrz AI, unikaj polegania na pierwszej i jedynej wygenerowanej przez model odpowiedzi. Algorytmy zachłanne mogą łatwo "utknąć" w złym toku myślenia.

Objaśnienie lub prompt

Proszenie modelu o wykonanie wieloetapowego audytu księgowego zwykłym poleceniem "Rozwiąż to zadanie" z naiwną wiarą, że natychmiastowa, pojedyncza analiza będzie bezbłędna.


Wideo opis

Abstrakt

Kluczowe wnioski

Strategie z raportu

  • Samokonsystencja (Self-Consistency): Model generuje wiele różnych ścieżek prowadzących do rozwiązania, a ostateczny wynik wybiera poprzez głosowanie na najczęstszą odpowiedź. Wykorzystuje to ludzką intuicję, że wiele poprawnych dróg myślowych powinno prowadzić do tej samej konkluzji.

    Objaśnienie lub prompt

    "Wygeneruj 5 różnych sposobów na rozwiązanie tego zadania matematycznego, a następnie podaj jako ostateczny wynik ten, który pojawia się najczęściej."


  • Zastąpienie dekodowania zachłannego (Greedy Decoding Replacement): Zamiast wybierać zawsze "najbardziej prawdopodobne" następne słowo (co promuje schematyczność), model losuje różne ścieżki i tworzy unikalne analizy dla tego samego problemu.

Objaśnienie lub prompt

Ustawienie nieco wyższej wartości temperature w API i polecenie: "Przeanalizuj problem dostaw na trzy zupełnie różne sposoby, generując alternatywne scenariusze wyliczeń."


  • Marginalizacja ścieżek (Path Marginalization): Strategia oddzielenia "procesu myślenia" od ostatecznej odpowiedzi w celu policzenia statystycznej zgodności. Model ignoruje różnice w tym, jak doszedł do wyniku, skupiając się tylko na tym, czy sama liczba lub fakt na końcu są zbieżne.

Objaśnienie lub prompt

"Dla każdej z 3 wygenerowanych przez ciebie ścieżek wyciągnij wyłącznie ostateczną kwotę do zapłaty, a następnie wskaż najczęściej powtarzającą się sumę."


Dobre praktyki:

  • Łączenie z Chain-of-Thought (CoT Synergy): Metoda samokonsystencji została zaprojektowana tak, aby potęgować moc promptowania "krok po kroku". Zawsze łącz te dwie techniki dla najlepszych rezultatów.

    Objaśnienie lub prompt

    "Pomyśl o tym zadaniu krok po kroku. Wygeneruj 3 oddzielne toki rozumowania krok po kroku dla tego problemu, a na koniec wybierz wspólną odpowiedź większością głosów."



  • Stosowanie do zadań z jedną konkretną odpowiedzią (Fixed-answer tasks): Technika najlepiej sprawdza się w dziedzinach, w których ostateczny wynik można jednoznacznie wyodrębnić i matematycznie zliczyć (np. matematyka, zaawansowana logika, pytania zamknięte prawda/fałsz).

    Objaśnienie lub prompt

    Użycie instrukcji "oblicz to na 5 sposobów i zagłosuj" do zadania brzmiącego "Oblicz roczny podatek VAT dla poniższej faktury", gdzie odpowiedzią jest konkretna liczba.



  • Skalowanie próbkowania dla trudniejszych zadań (Scaling samples): Badania pokazują, że im trudniejszy i bardziej złożony problem, tym więcej ścieżek powinieneś kazać wygenerować modelowi. Generowanie kilkunastu wariantów zwiększa szansę na przefiltrowanie halucynacji.

Objaśnienie lub prompt

"To bardzo trudny problem algorytmiczny. Przeanalizuj go na 10 niezależnych sposobów i rozpisz ścieżki, zanim ostatecznie wytypujesz jedno prawidłowe rozwiązanie."


Czego unikać?

  • Nadmiernego zużycia zasobów obliczeniowych (Overcomputing): Nie proś modelu o generowanie kilkunastu dróg myślowych dla prostych, trywialnych pytań faktograficznych. Zużywa to niepotrzebnie tokeny i Twój czas (oraz budżet).

Objaśnienie lub prompt

"Napisz mi 10 różnych analiz dedukcyjnych tego, stolicą jakiego kraju jest Paryż, a następnie wybierz odpowiedź głosowaniem." (Strata czasu dla oczywistej odpowiedzi).


  • Używania techniki w generowaniu tekstów otwartych (Open-ended tasks): Unikaj wymuszania samokonsystencji przy kreatywnym pisaniu, generowaniu wierszy czy esejów, ponieważ nie ma tam spójnego, zamkniętego rozwiązania, nad którym model mógłby jednoznacznie "zagłosować".

Objaśnienie lub prompt

"Napisz 5 opowiadań sci-fi, a potem wybierz dokładnie to, które pojawia się najczęściej jako najlepsze." (Zadanie nie ma logicznego sensu dla tego mechanizmu).


  • Ślepego ufania pojedynczej ścieżce (Single-path reliance): Jeśli zadanie ma duży margines błędu wewnątrz AI, unikaj polegania na pierwszej i jedynej wygenerowanej przez model odpowiedzi. Algorytmy zachłanne mogą łatwo "utknąć" w złym toku myślenia.

Objaśnienie lub prompt

Proszenie modelu o wykonanie wieloetapowego audytu księgowego zwykłym poleceniem "Rozwiąż to zadanie" z naiwną wiarą, że natychmiastowa, pojedyncza analiza będzie bezbłędna.


Wideo opis

Abstrakt

Kluczowe wnioski

Strategie z raportu

  • Samokonsystencja (Self-Consistency): Model generuje wiele różnych ścieżek prowadzących do rozwiązania, a ostateczny wynik wybiera poprzez głosowanie na najczęstszą odpowiedź. Wykorzystuje to ludzką intuicję, że wiele poprawnych dróg myślowych powinno prowadzić do tej samej konkluzji.

    Objaśnienie lub prompt

    "Wygeneruj 5 różnych sposobów na rozwiązanie tego zadania matematycznego, a następnie podaj jako ostateczny wynik ten, który pojawia się najczęściej."


  • Zastąpienie dekodowania zachłannego (Greedy Decoding Replacement): Zamiast wybierać zawsze "najbardziej prawdopodobne" następne słowo (co promuje schematyczność), model losuje różne ścieżki i tworzy unikalne analizy dla tego samego problemu.

Objaśnienie lub prompt

Ustawienie nieco wyższej wartości temperature w API i polecenie: "Przeanalizuj problem dostaw na trzy zupełnie różne sposoby, generując alternatywne scenariusze wyliczeń."


  • Marginalizacja ścieżek (Path Marginalization): Strategia oddzielenia "procesu myślenia" od ostatecznej odpowiedzi w celu policzenia statystycznej zgodności. Model ignoruje różnice w tym, jak doszedł do wyniku, skupiając się tylko na tym, czy sama liczba lub fakt na końcu są zbieżne.

Objaśnienie lub prompt

"Dla każdej z 3 wygenerowanych przez ciebie ścieżek wyciągnij wyłącznie ostateczną kwotę do zapłaty, a następnie wskaż najczęściej powtarzającą się sumę."


Dobre praktyki:

  • Łączenie z Chain-of-Thought (CoT Synergy): Metoda samokonsystencji została zaprojektowana tak, aby potęgować moc promptowania "krok po kroku". Zawsze łącz te dwie techniki dla najlepszych rezultatów.

    Objaśnienie lub prompt

    "Pomyśl o tym zadaniu krok po kroku. Wygeneruj 3 oddzielne toki rozumowania krok po kroku dla tego problemu, a na koniec wybierz wspólną odpowiedź większością głosów."



  • Stosowanie do zadań z jedną konkretną odpowiedzią (Fixed-answer tasks): Technika najlepiej sprawdza się w dziedzinach, w których ostateczny wynik można jednoznacznie wyodrębnić i matematycznie zliczyć (np. matematyka, zaawansowana logika, pytania zamknięte prawda/fałsz).

    Objaśnienie lub prompt

    Użycie instrukcji "oblicz to na 5 sposobów i zagłosuj" do zadania brzmiącego "Oblicz roczny podatek VAT dla poniższej faktury", gdzie odpowiedzią jest konkretna liczba.



  • Skalowanie próbkowania dla trudniejszych zadań (Scaling samples): Badania pokazują, że im trudniejszy i bardziej złożony problem, tym więcej ścieżek powinieneś kazać wygenerować modelowi. Generowanie kilkunastu wariantów zwiększa szansę na przefiltrowanie halucynacji.

Objaśnienie lub prompt

"To bardzo trudny problem algorytmiczny. Przeanalizuj go na 10 niezależnych sposobów i rozpisz ścieżki, zanim ostatecznie wytypujesz jedno prawidłowe rozwiązanie."


Czego unikać?

  • Nadmiernego zużycia zasobów obliczeniowych (Overcomputing): Nie proś modelu o generowanie kilkunastu dróg myślowych dla prostych, trywialnych pytań faktograficznych. Zużywa to niepotrzebnie tokeny i Twój czas (oraz budżet).

Objaśnienie lub prompt

"Napisz mi 10 różnych analiz dedukcyjnych tego, stolicą jakiego kraju jest Paryż, a następnie wybierz odpowiedź głosowaniem." (Strata czasu dla oczywistej odpowiedzi).


  • Używania techniki w generowaniu tekstów otwartych (Open-ended tasks): Unikaj wymuszania samokonsystencji przy kreatywnym pisaniu, generowaniu wierszy czy esejów, ponieważ nie ma tam spójnego, zamkniętego rozwiązania, nad którym model mógłby jednoznacznie "zagłosować".

Objaśnienie lub prompt

"Napisz 5 opowiadań sci-fi, a potem wybierz dokładnie to, które pojawia się najczęściej jako najlepsze." (Zadanie nie ma logicznego sensu dla tego mechanizmu).


  • Ślepego ufania pojedynczej ścieżce (Single-path reliance): Jeśli zadanie ma duży margines błędu wewnątrz AI, unikaj polegania na pierwszej i jedynej wygenerowanej przez model odpowiedzi. Algorytmy zachłanne mogą łatwo "utknąć" w złym toku myślenia.

Objaśnienie lub prompt

Proszenie modelu o wykonanie wieloetapowego audytu księgowego zwykłym poleceniem "Rozwiąż to zadanie" z naiwną wiarą, że natychmiastowa, pojedyncza analiza będzie bezbłędna.


Wideo opis

Publikacje AI

Prompting

Bezpieczeństwo AI

O mnie

LinkedIn

Mój blog

Wsparcie projektu

Buy me a coffe

Create a free website with Framer, the website builder loved by startups, designers and agencies.