The Prompt Report: A Systematic Survey of Prompt Engineering Techniques

Sander Schulhoff, Michael Ilie, Nishant Balepur, Konstantine Kahadze, Amanda Liu, Chenglei Si, Yinheng Li, Aayush Gupta, HyoJung Han, Sevien Schulhoff, Pranav Sandeep Dulepet, Saurav Vidyadhara, Dayeon Ki, Sweta Agrawal, Chau Pham, Gerson Kroiz, Feileen Li, Hudson Tao, Ashay Srivastava, Hevander Da Costa, Saloni Gupta, Megan L. Rogers, Inna Goncearenco, Giuseppe Sarli, Igor Galynker, Denis Peskoff, Marine Carpuat, Jules White, Shyamal Anadkat, Alexander Hoyle, Philip Resnik

Zapytaj o ten dokument AI

Kopuj link

Abstrakt

Kluczowe wnioski

Strategie z raportu

Taksonomia technik promptowania — Raport klasyfikuje 58 technik stosowanych dla LLM oraz 40 technik dla innych modalności, co ułatwia wybór podejścia do konkretnego zadania.

Słownik terminów — Zawiera 33 zdefiniowane terminy, które porządkują dotychczas niespójne nazewnictwo i ułatwiają komunikację między badaczami i praktykami.
Meta-analiza prefix-promptingu — Systematyczne podsumowanie wyników badań nad naturalnym prefix-promptingiem, wskazujące, które metody mają powtarzalne efekty.
Zastosowania praktyczne — Omówienie, jak techniki promptowania sprawdzają się w zadaniach takich jak generowanie tekstu, ekstrakcja informacji, klasyfikacja, oraz w multimodalnych systemach.
Ocena skuteczności — Raport porównuje techniki pod kątem dokładności, stabilności i kosztów obliczeniowych, wskazując kompromisy między prostotą promptu a jakością wyników.

Dobre praktyki
Precyzyjne wersjonowanie modeli: Zawsze podawaj pełny identyfikator wersji (np. gpt-4-0613 zamiast GPT-4). Zapobiega to problemom wynikającym z aktualizacji modeli w tle.
Publikacja pełnych tekstów i szablonów: Udostępniaj prompty w ich surowej formie wraz z jasno oznaczonymi zmiennymi (placeholders), aby umożliwić innym badaczom dokładne odtworzenie eksperymentu.
Definiowanie parametrów determinizmu: Jawne podawanie wartości temperature, top-p oraz seed (jeśli dostępne) jest niezbędne dla zachowania replikowalności wyników w środowiskach produkcyjnych.
Dokumentowanie strategii Few-shot: Jeśli stosujesz przykłady w prompcie, opisz kryteria ich doboru (np. czy były dobrane losowo, czy według konkretnego klucza podobieństwa semantycznego).
Raportowanie daty i infrastruktury: Ze względu na zjawisko model drift, kluczowe jest odnotowanie daty przeprowadzenia testów oraz użytych wrapperów (np. LangChain, Guidance) lub bibliotek API.

Czego unikać?

Używania generycznych nazw: Unikanie określeń typu „Llama” czy „Claude” bez specyfikacji wersji i rozmiaru modelu (np. 70B). Takie dane są bezużyteczne dla celów naukowych i technicznych.
Polegania na ustawieniach domyślnych: Nigdy nie zakładaj, że „domyślna temperatura” jest stała pomiędzy wersjami API. Brak jawnej definicji parametrów to najczęstsza przyczyna problemów z replikacją.
Ukrywania manualnej post-produkcji: Jeśli wyniki modelu były ręcznie „czyszczone” lub poprawiane przed analizą, brak wzmianki o tym w raporcie jest błędem metodologicznym.
Ignorowania negatywnych wyników i halucynacji: Pomijanie przypadków, w których model zawiódł, uniemożliwia rzetelną ocenę ryzyka wdrożenia danego promptu.
„Magicznego” podejścia do Prompt Engineeringu: Unikanie wprowadzania modyfikacji (np. dodawanie „Think step by step”) bez dowodów na to, że faktycznie poprawiają one wydajność w danym przypadku użycia.