Data ostatniej aktualizacji:
Alexander Korn, Lea Zaruchas, Chetan Arora, Andreas Metzger, Sven Smolka, Fanyu Wang, Andreas Vogelsang
Zapytaj o ten dokument AI
Kopuj link
Abstrakt
Kluczowe wnioski
Strategie z raportu:
Kategoryzacja elementów raportowania (Reporting Elements Categorization): Rozdzielenie informacji o promptach w badaniach na niezbędne, pożądane i wyjątkowe, co pozwala programistom i badaczom dostosować poziom szczegółowości dokumentacji do powszechnie oczekiwanych standardów.
Objaśnienie lub prompt
Ujęcie pełnej treści promptu i dokładnej nazwy modelu w dokumentacji jako informacja "niezbędna", a ewentualnej historii prób i błędów z optymalizacji zapytania jako informacja "pożą
Ujawnianie pełnych danych o wersjach (Version Disclosure): Jasne podawanie dokładnych wersji modeli, dat dostępu i ustawień parametrów, co jest kluczowe z punktu widzenia możliwości powtórzenia (odtwarzalności) testów przez innych inżynierów.
Objaśnienie lub prompt
"użyliśmy modelu GPT-4", raportujemy: "Model: GPT-4-0613, Temperatura: 0.2, Top-p: 0.9, data testów: 15 października 2025".
Uzasadnienie budowy promptu (Prompt Justification): Wymóg wyraźnego opisania dlaczego dany prompt ma taką a nie inną strukturę i jakie konkretne metody lub słowa kluczowe zostały w nim celowo użyte.
Objaśnienie lub prompt
"Użyto techniki zero-shot chain-of-thought ('Pomyśl krok po kroku'), ponieważ wcześniejsze testy wykazały, że model bez niej gubi się przy analizie złożonego kodu w języku Java."
Dobre praktyki:
Systematyczna dokumentacja inżynierii promptów (Systematic Documentation): Prowadzenie szczegółowego i publicznie dostępnego repozytorium badawczego (np. na GitHubie), zawierającego ostateczne prompty, pliki konfiguracyjne oraz zebrane wyniki działania sztucznej inteligencji.
Objaśnienie lub prompt
Udostępnienie pliku README.md w publicznym repozytorium badawczym, w którym umieszczono linki do wszystkich 150 promptów użytych w eksperymencie wraz ze skryptami, które automatyzowały ich wysyłanie.
Jawne raportowanie zagrożeń dla trafności (Threats to Validity Reporting): Traktowanie niestabilności generowanych odpowiedzi i zjawiska 'halucynacji' LLM jako wbudowanych wad badań i obowiązkowe opisywanie w dokumentacji, w jaki sposób badacze kontrolowali to ryzyko.
Objaśnienie lub prompt
Dodanie do dokumentacji punktu: "Ponieważ model mógł zmyślić wywołania API w wygenerowanym kodzie, każdy wygenerowany fragment podlegał rygorystycznej automatycznej kompilacji testowej w bezpiecznym środowisku, zanim wynik trafił do końcowych statystyk badania."
Transparentność optymalizacji (Optimization Transparency): Dokładne i przejrzyste opisywanie w artykułach procesu ulepszania zapytań – czy był on wykonywany ręcznie metodą prób i błędów, czy użyto w tym celu innych, zautomatyzowanych frameworków.
Objaśnienie lub prompt
"Początkowy prompt został napisany ręcznie przez badacza, a następnie zoptymalizowany iteracyjnie za pomocą narzędzia DSPy, co ostatecznie zwiększyło poprawność badanej składni kodu o 24%."
Czego unikać?
Brak informacji o kontekście zapytań (Omission of Prompt Context): Unikaj prezentowania w badaniach wyłącznie szczątkowych opisów zapytań bez pełnego kontekstu czy bazowej instrukcji systemowej, co całkowicie uniemożliwia innym ponowne powtórzenie Twoich testów i ocenę rzetelności.
Objaśnienie lub prompt
"Poprosiliśmy model ChatGPT o wygenerowanie testów jednostkowych." zamiast zaprezentowania w aneksie precyzyjnego polecenia krok po kroku, jakie zostało użyte w API.
Ignorowania zmienności modeli w czasie (Ignoring Model Drift): Unikaj zakładania w publikacjach, że modele oferowane z chmury i ich ukryte aktualizacje będą zawsze działać tak samo dobrze na tym samym prompcie. Niezbędne jest utrwalenie konkretnej daty przeprowadzenia testów.
Objaśnienie lub prompt
Unikaj publikowania wyników sugerujących, że skuteczność promptu na publicznym API wynosi "zawsze 90%" bez wskazania dokładnej daty. Po cichej aktualizacji na serwerach dostawcy ten sam prompt może wkrótce działać zupełnie inaczej.
Pomijania negatywnych wyników w eksperymentach (Hiding Failed Prompts): Nie ukrywaj ścieżek dedukcyjnych i wariantów promptów, które po testach na kodzie po prostu nie zadziałały. Dokumentowanie błędnych zapytań jest dla środowiska równie wartościowe co ostateczne sukcesy inżynieryjne.
Objaśnienie lub prompt
Prezentacja w publikacji naukowego wyłącznie jednego, "perfekcyjnego" zapytania z sugestią, że inżynier wpadł na nie za pierwszym razem, podczas gdy zespół po cichu odrzucił 20 nieudanych wariantów, o których również warto by napisać by przestrzec innych.
Publikacje AI
Prompting
Bezpieczeństwo AI
O mnie
Mój blog
Wsparcie projektu
Buy me a coffe
Create by Mateusz Jędraszczyk
