Strona Glówna

Asystent AI

Wspieraj ten projekt

Prompty

Szukaj

Wkrótce

Czytaj źródło

View License

W trakcie weryfikacji przez człowieka

Data ostatniej aktualizacji:

5 sty 2026

Reporting LLM Prompting in Automated Software Engineering: A Guideline Based on Current Practices and Expectations

Alexander Korn, Lea Zaruchas, Chetan Arora, Andreas Metzger, Sven Smolka, Fanyu Wang, Andreas Vogelsang

Zapytaj o ten dokument AI

Kopuj link

Abstrakt

Kluczowe wnioski

Strategie z raportu:

Kategoryzacja elementów raportowania (Reporting Elements Categorization): Rozdzielenie informacji o promptach w badaniach na niezbędne, pożądane i wyjątkowe, co pozwala programistom i badaczom dostosować poziom szczegółowości dokumentacji do powszechnie oczekiwanych standardów.

Objaśnienie lub prompt

Ujęcie pełnej treści promptu i dokładnej nazwy modelu w dokumentacji jako informacja "niezbędna", a ewentualnej historii prób i błędów z optymalizacji zapytania jako informacja "pożą

Ujawnianie pełnych danych o wersjach (Version Disclosure): Jasne podawanie dokładnych wersji modeli, dat dostępu i ustawień parametrów, co jest kluczowe z punktu widzenia możliwości powtórzenia (odtwarzalności) testów przez innych inżynierów.

Objaśnienie lub prompt

"użyliśmy modelu GPT-4", raportujemy: "Model: GPT-4-0613, Temperatura: 0.2, Top-p: 0.9, data testów: 15 października 2025".

Uzasadnienie budowy promptu (Prompt Justification): Wymóg wyraźnego opisania dlaczego dany prompt ma taką a nie inną strukturę i jakie konkretne metody lub słowa kluczowe zostały w nim celowo użyte.

Objaśnienie lub prompt

"Użyto techniki zero-shot chain-of-thought ('Pomyśl krok po kroku'), ponieważ wcześniejsze testy wykazały, że model bez niej gubi się przy analizie złożonego kodu w języku Java."

Dobre praktyki:

Systematyczna dokumentacja inżynierii promptów (Systematic Documentation): Prowadzenie szczegółowego i publicznie dostępnego repozytorium badawczego (np. na GitHubie), zawierającego ostateczne prompty, pliki konfiguracyjne oraz zebrane wyniki działania sztucznej inteligencji.

Objaśnienie lub prompt

Udostępnienie pliku README.md w publicznym repozytorium badawczym, w którym umieszczono linki do wszystkich 150 promptów użytych w eksperymencie wraz ze skryptami, które automatyzowały ich wysyłanie.

Jawne raportowanie zagrożeń dla trafności (Threats to Validity Reporting): Traktowanie niestabilności generowanych odpowiedzi i zjawiska 'halucynacji' LLM jako wbudowanych wad badań i obowiązkowe opisywanie w dokumentacji, w jaki sposób badacze kontrolowali to ryzyko.

Objaśnienie lub prompt

Dodanie do dokumentacji punktu: "Ponieważ model mógł zmyślić wywołania API w wygenerowanym kodzie, każdy wygenerowany fragment podlegał rygorystycznej automatycznej kompilacji testowej w bezpiecznym środowisku, zanim wynik trafił do końcowych statystyk badania."

Transparentność optymalizacji (Optimization Transparency): Dokładne i przejrzyste opisywanie w artykułach procesu ulepszania zapytań – czy był on wykonywany ręcznie metodą prób i błędów, czy użyto w tym celu innych, zautomatyzowanych frameworków.

Objaśnienie lub prompt

"Początkowy prompt został napisany ręcznie przez badacza, a następnie zoptymalizowany iteracyjnie za pomocą narzędzia DSPy, co ostatecznie zwiększyło poprawność badanej składni kodu o 24%."

Czego unikać?

Brak informacji o kontekście zapytań (Omission of Prompt Context): Unikaj prezentowania w badaniach wyłącznie szczątkowych opisów zapytań bez pełnego kontekstu czy bazowej instrukcji systemowej, co całkowicie uniemożliwia innym ponowne powtórzenie Twoich testów i ocenę rzetelności.

Objaśnienie lub prompt

"Poprosiliśmy model ChatGPT o wygenerowanie testów jednostkowych." zamiast zaprezentowania w aneksie precyzyjnego polecenia krok po kroku, jakie zostało użyte w API.

Ignorowania zmienności modeli w czasie (Ignoring Model Drift): Unikaj zakładania w publikacjach, że modele oferowane z chmury i ich ukryte aktualizacje będą zawsze działać tak samo dobrze na tym samym prompcie. Niezbędne jest utrwalenie konkretnej daty przeprowadzenia testów.

Objaśnienie lub prompt

Unikaj publikowania wyników sugerujących, że skuteczność promptu na publicznym API wynosi "zawsze 90%" bez wskazania dokładnej daty. Po cichej aktualizacji na serwerach dostawcy ten sam prompt może wkrótce działać zupełnie inaczej.

Pomijania negatywnych wyników w eksperymentach (Hiding Failed Prompts): Nie ukrywaj ścieżek dedukcyjnych i wariantów promptów, które po testach na kodzie po prostu nie zadziałały. Dokumentowanie błędnych zapytań jest dla środowiska równie wartościowe co ostateczne sukcesy inżynieryjne.

Objaśnienie lub prompt

Prezentacja w publikacji naukowego wyłącznie jednego, "perfekcyjnego" zapytania z sugestią, że inżynier wpadł na nie za pierwszym razem, podczas gdy zespół po cichu odrzucił 20 nieudanych wariantów, o których również warto by napisać by przestrzec innych.

Wesprzyj ten projekt stawiając mi kawę ;)

5 zł

10 zł

15 zł

Publikacje AI

Prompting

Bezpieczeństwo AI

O mnie

Mój blog

Wsparcie projektu

Buy me a coffe

Create by Mateusz Jędraszczyk