W trakcie weryfikacji przez człowieka

Data ostatniej aktualizacji:

Attention Is All You Need

Attention Is All You Need

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin

Zapytaj o ten dokument AI

Kopuj link

Abstrakt

Kluczowe wnioski

Strategie z raportu:

  • Mechanizm Self-Attention (Samo-uwaga): Architektura pozwala modelowi analizować całą sekwencję (np. zdanie) jednocześnie i oceniać, które słowa są ze sobą najbardziej powiązane, niezależnie od odległości między nimi w tekście. Zastępuje to analizę linijka po linijce.

Objaśnienie lub prompt

Przeanalizuj poniższy tekst i powiąż skutki z przyczynami. Mechanizm uwagi AI automatycznie znajdzie połączenie między zyskiem wspomnianym w pierwszym akapicie, a cięciem kosztów z ostatniego akapitu.


  • Odrzucenie przetwarzania sekwencyjnego na rzecz zrównoleglenia (Parallelization): Zamiast analizować słowa jedno po drugim, model przetwarza ogromne bloki tekstu w tym samym czasie. Dzięki temu przetwarzanie języka jest drastycznie szybsze i bardziej wydajne.

Objaśnienie lub prompt

Zamiast "czytać" książkę strona po stronie w celu znalezienia wzmianki o konkretnej postaci, model analizuje wszystkie strony naraz, natychmiast łącząc fakty.


  • Rozumienie szerokiego kontekstu globalnego: Modele oparte na Transformerze potrafią utrzymać spójność i znaczenie w długich konwersacjach, przypisując matematyczną wagę poszczególnym słowom kluczowym, aby nie stracić wątku głównego.

Objaśnienie lub prompt

"Podsumuj ten 20-stronicowy dokument techniczny, skupiając się tylko na wymaganiach systemowych dla serwerów."


Dobre praktyki:

  • Zapewnienie bogatego i precyzyjnego kontekstu: Ponieważ działanie modelu opiera się na "uwadze", im lepszy i bardziej szczegółowy kontekst mu dostarczysz, tym trafniej powiąże on informacje i wygeneruje merytoryczną odpowiedź.

Objaśnienie lub prompt

"Napisz oficjalnego maila do klienta z przeprosinami za wczorajsze opóźnienie w dostawie partii 100 laptopów. Wspomnij o 15% rabacie na kolejne zamówienie z racji naszych długich relacji biznesowych."


  • Akcentowanie kluczowych instrukcji (Pozycjonowanie uwagi): Modele zwracają największą "uwagę" na słowa kluczowe na początku lub na końcu wypowiedzi. Umieszczanie najważniejszych zasad w tych miejscach pomaga modelowi trzymać się wytycznych.

Objaśnienie lub prompt

"WAŻNE: Zwróć wynik wyłącznie w postaci tabeli. [Długi tekst z danymi finansowymi firmy]. Pamiętaj, format wyjściowy to tylko tabela."


  • Wykorzystywanie zdolności modelu do łączenia odległych faktów (Cross-referencing): Konstruuj prompty tak, aby pozwalały sztucznej inteligencji szukać nieszablonowych powiązań w złożonych i długich tekstach wejściowych.

Objaśnienie lub prompt

"Oto moje wyniki badań z lat 2018, 2020 i 2023. Zestaw je ze sobą i wskaż, które trzy parametry uległy najsilniejszemu pogorszeniu na przestrzeni tych 5 lat."


Czego unikać?

  • Zapychanie promptu nieistotnymi informacjami (Szum informacyjny): Dodawanie zbędnych akapitów czy detali, które nie są istotne dla wykonania zadania, sprawia, że uwaga modelu (attention) niepotrzebnie się rozprasza, pogarszając wynik.

Objaśnienie lub prompt

Wklejenie 15 stron historii powstania korporacji, życiorysów założycieli i opisu biura po to, aby na samym końcu zapytać "Ile wyniósł przychód tej firmy w zeszłym roku?".


  • Oczekiwanie "ludzkiej pamięci" poza oknem kontekstowym: Model oparty na architekturze Transformer opiera się na informacjach zawartych w aktualnym widoku pamięci. Nie odniesie się poprawnie do wątków, których mu nie przypomnisz w obrębie danego zadania.

Objaśnienie lub prompt

"Napisz ciąg dalszy tego opowiadania, zachowując styl z tej historii, którą wygenerowałeś dla mnie wczoraj w innym czacie."


  • Podawanie sprzecznych lub wykluczających się instrukcji: Mechanizm wagi ocenia wszystkie fragmenty tekstu. Sprzeczne polecenia zmuszają go do odgadywania intencji i obniżają jakość logiczną odpowiedzi.

Objaśnienie lub prompt

"Opisz to niezwykle szczegółowo, wykorzystując profesjonalny żargon prawniczy, ale sformułuj to tak, by zrozumiał to przedszkolak w zaledwie dwóch zdaniach."


Wesprzyj ten projekt stawiając mi kawę ;)

Publikacje AI

Prompting

Bezpieczeństwo AI

O mnie

LinkedIn

Mój blog

Wsparcie projektu

Buy me a coffe

Create a free website with Framer, the website builder loved by startups, designers and agencies.