GPT-3, no… ten model, od którego w 2020 roku rozkręciło się całe to dzisiejsze szaleństwo na punkcie AI, miał 175 miliardów parametrów i wytrenowali go na tekstach, których było naprawdę dużo — setki miliardów słów. I w sumie od tej jednej liczby zaczyna się raczej każda rozmowa o tym, jak ta cała sztuczna inteligencja, którą dziś miliony ludzi klikają sobie codziennie, w ogóle działa.
Bo wiesz co? Mimo tej nazwy żadnego „myślenia” tu nie ma. Jest matematyka, jest statystyka i jest sprzęt, który liczy — i to bardzo, ale to bardzo dużo sprzętu. System, który odpowiada nam na pytanie albo wypluwa obrazek, nie rozumie tego, co robi, tak jak rozumie to człowiek. On po prostu zgaduje, co najpewniej powinno pojawić się dalej… i tyle.
Sztuczna inteligencja jak działa: przewidywanie kolejnego słowa
Te najmodniejsze dziś modele językowe, czyli na przykład to, co napędza ChatGPT czy Gemini, w sumie sprowadzają się do jednej operacji, którą powtarza się w kółko. Dostają kawałek tekstu i liczą sobie, jakie słowo ma największą szansę, że wyskoczy zaraz po nim.
No i potem dorzucają to słowo do tekstu i liczą wszystko od nowa. I jeszcze raz. I tak nam to zdanie rośnie token po tokenie, gdzie token to słowo albo jakiś jego kawałek.
I dlatego właśnie model potrafi napisać całkiem sensowny akapit, w ogóle nie wiedząc, czy to, co napisał, jest prawdą. Bo liczy się dla niego statystyczne dopasowanie, a nie to, czy się zgadza z faktami… I stąd biorą się te tak zwane halucynacje — czyli odpowiedzi, które brzmią mega pewnie, a są po prostu zmyślone.
A ten mechanizm, dzięki któremu model umie „ważyć”, które z wcześniejszych słów są ważne dla tego kolejnego, nazywa się uwagą (attention). Opisali go w tej głośnej pracy badawczej z 2017 roku, „Attention Is All You Need” — i to właśnie ona dała początek architekturze transformer, na której dziś opiera się większość dużych modeli.
Trening to zgadywanka powtórzona miliardy razy
Zanim model w ogóle nam cokolwiek powie, musi przejść trening. Najpierw dostaje gigantyczne ilości tekstu — z internetu, z książek, z kodu — a jego cała robota polega na tym, żeby zgadywać zasłonięte słowa.
Na początku zgaduje raczej na ślepo. I za każdym błędem taki specjalny algorytm minimalnie podkręca te miliardy wewnętrznych liczb — czyli parametrów — tak, żeby następnym razem trafić ciut lepiej. No i ten proces, nazywany propagacją wsteczną, powtarza się jakąś astronomiczną liczbę razy.
A te parametry to w sumie nic innego jak siła połączeń między takimi sztucznymi „neuronami”. Po treningu to właśnie w nich siedzi zakodowana cała „wiedza” modelu. Bo sieć nie trzyma zdań w takiej postaci, w jakiej je widziała — ona rozkłada je na wzorce zapisane w tych liczbach.
Drugi etap to dostrajanie. Tutaj ludzie oceniają odpowiedzi modelu, pokazują, które są lepsze, a które gorsze, a system uczy się odpowiadać jakoś tak bardziej pomocnie i mniej szkodliwie. Tę metodę określa się skrótem RLHF, czyli uczenie ze wzmocnieniem na podstawie informacji zwrotnej od człowieka. Więcej technicznych szczegółów o tym etapie opisywał serwis Spider's Web.
Skala, która zżera prąd i pieniądze
Trening dużego modelu nie jest ani tani, ani szybki. Liczy się go w tygodniach pracy tysięcy wyspecjalizowanych procesorów graficznych i w rachunkach, które idą w dziesiątki milionów dolarów.
Generalnie im więcej parametrów i danych, tym zwykle lepsze efekty — ale też wyższe koszty i większe zużycie energii. No i to napięcie między jakością a ceną stało się dziś głównym tematem całego tego wyścigu między firmami technologicznymi.
A te liczby poniżej pokazują, jak gwałtownie ta skala modeli rosła w ciągu zaledwie kilku lat.
| Model | Rok | Liczba parametrów |
|---|---|---|
| GPT-2 | 2019 | 1,5 mld |
| GPT-3 | 2020 | 175 mld |
| GPT-4 (szacunki) | 2023 | bilion+ |
Ile naprawdę „kosztuje” jedno zdanie od AI
Jako użytkownik tego nie widzisz, ale każde wygenerowane słowo to konkretna porcja obliczeń. Pokażę ci to na przykładzie, żebyśmy złapali rząd wielkości.
Załóżmy odpowiedź długości 500 tokenów. Przy modelu o 175 miliardach parametrów wygenerowanie jednego tokena wymaga rzędu setek miliardów operacji matematycznych. No i jak to pomnożymy przez te 500 tokenów, to wychodzą nam dziesiątki bilionów operacji na jedną odpowiedź… na jedną.
I dlatego właśnie dostawcy AI rozliczają się za tokeny, a nie za pytania. Krótsze pytanie i krótsza odpowiedź to mniej obliczeń, mniej prądu i niższy rachunek. A te długie, rozwlekłe sesje potrafią ten koszt nieźle zwielokrotnić.
To nie jest baza danych ani wyszukiwarka
Często mylimy sobie model z wyszukiwarką i to jest właśnie ten typowy błąd. Model językowy w podstawowej wersji w trakcie odpowiadania niczego nie szuka w internecie. On korzysta tylko z tych wzorców, które utrwaliły mu się podczas treningu.
To znaczy, że ma swoją „datę odcięcia wiedzy” — czyli nie zna wydarzeń późniejszych niż jego zbiór treningowy. A te funkcje przeszukiwania sieci, które oferują niektóre narzędzia, to osobny mechanizm doklejony obok modelu, a nie jego naturalna część.
Nie zna też swoich źródeł tak, jak rozumie to człowiek. Gdy podaje przypis albo link, to równie dobrze może go sobie po prostu wymyślić, bo dla niego to kolejny ciąg prawdopodobnych znaków i tyle. Na ten problem nieraz zwracali uwagę eksperci cytowani przez Nauka w Polsce.
Obrazy, dźwięk i wideo działają na tej samej zasadzie
Generatory grafiki, czyli na przykład Midjourney czy DALL-E, nie przewidują słów, tylko piksele. Technicznie ten mechanizm bywa inny, ale filozofia zostaje ta sama: model uczy się wzorców z milionów przykładów, a potem składa nowy wynik, który pasuje do opisu.
Te popularne dziś modele dyfuzyjne zaczynają od czystego szumu i krok po kroku „odszumiają” obraz, aż wyłoni się scena zgodna z poleceniem. To trochę tak, jakbyśmy wywoływali zdjęcie z mgły, tyle że sterowane tekstem.
No i ta sama logika napędza generowanie głosu oraz wideo. Wszędzie chodzi mniej więcej o to samo: wyłapać statystyczne regularności w danych i odtworzyć je w nowej kombinacji, której wcześniej po prostu nie było.