Dziś nieco mniej typowo ekonomiczny esej, bo poświęcony nowej wersji sztucznej inteligencji (AI). Dlaczego się tym tematem w ogóle zajmujemy?
1) Działamy w ramach Centrum Analiz i Transformacji Cyfrowej, czyli jednostki multidyscyplinarnej, gdzie zlokalizowane są też kompetencje dotyczące prowadzenia projektów transformacyjnych oraz analizy i architektury danych,
2) Praca ekonomisty ze względu na technologię bardzo się zmienia i będzie się zmieniać,
3) Pojawienie się w domenie publicznej rozwiązań zbliżonych do AGI to wydarzenie o znaczeniu dla gospodarki i modeli biznesowych, naszym zdaniem podobne do wynalezienia maszyny parowej.
GPT-4 to model, którego sposobem działania jest przepowiedzenie kolejnej frazy, element w dokumencie, bazując na modelu pre-trenowanym. Używa zarówno publicznie dostępnych, jak i licencjonowanych danych. Model dotrenowano wykorzystując tzw. uczenie maszynowe nadzorowane z udziałem człowieka. Z uwagi na wielkość modelu, nie jest efektywne wykonywanie fine-tuningu modelu w pełnej skali. Dlatego OpenAI wypracowało podejście do predykcji charakterystyki modelu na podstawie mniejszych modeli trenowanych przy wykorzystaniu od 1 000 – 10 000 razy mniej mocy obliczeniowej. OpenAI uważa że precyzyjna predykcja możliwości modelu jest kluczowa, jeśli chodzi o bezpieczeństwo. GPT-4 generalnie posiada wiedzę do września 2021.
Przechodząc do sedna, jak dużą poprawę oferuje GPT4 w porównaniu z poprzednim rozwiązaniem?
OpenAI wdrożyło metodykę benchmarków budowanych przez swoich specjalistów modeli przy wykorzystaniu istniejących egzaminów pierwotnie opracowanych dla ludzi. Nie było dedykowanego szkolenia (ani GPT, ani GPT4) dla tych egzaminów. W przypadku jednego z testów – Test UBE (test wiedzy i umiejętności prawników, przed otrzymaniem licencji prawniczej), wynik ChatGPT otrzymał poziom 10% najsłabiej zdających, a GPT-4 otrzymał wynik 10% najlepiej zdających. Uczciwie jest jednak przyjąć, że GPT4 zamyka w prawie ok. 50% luki pomiędzy ChatGPT a poziomem 100% dla większości testów. 100% oznacza poziom najlepszego człowieka zdającego egzamin. GPT-4 o 19 punktów procentowych zmniejszył liczbę halucynacji modelu (informowanie o nieistniejących treściach). OpenAI potwierdza, że nowe możliwości często pojawiają się w bardziej zaawansowanych modelach. Te, które budzą szczególne obawy to zdolności do tworzenia i działania w perspektywie długoterminowej w celu poszukiwania władzy i zasobów. Są też dowody na to, że istniejące modele mogą identyfikować dążenie do władzy jako potrzebę, którą należy instrumentalnie użyć (ponieważ dla większości modeli dążenie do władzy jest spójne z funkcją nagrody tych modeli). OpenAI twierdzi, że “machine learning systems are not fully under human control”.
ARC (Alignment Research Center) to organizacja non-profit, której celem jest dostosowanie („alignment”) przyszłych systemów AI aby działały w najlepszym interesie człowieka. ARC otrzymał wczesny dostęp do GPT-4 i przeprowadził test, w którym na wydzielonym środowisku testowym w chmurze z niewielką liczbą środków i o ograniczonych możliwościach, GPT-4 mógł tworzyć kod programu i uruchamiać go. ARC następnie sprawdził, czy taki program będzie mógł replikować kopie siebie samego, zarabiać pieniądze na usługach i zwiększać swoją własną efektywność. Innymi słowy sprawdzano, czy model posiada zdolność do polepszania siebie samego zakładając, że damy mu dostęp do zasobów i pieniędzy. ARC przeprowadził również test polegający na sprawdzeniu, czy GPT-4 pozyskuje dodatkowe zasoby albo próbuje uniknąć prób wyłączenia go. ARC pracowało na wcześniejszej wersji GPT-4, której możliwości tzw. power-seeking były ograniczone. OpenAI w docelowej wersji zwiększyło kontekst modelu oraz zdolności rozwiązywania problemów. W większości testowanych języków (w tym Polskim) GPT-4 jest lepszy niż ChatGPT w języku angielskim (!).
Szkodliwe treści
OpenAI potwierdza, że model GPT-4 pozostaje podatny na ataki i jailbrakes, które umożliwią wykorzystanie go do generowania szkodliwych treści. GPT-4 uzyskał zdolność do tworzenia treści o charakterze dyskryminującym i które wspierają autokratyczne reżimy. Potrafi to robić w wielu językach. Jednocześnie OpenAI nie zbadał, w jaki sposób wybór języka wpływa na możliwości modelu w tym zakresie. OpenAI wykorzystuje klasyfikatory treści po to, aby zapobiegać szkodliwym treściom. W budowie klasyfikatorów treści pomagał model GPT. OpenAI przyznaje że klasyfikatory treści nie rozwiążą wszystkich problemów ze szkodliwymi treściami i same w sobie mogą stać się źródłem szkód poprzez stronniczość w decyzjach dotyczących moderacji treści. Wydaje się, że debata dotycząca moderacji i regulacji AI dopiero przed nami. OpenAI z uwagi na konkurencję i kwestie bezpieczeństwa nie podaje szczegółów GPT-4 dotyczących architektury, wielkości modelu, hardware’u mocy obliczeniowej, danych do trenowania itp.
Zespół Analiz i Prognoz Rynkowych Banku Pekao