Izašao novi GPT koji ozbiljno razmišlja. Testirali smo ga

Foto: Shutterstock, Profimedia, EPA

OPENAI je nedavno objavio da je razvio novi model AI-ja, GPT-401, ili kraće 01 koji simulira ljudsku sposobnost za "dublje" razmišljanje prije donošenja odgovora, što ga čini idealnim za rješavanje složenih zadataka.

Visoka točnost od 83% na Olimpijadi

Američka kompanija tvrdi da novi model može duže, u uzastopnim, sustavnim koracima promišljati složene zadatke te rješavati teže probleme iz znanosti, matematike i kodiranja nego što su to mogli raniji modeli.

U testiranjima koja je proveo OpenAI, ovaj je model postigao točnost od 83% u rješavanju zadataka s Olimpijade iz matematike, čime je daleko nadmašio GPT-4, koji je postigao samo 13% točnosti.

Kompanija također tvrdi da je postigao izvanredne rezultate u kodiranju kojima se plasirao u 89. percentil u natjecanjima poput Codeforcesa te da bi po svojim rezultatima bio među 500 najboljih srednjoškolaca na Američkoj matematičkoj olimpijadi, koja obuhvaća geometriju, teoriju brojeva i druge matematičke teme.

Model je također obučen za odgovaranje na pitanja na doktorskoj razini iz područja kao što su astrofizika i organska kemija. Na doktorskoj razini točnost mu je bila 78%, u usporedbi sa 69.7% kod ljudi te 56.1% kod modela GPT-4a.

Direktor OpenAI-ja Sam Altman

Točno je odgovorio na naša pitanja

GPT-401 dostupan je pretplatnicima premium verzije Chat GPT-ja u izborniku modela u preview verziji.

Za neku ozbiljniju ocjenu novog modela trebat će pričekati da prođe kroz ruke i testiranja ozbiljnih znanstvenika i kodera.

Mi smo iz znatiželje proveli dva jednostavnija testa, a model je na oba odgovorio točno. Pritom je predstavio sve korake u svojem rješavanju zadataka.

U prvom testu postavili smo mu logički zadatak koji glasi:

Čovjek u ladici ima 53 čarape: 21 identičnu plavu, 15 identičnih crnih i 17 identičnih crvenih. Svjetla su ugašena i on je u potpunom mraku. Koliko čarapa mora izvaditi da bi bio 100 posto siguran da ima barem jedan par crnih čarapa?

GPT-401 je zadatak razložio i promislio u koracima koje ćemo u ovom slučaju navesti dolje kako biste dobili neku predodžbu o tome kako funkcionira.

Njegov konačan odgovor je točan, baš kao što su i koraci u razmišljanju, iako nam se neki od njih mogu činiti suvišnima.

Rješavanje zadatka:

Imamo ladicu s ukupno 53 čarape:

21 plavu čarapu

15 crnih čarapa

17 crvenih čarapa

Čovjek je u mraku i nasumično izvlači čarape. Želimo saznati koliko čarapa mora izvaditi da bude 100% siguran da ima barem jedan par crnih čarapa.

Cilj: Pronaći minimalan broj čarapa koje treba izvaditi da bi se osiguralo da među njima ima najmanje dvije crne čarape (što čini par).

Analiza problema:

Da bismo bili sigurni da imamo barem jedan par crnih čarapa, moramo razmotriti najgori mogući scenarij u kojem čovjek što duže izbjegava izvući dvije crne čarape.

Koraci razmišljanja:

Izbjegavanje crnih čarapa:

U najgorem slučaju, čovjek će prvo izvući sve čarape koje nisu crne (plave i crvene).

Ukupan broj ne-crnih čarapa je: 21 (plavih)+17 (crvenih)=38 cˇarapa21\ (\text{plavih}) + 17\ (\text{crvenih}) = 38\ \text{čarapa}21 (plavih)+17 (crvenih)=38 cˇarapa

Izvlačenje crnih čarapa bez stvaranja para:

Nakon što su sve ne-crne čarape izvučene, čovjek može izvući još jednu crnu čarapu bez formiranja para crnih čarapa.

To znači da je do sada izvukao: 38 (ne-crnih cˇarapa)+1 (crna cˇarapa)=39 cˇarapa38\ (\text{ne-crnih čarapa}) + 1\ (\text{crna čarapa}) = 39\ \text{čarapa}38 (ne-crnih cˇarapa)+1 (crna cˇarapa)=39 cˇarapa

Neizbježnost formiranja para crnih čarapa:

Ako izvuče još jednu čarapu (40. čarapu), mora izvući još jednu crnu čarapu jer su sve ne-crne čarape već izvučene.

S dvije crne čarape u rukama, čovjek sada ima barem jedan par crnih čarapa.

Zaključak:

Minimalan broj čarapa koje treba izvaditi: 40

Čovjek mora izvaditi 40 čarapa da bi bio 100% siguran da ima barem jedan par crnih čarapa.

Objašnjenje:

39 čarapa može izvući bez garantiranja para crnih čarapa (38 ne-crnih + 1 crna).

S 40. čarapom, neizbježno će imati dvije crne čarape, što čini barem jedan par.

Odgovor:

Čovjek mora izvaditi 40 čarapa kako bi bio 100% siguran da ima barem jedan par crnih čarapa.

Zadatak iz fizike za maturu

Novom modelu zadali smo i zadatak iz fizike za maturu koji smo pronašli na stranici Prirodopolis:

Štap ima duljinu l0 na temperaturi t0. Kada štap zagrijemo na temperaturu 2t0, produljenje štapa je Δl. Koliko će biti produljenje toga štapa na temperaturi 3t0?

Mogući odgovori:

A - 2 Δl

B - 3 Δl

C - 4 Δl

D - 9 Δl

GPT-401 je ponovno proveo podužu analizu i proces računanja (skrinšot dijela izračuna dolje) i konačno opet došao do točnog rezultata prema kojem je odgovor A.

Povećana sigurnost

Kao jedna od prednosti novog modela navodi se i njegova sposobnost da kroz novi pristup sigurnosnim pravilima bolje prepoznaje pokušaje zloupotrebe, čime se značajno povećava njegova otpornost na tzv. “jailbreaking”.

To znači da bi GPT-401 trebao biti značajno otporniji na tehnike koje korisnici znaju primjenjivati kako bi zaobišli ograničenja sigurnosnih mjera modela, kako bi AI-ju omogućili da odgovara na upite ili izvodi radnje koje su njegovi tvorci namjerno onemogućili ili zabranili.

Sporost i visoka cijena

Ipak, nisu svi oduševljeni sposobnostima novog modela.

Kompanija sama priznaje da mu, iako je moćan za kompleksne zadatke, još uvijek nedostaju određene ključne funkcije koje su korisne u svakodnevnom radu, poput pretraživanja interneta i upravljanja datotekama.

Brojni kritičari ističu da ih smeta njegova sporost te visoka cijena koja je rezultat dužeg i dubljeg promišljanja.

Primjerice, u slučaju GPT-40 cijena za obradu ulaznih tokena iznosi oko 2.5 USD za milijun tokena, dok je cijena za izlazne tokene 10 USD za milijun tokena.

GPT-401 (o1-preview) je značajno skuplji - cijena ulaznih tokena je 15 USD za milijun tokena, dok izlazni tokeni koštaju 60 USD za milijun tokena.

Verzija GPT-401 Mini (o1-mini) je povoljnija s cijenom od 3 USD za milijun ulaznih tokena i 12 USD za milijun izlaznih tokena.

Kritike na forumu

Neki korisnici koji su ga testirali, ocijenili su na forumu OpenAI zajednice da im je lošiji od modela 40.

 „U mom testiranju, O1 je bio lošiji. Dao je tri pogrešna prijedloga za zadatak programiranja koji bi 4o ispravno riješio. Čini se da je 'razmišljanje' samo više slojeva političkog filtriranja, što ga čini beskorisnim za učenje povijesti. Na testu o 'osobnim pitanjima' samo je rekao 'potraži pomoć'. Također nije htio odglumiti lik. Molim vas, nemojte isključivati 4o u korist ovog“, poručio je jedan.

No jedan drugi korisnik istaknuo je da ne razumije niti se slaže s takvim brzopletim opisima o1.

„Intenzivno testiram o1 već dva dana. Izuzetno je moćan u svom autoregresivnom konceptualnom procesu. Bit će potrebno najmanje 100 složenih dijaloga kako bi se u potpunosti procijenile njegove mogućnosti i ograničenja“, poručio je.

Koristan za neke, ali ne za sve

Dakle, mogli bismo zaključiti da je za uobičajene scenarije i većinu korisnika GPT-4 za sada i dalje bolja opcija zbog šire primjene i pristupačnosti.

Ipak, treba imati na umu da je ovo tek prvi korak u razvoju cijele nove serije modela, što znači da treba pričekati da se vidi što će se dalje zbivati - hoće li se GPT-401 obogatiti svim funkcijama koje ima i 40, hoće li postojati različite verzije za različite korisnike te hoće li jeftiniji mini modeli dobro ispunjavati određene partikularne potrebe. Bit će svakako zanimljivo pratiti u kojem smjeru će se serija novih modela razvijati.

***

Knjigu Indexovog znanstvenog novinara Nenada Jarića Dauenhauera, koja tematizira najkontroverznije i najzanimljivije teme u znanosti poput klimatskih promjena, pseudoznanosti, pandemije, GMO-a i nuklearki, možete nabaviti ovdje.

Knjiga se sastoji od tekstova našeg novinara objavljenih kroz više godina rada na Indexu.

Objavljuje Index VijestiSubota, 5. studenoga 2022.

 

Komentare možete pogledati na ovom linku.

Pročitajte više

 
Komentare možete pogledati na ovom linku.