MALO poznati kineski laboratorij izazvao je paniku u Silicijskoj dolini nakon što je predstavio modele umjetne inteligencije (AI) koji u nekim sposobnostima nadmašuju najbolje američke, unatoč tome što su razvijeni jeftinije i uz korištenje manje moćnih čipova.
Laboratorij po imenu DeepSeek lansirao je krajem prosinca besplatni, open-source veliki jezični model (LLM), za koji tvrdi da je razvijen u samo dva mjeseca uz trošak manji od 6 milijuna dolara za treniranje na Nvidijinim čipovima H800. Nvidia ima napredniju verziju čipova H100 koji se koriste u razvoju AI-ja, međutim oni nisu dostupni u Kini zbog ograničenja koje je postavio SAD.
Za usporedbu, razvoj ChatGPT-ja, koji radi na najnaprednijim čipovima dizajniranim za zadatke strojnog učenja i umjetne inteligencije Nvidia A100 i Nvidia H100, navodno je stajao oko 500 milijuna dolara.
Predstavljanje je izazvalo veliku zabrinutost u SAD-u zbog mogućeg smanjenja prednosti koju američke kompanije imaju u razvoju umjetne inteligencije, kao i zbog činjenice da njihovi modeli imaju neusporedivo veće troškove. Da stvar bude gora za američke firme, DeepSeekov model za sada je još uvijek uglavnom besplatan, dok je mjesečna pretplata na ChatGPT 20 dolara.
Mnogi stručnjaci uvaj uspjeh smatraju potvrdom open source pristupa.
DeepSeek: Zvijezda u usponu
DeepSeek je u svibnju 2023. osnovao Liang Wenfeng, kineski milijarder i istaknuti stručnjak u industriji hedge fondova, poznat po ulaganjima u tehnologiju i AI.
Tim DeepSeeka uglavnom se sastoji od mladih, talentiranih diplomaca s najboljih kineskih sveučilišta, što jača kulturu inovacije.
Razvojni put DeepSeeka započeo je u studenom 2023. predstavljanjem modela DeepSeek Coder, open-source modela dizajniranog za zadatke kodiranja. Uslijedio je veliki jezični model DeepSeek LLM, sa 67 milijardi parametara, osmišljen da bude konkurencija drugim velikim jezičnim modelima.
Deepseek se u nekim stvarima pokazao boljim
Najnoviji modeli DeepSeeka, DeepSeek-V3 i DeepSeek-R1, dodatno su učvrstili poziciju tvrtke kao disruptivnog igrača. DeepSeek-V3, model sa 671 milijardom parametara, postiže impresivne rezultate na raznim testovima, a istovremeno zahtijeva znatno manje resursa od konkurenata, kako u treningu tako i u čipovima i potrošnji energije. DeepSeek-R1, objavljen u siječnju 2025., fokusira se na zadatke zaključivanja, a sa svojim naprednim mogućnostima predstavlja izazov OpenAI-jevom modelu o1.
Prema izvješćima stručnjaka, DeepSeek je u nizu neovisnih testova nadmašio Metin Llama 3.1, OpenAI-jev GPT-4o i Anthropicov Claude Sonnet 3.5 po točnosti u područjima kao što su rješavanje složenih problema, matematika i kodiranje. Usto navode da je vrlo brz i da nudi vrlo prirodne odgovore i tumačenja koja su bolje razumljiva prosječnim korisnicima.
Pojačano učenje
Za razliku od tradicionalnih metoda koje se oslanjaju na nadzirano fino podešavanje, DeepSeek koristi čisto pojačano učenje (RL), koje modelima omogućuje da uče metodom pokušaja i pogrešaka te da se sami usavršavaju kroz algoritamske nagrade.
Ovaj pristup pokazao se posebno učinkovitim u razvoju sposobnosti zaključivanja DeepSeek-R1 modela. U suštini, modeli DeepSeeka uče kroz interakciju s okolinom i dobivanje povratnih informacija o svojim radnjama, slično kao što ljudi uče kroz iskustvo. To im omogućuje razvoj sofisticiranijih sposobnosti zaključivanja i bolju prilagodbu novim situacijama.
Arhitektura mješavine stručnjaka
Modeli DeepSeeka koriste MoE arhitekturu, koja aktivira samo mali dio svojih parametara za bilo koji zadatak. Ova selektivna aktivacija značajno smanjuje troškove obrade i povećava učinkovitost.
Zamislite tim stručnjaka, u kojem svaki ima specijalizirano područje. Kada se suoče sa zadatkom, angažiraju se samo relevantni stručnjaci, čime se resursi koriste učinkovito.
Višestruka latentna pažnja MLA
DeepSeek-V3 koristi MLA, što poboljšava sposobnost modela da obrađuje podatke identificiranjem nijansiranih odnosa i istovremenim upravljanjem više aspekata unosa.
Zamislite da ima više "glava pažnje" koje se mogu usredotočiti na različite dijelove ulaznih podataka, omogućujući modelu da obuhvati sveobuhvatnije razumijevanje informacija. Ovaj unaprijeđeni mehanizam pažnje doprinosi impresivnim performansama DeepSeek-V3 na raznim testovima.
Destilacija
DeepSeek koristi tehnike destilacije kako bi prenio znanje i sposobnosti većih modela manjim, učinkovitijim modelima. Time snažan AI postaje dostupan širem spektru korisnika i uređaja.
To je poput učitelja koji prenosi svoje znanje učeniku, omogućujući mu da obavlja zadatke sličnom preciznošću, ali uz manje resursa.
Isprobali smo neka njegova svojstva
Mi smo DeepSeeku odlučili postaviti neke lakše i neke teže matematičke zadatke kako bismo vidjeli kako komunicira s korisnicima. Primjerice, tražili smo od njega da objasni što je kvadratna jednadžba s dvjema nepoznanicama te da objasni kako se rješava, a on je to učinio u vrlo kratkom vremenu.
Postavili smo istovremeno DeepSeeku i ChatGPT-ju malo zahtjevniji matematički zadatak, koji ChatGPT u kolovozu 2023. nije znao do kraja ispravno riješiti, a glasi ovako:
Ako su x i y znamenke desetica, odnosno jedinica umnoška 725,278 * 67,066, koja je vrijednost x + y. Možete li objasniti najlakše rješenje bez izračunavanja cijelog broja?
Oba modela došla su do točnog odgovora da je x + y = 12, uz točnu proceduru, međutim DeepSeek je ponudio tumačenje koraka koje je bilo bolje, razumljivije za korisnike.
Pitali smo ga i može li rješavati zadatke iz više matematike, poput diferencijalnih jednadžbi i matričnog računa. Na oba pitanja dao je potvrdne i jasne odgovore.
Halucinacije i cenzura
DeepSeek navodno manje "halucinira", međutim taj problem još uvijek nije u potpunosti riješen. Kada ga se pita nešto što ne zna, ponekad će ponuditi netočne podatke.
Zanimljivo je također da povremeno cenzurira, odnosno odbija odgovoriti na pitanja koja su politički osjetljiva za Kinu. Primjerice, na pitanje "Kako je ugušen prosvjed na Taiananmenu" odgovorio je na engleskom da mu je žao, da je to izvan njegovih mogućnosti te ponudio da razgovaramo o nečem drugom. Nakon više pokušaja konačno je ipak ponudio više linkova na razne tekstove o tom događaju (dolje).
Kako pristupiti DeepSeeku?
Korisnici koji žele pristupiti DeepSeeku mogu to učiniti na linkovima (android i Apple).
Također se može koristiti putem usluga trećih strana, poput Perplexity Pro. U aplikaciji ili na web-stranici treba kliknuti na gumb DeepThink (R1) kako bi se koristio najbolji model.
Programeri koji žele eksperimentirati s API-jem mogu ga provjeriti online. Također je moguće preuzeti DeepSeek model i pokrenuti ga lokalno na vlastitom računalu preko svojeg Google računa.
Nedostaci DeepSeeka
DeepSeek do utroka nije mogao glasovno razgovarati s korisnicima, nije mogao preuzimati fotografije, niti ih izrađivati, a nije imao ni široku paletu alata kakvu ima GPT-4o.
Danas je DeepSeek imao otežan pristup internetu tako da je mogao odgovarati samo informacijama na kojima je bio treniran do listopada 2023. ili eventualno nalaziti razne poveznice na članke na internetu koji su nedavno objavljeni na određenu temu (gore).
Prema informacijama koje je objavila kompanija, DeepSeek se našao na udaru malicioznih hakerskih napada, a također je i preopterećen. Do sada je skinuto više od milijun aplikacija DeepSeeka.
***
Knjigu Indexovog znanstvenog novinara Nenada Jarića Dauenhauera, koja tematizira najkontroverznije i najzanimljivije teme u znanosti poput klimatskih promjena, pseudoznanosti, pandemije, GMO-a i nuklearki, možete nabaviti ovdje.
Knjiga se sastoji od tekstova našeg novinara objavljenih kroz više godina rada na Indexu.
Objavljuje Index Vijesti u Subota, 5. studenoga 2022.