
ChatGPT sve više laže, a niko nema objašnjenje zašto
Najnoviji modeli veštačke inteligencije OpenAI kompanije sve više izmišljaju netačne informacije, a stručnjaci nemaju objašnjenje za ovaj zabrinjavajući trend. Najpre, o čemu se radi?
Prema izveštaju Njujork Tajmsa, istraživanje OpenAI-a otkrilo je da njihovi najnoviji ChatGPT modeli (o3 i o4-mini) znatno češće haluciniraju, odnosno izmišljaju lažne informacije, nego prethodni GPT o1 model.
Brojna testiranja pokazala su zabrinjavajući trend. O3, koji je najmoćniji sistem kompanije, halucinirao je u čak 33% slučajeva tokom PersonQA testa koji postavlja pitanja o javnim ličnostima. To je više nego dvostruko veća stopa halucinacije od prethodnog OpenAI sistema za zaključivanje, o1. Novi o4-mini model pokazao se još lošijim sa stopom halucinacije od 48%.
Još alarmantniji su rezultati drugog testa. Prilikom SimpleQA testa, koji postavlja opštija pitanja, stope halucinacije za o3 i o4-mini bile su čak 51% odnosno 79%. Prethodni sistem, o1, halucinirao je u 44% slučajeva.
"Razmišljajući" modeli prave više grešaka nego ikad
Ono što dodatno zbunjuje stručnjake je činjenica da su upravo najnapredniji AI modeli ti koji imaju sve veći problem sa halucinacijama. Najnovije i najmoćnije tehnologije — takozvani sistemi za zaključivanje kompanija poput OpenAI, Google i kineskog startapa DeepSeek — generišu više grešaka umesto manje.
Da bismo razumeli o čemu se radi, važno je objasniti šta su to "reasoning" ili modeli za zaključivanje. Jednostavno rečeno, ovi modeli su vrsta jezičkih modela (LLM) dizajnirani za obavljanje složenih zadataka. Umesto da samo izbacuju tekst na osnovu statističkih modela verovatnoće, modeli za zaključivanje razbijaju pitanja ili zadatke na pojedinačne korake slično ljudskom procesu razmišljanja.
OpenAI-jev prvi model za zaključivanje, o1, pojavio se prošle godine i tvrdilo se da dostiže performanse doktorskih studenata fizike, hemije i biologije, a nadmašuje ih u matematici i kodiranju zahvaljujući tehnikama reinforcement learning-a.
U sistemu za testiranje, OpenAI je objavio tabelu koja pokazuje da ChatGPT o3 jeste tačniji od o1, ali će halucinirati dvostruko češće. Što se tiče o4-mini, ovaj manji model će proizvoditi manje tačne odgovore od o1 i o3, i halucinirati tri puta više od o1.
Antropomorfizacija AI modela i kako to utiče na korisno iskustvo
Iako kompanija i dalje istražuje uzroke, postoje neke teorije. Istraživačka grupa Transluce otkrila je da o3 model izmišlja radnje koje navodno preduzima dok pokušava da reši zadatke. U jednom primeru, o3 je tvrdio da koristi MacBook Pro iz 2021. godine "izvan ChatGPT-a" za izračunavanje, a zatim kopira brojeve u svoj odgovor, što je potpuno izmišljeno.
Jedna hipoteza koju je predložio Nil Čaudri, istraživač iz Transluce-a i bivši zaposleni u OpenAI-u, glasi: "Naša hipoteza je da vrsta reinforcement learninga koja se koristi za o-seriju modela može pojačati probleme koji se obično ublažavaju (ali ne i potpuno brišu) standardnim post-trening procesima."
Ipak, OpenAI negira da je problem sistemski. "Halucinacije nisu inherentno rasprostranjenije u modelima za zaključivanje, iako aktivno radimo na smanjenju viših stopa halucinacije koje smo videli u o3 i o4-mini," izjavila je Gabi Rajla iz OpenAI-a za Tajms.
Kako problem halucinacija utiče na korisnost AI alata
Neodgovorno bi bilo ignorisati zabrinjavajući trend povećanja halucinacija u najnovijim AI modelima, što značajno umanjuje njihovu praktičnu vrednost. Šta god bila istina, jedno je sigurno. AI modeli moraju uglavnom da izbace besmislice i laži ako žele da budu bilo gde blizu korisni kao što njihovi zagovornici trenutno zamišljaju. Trenutno je teško verovati izlazu bilo kog LLM-a. Praktično sve mora pažljivo da se dvostruko proveri.
To je u redu za neke zadatke. Ali tamo gde je glavna korist ušteda vremena ili rada, potreba za pažljivim proveravanjem i činjeničnom proverom AI rezultata zapravo poništava svrhu njihovog korišćenja.
Ne zna se da li će OpenAI i ostatak LLM industrije uspeti da reše sve te neželjene "robotske snove", ali jedno je sigurno - put ka pouzdanoj veštačkoj inteligenciji koja ne izmišlja činjenice očigledno je duži nego što smo očekivali.
(Telegraf.rs)
Video: Darko Lazić uhvatio Kaću pred gostima, onda pomenuo alkohol, ona se okrenula i otišla
Telegraf.rs zadržava sva prava nad sadržajem. Za preuzimanje sadržaja pogledajte uputstva na stranici Uslovi korišćenja.