Zamislite test toliko težak da čak i najpametniji ljudi na svetu zastanu pred nekim pitanjima. Sada zamislite da taj test dajete veštačkoj inteligenciji (AI) – i da ona, uprkos svom ogromnom znanju, ipak ne uspe da prođe s visokom ocenom. Upravo to je ideja iza „Poslednjeg ispita čovečanstva“ (Humanity's Last Exam, HLE), novog izazova koji gura AI do krajnjih granica i pokazuje koliko su ovi sistemi zapravo napredovali – ili koliko još treba da da napreduju da bi postali „pametnijim“ od nas.
Slika 1. AI se takmiče koji će bolje da reši najteža moguća pitanja koje je postavio čovek.
Šta je „Poslednji ispit čovečanstva“?
HLE je najnoviji benchmark (reperni) test za ocenjivanje sposobnosti naprednih jezičkih modela veštačke inteligencije (LLM). Ovaj test, razvijen u saradnji Centra za bezbednost veštačke inteligencije (Center for AI Safety) i kompanije Scale AI, sadrži 2.500 izuzetno teških pitanja iz oblasti kao što su matematika (41%), fizika (9%), biologija i medicina (11%), društvene nauke (9%), računarske nauke (10%), hemija (7%), inženjerstvo (4%) i druge discipline. Pitanja su sastavili stručnjaci – profesori, istraživači i doktoranti – iz preko 500 institucija širom sveta, a inspiracija za test potekla je iz razgovora između istraživača Dana Hendrycksa i Elona Muska, koji je smatrao da su postojeći testovi, poput MMLU, postali previše laki za današnje AI modele.
Slika 2: Top lista usešnosti u rešavanjau testa: Poslednji ispit čovečanstva. Prvih 10 AI na zvaničnoj stranici za rangiranje AI (https://scale.com/leaderboard).
Za razliku od starijih testova, HLE je dizajniran da bude pravi izazov. Dok savremeni AI modeli postižu preko 90% tačnosti na testovima poput MMLU, na HLE-u trenutno postižu manje od 10% tačnih odgovora. Pitanja su raznovrsna: 24% su pitanja sa višestrukim izborom, dok su ostala kratki odgovori, a 14% pitanja uključuje slike pored teksta, što zahteva sposobnost razumevanja vizuelnih informacija. Na primer, jedno od pitanja pita koliko parova tetiva podržava određena kost u kolibrićima – ne baš nešto što možete brzo „proguglati“!
HLE nije samo test znanja; on proverava sposobnost AI da razmišlja na nivou stručnjaka i otkriva koliko su ovi modeli sigurni u svoje odgovore – često previše sigurni, čak i kada greše. Test takođe ima privatni deo pitanja kako bi se sprečilo „prekomerno učenje“ modela, odnosno njihovo prilagođavanje samo za ovaj test.
Koliko su AI modeli napredovali?
Sada dolazimo do zanimljivog dela: kako se današnji AI modeli snalaze na ovom „poslednjem ispitu“? Ukratko – nisu baš najbolji učenici. Prema najnovijim podacima, najnapredniji modeli, uključujući OpenAI-jev GPT-4o, Anthropic-ov Claude 3.5 Sonnet i Google-ov Gemini 1.5 Pro, postižu tačnost ispod 10%. Međutim, postoje naznake brzog napretka. Na primer, OpenAI-jev model „Deep Research“ postigao je 26,6% tačnosti na HLE-u, što je značajan skok u odnosu na 8,3% koliko je najbolji model postizao samo deset dana ranije!
Ovaj brzi napredak pokazuje koliko brzo AI evoluira. Istraživači predviđaju da bi do kraja 2025. godine najbolji modeli mogli dostići 50% tačnosti na HLE-u, što bi značilo da su dostigli nivo znanja i razmišljanja stručnjaka u mnogim oblastima. Ipak, čak i ako AI postigne visoku tačnost na HLE-u, to ne znači da je dostigao „opštu veštačku inteligenciju“ (AGI). HLE testira zatvorena akademska pitanja, ali ne proverava sposobnosti poput kreativnog rešavanja problema ili samostalnog istraživanja.
Grok 4
Pre par dana Elon Muskova kompanije X je objavila najnoviju i izgleda najjaču AI koja navodno doseže rezultat od 40% na LHE testu. Čekamo da se rezultati pojave na zvaničnoj stranici za rangiranje AI (https://scale.com/leaderboard)
Zašto je HLE važan?
HLE nije samo još jedan od mnogih testova za AI; on je alat koji pomaže naučnicima i donosiocima odluka da razumeju gde se trenutno nalazimo u razvoju veštačke inteligencije i koji su sledeći koraci. Dok stariji benchmarkovi (reperni testovi) poput MMLU postaju „zasićeni“ jer AI lako postiže visoke rezultate, HLE pokazuje da još uvek postoje oblasti gde modeli zaostaju za ljudskim stručnjacima. Osim toga, otkriva problem prekomerne sigurnosti AI modela – oni često daju pogrešne odgovore s velikim samopouzdanjem, što može biti rizično u stvarnim aplikacijama.
Naziv „Poslednji ispit čovečanstva“ zvuči dramatično, ali ima smisla: ako AI jednog dana počne da rešava sva pitanja na ovom testu, možda više nećemo moći da smislimo testove koji su dovoljno teški za njega. Zapravo, već imamo situaciju po rečima Elona Musak, da nam ponestaju teška pitanja. To bi mogao biti znak da smo stigli do prekretnice u razvoju AI – trenutka kada mašine počinju da nadmašuju ljudsko znanje u gotovo svim oblastima.
Šta dolazi sledeće?
Iako AI modeli trenutno „padaju“ na HLE-u, istorija pokazuje da se testovi brzo prevazilaze. Pre samo nekoliko godina, najbolji modeli postizali su manje od 10% na testu matematike (MATH), a sada dostižu preko 90%. HLE je možda poslednji akademski test koji ljudi mogu da naprave pre nego što AI počne sam da postavlja pitanja. Do tada, HLE ostaje ključni pokazatelj granica veštačke inteligencije i podsetnik da, koliko god AI bio moćan, još uvek ima prostora za učenje.
Ako želite da vidite neka od pitanja potražiite na sajtu lastexam.ai.
Trenutnе rezultate koje postižu razni AI možete videti OVDE