Sljedeća velika stvar su AI alati koji mogu obavljati složenije zadatke. Evo kako će raditi.
Kada je ChatGPT prvi put pušten, svi u svijetu AI-a su pričali o novoj generaciji AI asistenata. Ali tokom protekle godine, to uzbuđenje se preusmjerilo na novi cilj: AI agenti.
Agenti su bili istaknuti na Googleovoj godišnjoj I/O konferenciji u maju, kada je kompanija predstavila svog novog AI agenta zvanog Astra, koji korisnicima omogućava interakciju putem zvuka i videa. Novi OpenAI-ov GPT-4o model također je nazvan AI agentom.
I nije sve samo hype, iako toga definitivno ima. Tehnološke kompanije ulažu ogromne sume novca u stvaranje AI agenata, a njihovi istraživački napori bi mogli dovesti do vrste korisnog AI o kojem sanjamo decenijama. Mnogi stručnjaci, uključujući Sama Altmana, kažu da su oni sljedeća velika stvar.
Ali šta su oni? I kako ih možemo koristiti?
Kako se definišu? Još uvijek su rana istraživanja u vezi s AI agentima i ovo polje nema konačnu definiciju za njih. Ali jednostavno rečeno, oni su AI modeli i algoritmi koji mogu autonomno donositi odluke u dinamičnom svijetu, kaže Jim Fan, viši istraživač u Nvidiji koji vodi inicijativu AI agenata u kompaniji.
Velika vizija za AI agente je sistem koji može izvršavati širok spektar zadataka, slično ljudskom asistentu. U budućnosti bi vam mogao pomoći da rezervišete odmor, ali će također pamtiti da volite luksuzne hotele, tako da će vam predlagati samo hotele sa četiri zvjezdice ili više, i onda će rezervisati onaj koji odaberete iz ponuđenih opcija. Također će vam predložiti letove koji najbolje odgovaraju vašem kalendaru i planirati itinerar vašeg putovanja prema vašim preferencijama. Mogao bi napraviti listu stvari za spakiranje na osnovu tog plana i vremenske prognoze. Mogao bi čak poslati vaš itinerar prijateljima za koje zna da žive na vašoj destinaciji i pozvati ih da vam se pridruže. Na radnom mjestu, mogao bi analizirati vaš to-do list i izvršavati zadatke s njega, kao što su slanje pozivnica za sastanke, memoranduma ili e-mailova.
Jedna vizija za agente je da su multimodalni, što znači da mogu obrađivati jezik, zvuk i video. Na primjer, u Googleovoj Astra demonstraciji, korisnici su mogli uperiti kameru pametnog telefona na stvari i postavljati agentu pitanja. Agent bi mogao odgovarati na tekstualne, zvučne i video ulaze.
Ovi agenti bi također mogli olakšati procese za preduzeća i javne organizacije, kaže David Barber, direktor Centra za umjetnu inteligenciju Univerzitetskog koledža u Londonu. Na primjer, AI agent bi mogao funkcionisati kao sofisticiraniji bot za korisničku podršku. Trenutna generacija asistenata baziranih na jezičkim modelima može samo generisati sljedeću vjerovatnu riječ u rečenici. Ali AI agent bi imao sposobnost da autonomno izvršava zadatke prema prirodnim jezičkim komandama i obrađuje zadatke korisničke podrške bez nadzora. Na primjer, agent bi mogao analizirati e-mailove s pritužbama kupaca, zatim provjeriti referentni broj kupca, pristupiti bazama podataka poput sistema za upravljanje odnosima s kupcima i sistema za isporuku kako bi provjerio da li je pritužba opravdana, i obraditi je prema politikama kompanije, kaže Barber.
Uopšteno govoreći, postoje dvije različite kategorije agenata, kaže Fan: softverski agenti i inkarnirani agenti.
Softverski agenti rade na računarima ili mobilnim telefonima i koriste aplikacije, kao u primjeru putničkog agenta iznad. “Ti agenti su vrlo korisni za kancelarijski rad ili slanje e-mailova ili održavanje lanca događaja,” kaže on.
Inkarnirani agenti su agenti koji se nalaze u 3D svijetu kao što je video igra, ili u robotu. Ovakvi agenti bi mogli učiniti video igre zanimljivijima omogućujući ljudima da igraju s likovima koje kontrolira AI. Ovakvi agenti bi također mogli pomoći u izgradnji korisnijih robota koji bi nam mogli pomoći u svakodnevnim poslovima kod kuće, kao što je slaganje veša ili kuhanje obroka.
Fan je bio dio tima koji je izgradio inkarniranog AI agenta zvanog MineDojo u popularnoj računalnoj igri Minecraft. Koristeći ogromnu količinu podataka prikupljenih s interneta, Fanov AI agent je mogao naučiti nove vještine i zadatke koji su mu omogućili da slobodno istražuje virtualni 3D svijet i izvršava složene zadatke kao što je ograđivanje lama ili skupljanje lave u kantu. Video igre su dobri predstavnici stvarnog svijeta, jer zahtijevaju od agenata da razumiju fiziku, razmišljanje i zdrav razum.
U novom radu, koji još nije recenziran, istraživači s Princetona kažu da AI agenti obično imaju tri različite karakteristike. AI sistemi se smatraju “agentnim” ako mogu slijediti teške ciljeve bez da su instruirani u složenim okruženjima. Također se kvalifikuju ako mogu biti instruirani na prirodnom jeziku i djelovati autonomno bez nadzora. I na kraju, termin “agent” se može odnositi na sisteme koji su sposobni koristiti alate, kao što su pretraga interneta ili programiranje, ili su sposobni za planiranje.
Jesu li oni nova stvar? Termin “AI agenti” postoji već godinama i značio je različite stvari u različitim vremenima, kaže Chirag Shah, profesor računalnih nauka na Univerzitetu Washington.
Postojale su dvije faze agenata, kaže Fan. Trenutna faza je zahvaljujući procvatu jezičkih modela i usponu sistema kao što je ChatGPT.
Prethodna faza je bila 2016. godine, kada je Google DeepMind predstavio AlphaGo, svoj AI sistem koji može igrati – i pobijediti – igru Go. AlphaGo je bio sposoban donositi odluke i planirati strategije. To se oslanjalo na tehnike učenja pojačanja, koja nagrađuje AI algoritme za poželjna ponašanja.
“Ali ti agenti nisu bili generalni,” kaže Oriol Vinyals, potpredsjednik istraživanja u Google DeepMind-u. Bili su stvoreni za vrlo specifične zadatke – u ovom slučaju, igranje Goa. Nova generacija AI baziranih na temeljnim modelima čini agente univerzalnijima, jer mogu učiti iz svijeta s kojim ljudi interaguju.
“Osjećate mnogo više da model interaguje sa svijetom i onda vam daje bolje odgovore ili bolju pomoć ili slično,” kaže Vinyals.
Koja su ograničenja? Još uvijek postoje mnoga otvorena pitanja koja treba riješiti. Kanjun Qiu, CEO i osnivač AI startupa Imbue, koji radi na agentima koji mogu razmišljati i programirati, uspoređuje stanje agenata sa stanjem samovozećih automobila prije nešto više od deset godina. Oni mogu nešto raditi, ali su nepouzdani i još uvijek nisu stvarno autonomni. Na primjer, agent za programiranje može generisati kod, ali ponekad pogriješi i ne zna kako testirati kod koji stvara, kaže Qiu. Dakle, ljudi još uvijek moraju biti aktivno uključeni u proces. AI sistemi još uvijek ne mogu u potpunosti razmišljati, što je ključni korak u radu u složenom i nejasnom ljudskom svijetu.
“Nismo ni blizu da imamo agenta koji može automatski obavljati sve te poslove za nas,” kaže Fan. Trenutni sistemi “haluciniraju i također ne slijede uvijek upute pažljivo,” kaže Fan. “I to postaje iritantno.”
Još jedno ograničenje je da AI agenti nakon nekog vremena izgube trag onoga na čemu rade. AI sistemi su ograničeni svojim kontekstualnim prozorima, što znači količinu podataka koju mogu uzeti u obzir u bilo kojem trenutku.
“ChatGPT može programirati, ali nije sposoban dobro raditi s dugim sadržajem. Ali za ljudske programere, mi gledamo cijeli GitHub repozitorij koji ima desetine ako ne i stotine linija koda i nemamo problema s navigacijom