ChatGPT odsad podržava glasovne razgovore i upite bazirane na fotografijama
Korisnici će moći voditi glasovni razgovor s ChatGPT-om na uređajima koji koriste operativne siseme Android i iOS, ali i koristiti fotografije kao način upita. Kompanija OpenAI, koja stoji iza ovog chatbota, već je lansirala nadogradnje koje će u početku biti dostupne Plus i Enterprise korisnicima, a potom i ostalima.
Za isprobavanje opcije glasovnih razgovora u ChatGPT aplikaciji potrebno je odabrati Settings - New Features, a dodir dugmeta mikrofona će biti moguće odabrati jedan od pet različitih glasova.
Iz kompanije OpenAI kažu da dvosmjerne glasovne razgovore omogućava novi text-to-speech model koji iz teksta stvara "zvuk poput ljudskog glasa i svega nekoliko sekundi uzorka govora". Kompanija je kreirala pet glasova uz pomoć profesionalnih glumaca, a njen Whisper sistem prepoznavanja govora pretvara riječi koje je korisnik izgovorio u tekst.
Zanimljiva je i funkcija koja se odnosi na fotografije. OpenAI navodi da korisnik može pokazati chatbotu fotografiju npr. svog roštilja te postaviti pitanje zašto neće da se upali, a moguće je dobiti prijedlog jela na osnovu namirnica fotografisanih u frižideru. Također, može se zatražiti riješenje matematičkog problema koji se fotografiše.
U međuvremenu je kompanija Microsoft istakla mogućnosti Copilot AI interfejsa da riješi matematički problem u Windowsu.
OpenAI koristi GPT-3-5 i GPT-4 da omogući prepoznavanje fotografija. Za korištenje ove opcije, potrebno je dodirnuti dugme za fotografiju, odnosno ikonicu "plus" na iOS-u i Androidu, a potom izabrati postojeću fotografiju na uređaju ili napraviti novu. Također, moguće je postavljati pitanja ChatGPT-u o više fotografija te koristiti alat za crtanje kako bi se fokus stavio na određeni dio fotografije.
S druge strane, OpenAI je upozorio na moguću zloupotrebu. Loši glumci mogu oponašati glasove javnih ličnosti i "običnih" ljudi te potencijalno počiniti prevaru. Zbog toga se OpenAI fokusira na ChatGPT glasovne razgovore i radi s odabranim partnerima na drugom ograničenim slučajevima korištenja.
Što se tiče fotografija, OpenAI je sarađivao kreatorima aplikacije Be My Eyes, koja pomaže slabovidnim osobama da se bolje snalaze u svojoj okolini. Ovo funkcioniše zahvaljujući volonterima koji se uključuju u videopozive s njima.
OpenAI je ograničio način na koji ChatGPT može analizirati i davati direktne tvrdnje o ljudima koji se pojavljuju na fotografijama jer "nije uvijek precizan, a ovi sistemi moraju poštovati privatnost pojedinaca".
Treba reći i da ChatGPT bolje razumije engleski jezik na fotografijama nego druge jezike, bar zasad.
U međuvremenu se Spotify udružio s kompanijom OpenAI s ciljem korištenja tehnologije bazirane na glasu u interesantnu svrhu. Spotify je predstavio alat Voice Translation, koji prevodi podcaste na različite jezike.