Umjetna inteligencija bez problema prevodi 5.000 godina staro pismo i jezik
Akadski je bio materinji jezik Akadskog Carstva, koje je nastalo oko 2.300 godina prije nove ere kroz osvajanja svog utemeljitelja, Sargona Velikog. Kao govorni jezik, akadski će se s vremenom podijeliti na asirski i babilonski dijalekt prije nego što ga je potpuno potisnuo aramejski početkom prvog tisućljeća prije nove ere. Danas je to doista izumrli jezik, bez jezika koji bi nastavili njegovo nasljeđe.
Međutim, kao pisani jezik, akadski se pokazao trajnijim. Carstvo je posudilo klinasto pismo svoje prethodnice, sumerske civilizacije. Ovaj sistem pisanja koristio je iglu od trske za utiskivanje glifa u obliku klina u vlažne glinene pločice prije pečenja (otuda naziv klinasto pismo). Čak i nakon što je aramejski istisnuo akadski kao zajednički jezik regije, naučnicisu nastavili pisati akadskim klinastim pismom u prvom stoljeću nove ere, čak su i u antici, čini se, naučnici akademici bili nevjerovatno tvrdoglavi.
Ovaj tradicionalni način razmišljanja imao je i nenamjernu korist za moderne arheologe. Dok se klinastim pismom moglo pisati na papirusu, češće se ispisivalo na glini ili kamenu. Ovi materijali puno bolje podnose požare i poplave od drugih materijala.
“Ironično, razorni požari sačuvali su neke od najvećih biblioteka drevne Mezopotamije, jer su bile napravljene od gline. Nasuprot tome, sve biblioteke papirusa starog Egipta izgorjele su ili se raspale u prah, iako su mnogi pojedinačni kodeksi preživjeli,” piše lingvist Steven Roger Fischer u Historiji pisanja.
Čak i s takvim lingvističkim bogatstvom, ispravno prevođenje ovih drevnih tekstova nije mali podvig. Osim već spomenutih izazova, akadski je jezik polivalentan. To jest, njegovi klinasti znakovi mogu imati nekoliko različitih čitanja, ovisno o tome kako svaki funkcionira u rečenici. Postoje mnogi razlozi za ovakav razvoj događaja, ali prema Fischeru, jedan razlog koji Akađani nikada nisu pojednostavili bio je taj što su “izgleda bili vezani uz tradiciju i samonametnutu učinkovitost”. Taj ih je tradicionalni način razmišljanja naveo da nastave koristiti sumersko pismo za jezik koji se jako razlikuje od sumerskog.
Kao takav, prevođenje akadskog je proces u dva koraka. Prvo, naučnici moraju transliterirati klinaste znakove. To jest, oni uzimaju klinasto pismo i prepisuju ga koristeći sličnu fonetiku ciljanog jezika. Naučnici zatim uzimaju svoju transliteraciju teksta i prevode ga na moderan jezik.
To može biti dug i naporan proces, proces za koji su potrebne godine obuke i predanosti kako bi se naučio raditi dobro. Kako bi ubrzao stvari, istraživački tim razvio je model neuralnog mašinskog prevođenja za akadski klinasti zapis, istu tehnologiju pod koju koristi Google Prevoditelj.
Tim je trenirao AI model na uzorku klinastih tekstova iz Open Richly Annotated Cuneiform Corpus i naučio ga da prevodi na dva različita načina. Prvo, AI model naučio je prevoditi akadski iz transliteracija izvornih tekstova. Također je naučio kako direktno prevesti klinaste simbole. Tačnije, preveo je Unicode glifove klinastih tekstova koje je generirao drugi alat za uštedu vremena koji automatski proizvodi Unicode iz slike originalne ploče.
AI model je zatim morao otkriti kako se nositi s nijansama različitih žanrova uzorka, na primjer, razlika između književnih djela i administrativnih pisama , kao i kako se nositi s promjenama pronađenim u klinastom pismu tokom hiljada a korištenja. Model umjetne inteligencije zatim je testiran korištenjem dvojezične evaluacijske podstudije 4 (BLEU4), algoritma koji se koristi za ocjenu mašinski prevedenog teksta.
U svom testu transliteracije na engleski, AI model tima postigao je 37,47. U testu klinastog pisma na engleski postigao je 36,52. Oba su rezultata bila iznad ciljane osnovne vrijednosti i u rasponu visokokvalitetnog prijevoda. I došlo je do iznenađujućeg rezultata: model je uspio reproducirati nijanse žanra svake testne rečenice. Iako to nije bio jedan od ciljeva istraživača, oni u studiji napominju da bi to moglo otvoriti mogućnosti za upotrebu izvan prijevoda.
U gotovo svakom slučaju, bio [prijevod] pravilan ili ne, žanr je prepoznatljiv”, piše tim. "Scenarij budućnosti koji obećava bio bi da [model] korisniku pokaže popis izvora na kojima su temeljili svoje prijevode, što bi također bilo posebno korisno za naučne svrhe."
Tim je svoje rezultate objavio u recenziranom časopisu PNAS Nexus. Također su objavili svoje istraživanje i izvorni kod na GitHubu u Akkademiji.
Budućnost prošlosti izgleda svjetlije
Koliko god početni rezultati bili obećavajući, još uvijek ima posla. U oba slučaja neke od testnih rečenica bile su pogrešno prevedene. Kao i drugi AI modeli, ovaj je sklon halucinacijama, trenucima u kojima odgovor nema veze s izvorom.
U jednom slučaju, ljudski prevoditelj proizveo je rečenicu "Zašto bismo (također) trebali voditi parnicu pred čovjekom iz Libbi-Alija?" AI-jev prijevod je bio "Oni su u unutrašnjosti grada u unutrašnjosti grada."
Sve u svemu, AI model najbolje radi kada prevodi kratke do srednje duge rečenice. Također se bolje snalazi s formuliranijim žanrovima, poput kraljevskih dekreta i administrativnih zapisa, nego s književnim žanrovima poput mitova, himni i proročanstava.
S više obuke na većem skupu podataka, napominju istraživači u studiji, cilj im je poboljšati njihovu tačnost. S vremenom se nadaju da će njihov AI model moći djelovati kao virtualni pomoćnik naučnicima. AI može brzo osigurati neobrađeni prijevod, dok ga naučnik može poboljšati svojim znanjem o historijskim jezicima, kulturama i ljudima.
“Stotine hiljada glinenih pločica ispisanih klinastim pismom dokumentiraju političku, društvenu, ekonomsku i naučnu historiju drevne Mezopotamije. Ipak, većina tih dokumenata ostaje neprevedena i nedostupna zbog njihovog ogromnog broja i ograničene količine stručnjaka koji ih mogu pročitati”, piše tim u studiji, piše Bigthink.com.