Bosna i Hercegovina prvi put dobija nacionalni korpus tekstova: Otkrivamo šta znači za nauku i državu

Voditelj projekta je prof. dr. Vedad Smailagić, profesor germanističke lingvistike na Filozofskom fakultetu u Sarajevu, a u projekat su uključeni prof. dr. Amila Akagić sa Elektrotehničkog fakulteta i dr. Zenaida Karavdić sa Instituta za jezik te 11 studenta Filozofskog i Elektrotehničkog fakulteta UNSA.
"BHNC se izgrađuje kao bosanskohercegovački nacionalni korpus, a takav jedan korpus je, drugačije rečeno, velika baza nacionalnih tekstova raznih vrsta od novinskih, književnih, zakonskih, parlamentarnih debata i slično i time ta baza tekstova ili korpus, kako se u lingvistici zove, predstavlja digitalni arhiv pismenost jednoga društva ili jedne govorne zajednice. Time su nacionalni jezički korpusi posebna savremena vrsta nacionalne istraživačke infrastrukture poput nacionalnih biblioteka ili nacionalnih arhiva i već odavno su dio naučnih strategija svih iole naprednih društava", objasnio je Smailagić.

Pojasnio je da su prvi takvi korpusi nastali šezdesetih godina 20. vijeka kada počinje razvoj neophodnih informatičkih tehnologija.
"U najnovije vrijeme značaj jezičkih korpusa je iznimno porastao jer su oni osnova za izgradnju modela vještačke inteligencije (AI). Ovo je vjerovatno bio zadnji trenutak da se bosanskohercegovačka nauka pokuša pridružiti zemljama naprednih tehnologija i zato moramo biti zahvalni Institutu za jezik koji je pokrenuo ovaj projekat. Također treba naglasiti da je razvoj BHNC u ovoj svojoj prvoj fazi uvelike tehnički podržan od kolega sa Univerziteta u Heidelbergu i Darmstadt u Njemačkoj. Njihova naučna, stručna i tehnička podrška mogla bi se do sada procijeniti na 100 hiljada eura, ali bitnije je to da mi u BiH uz podršku kolega iz Njemačke polako uvozimo nove tehnologije i ostvarujemo nove kontakte. BHNC radi na platformi koja se zove CQPWeb a razvijena je na Univerzitetu u Lancesteru i danas se koristi na najboljim svjetskim univerzitetima", objasnio je Smailagić.
Smailagić navodi da su u svojoj osnovnoj namjeni jezički korpusi danas alati za lingvistička istraživanja i prvobitno se koriste za istraživanje gramatike ili leksike nekoga jezika.
"Činjenica je da Bosna i Hercegovina, nažalost, do danas nije imala takav jedan korpus tekstova što znači da smo u ovoj nauci, koja nije neka tehnička nauka, ali i u raznim pravcima društvenih i humanističkih nauka desetljećima iza razvijenijih naučnih sredina. Danas se ne mogu ni rječnici jednog jezika ni gramatike ni pravopisi pisati bez velikih jezičkih korpusa. Svaka publikacija toga ranga bez velikih digitalnih jezičkih korpusa je publikacija sa metodama 19. vijeka i time metodološki zastarjela. Možemo to porediti sa biološkim istraživanjima bez mikroskopa ili astronomskim bez teleskopa, tehničkim bez računara i slično", govori Smailagić.
Istakao je da Veliki digitalni jezički korpusi jednostavno su istovremeno i laboratorija i osnovni instrument moderne lingvistike.
"Do danas su napredovali i tehnologija i lingvistika pa se korpusi sa odgovarajućim informatičkim alatima koriste kako za dublja lingvistička tako i za istraživanja raznih društvenih fenomena koja su sva u suštini arhivirana u tekstovima i time u jeziku. U nauci govorimo npr. o istraživanju povijesti ideja, mentaliteta, kulture, sistema vrijednosti jedne jezičke zajednice. Kada izradimo naše korpuse u planiranom obimu od više milijardi riječi za nekoliko godina, mi ćemo brzim analizama medijskih tekstova bosanskohercegovačkih novina npr. od 2. Svjetskog rata pa do danas moći jako brzo rekonstruirati razvoj našeg povijesnog mentaliteta i sistema vrijednosti te na taj način moći naučno preciznije objasniti mnogo toga o nama o našoj povijesti. Recimo, posao koji bi se inače radio 10 godina klasičnim metodama tj. ručno, uz korištenje ovakve infrastrukture sa digitaliziranim i lingvistički obrađenim tekstovima te pratećim analitičkim alatima i odgovarajućim lingvističkim kompetencijama danas je moguće uraditi za mjesec dana ili dva i to mnogo preciznije i naučno utemeljenije. Jednostavno – centralni elementi povijesti naših društava sačuvani su u višedimenzionalnim jezičkim obrascima i jezičkim elementima koji se u masi ogromne javne komunikacije uopće ne mogu ni uočiti bez super brzih alata za analize tekstova", kazao je Smailagić.
Smailagić je naveo i primjer koliko je bitno da imamo svoje super arhive tekstova i metode za njihovo brzo pregledavanje.
"Prije nekoliko sedmica novinari su pitali ChatGPT da im pojasni aktualnu situaciju u Gazi. Pitali su odvojeno na arapskom i hebrejskom jeziku. I odgovori su bili dosta različiti tj. subjektivni zavisno na kom su jeziku pitanja postavljena. To je zato što se jezikom pitanja kod ChatGPT aktivira određeni jezički arhiv koji ne samo da sadrži različite informacije nego i sasvim različite – kako mi to u lingvistici kažemo – formacije znanja, različite sisteme vrijednosti. U kontekstu Palestine hebrejski jezik baštini jedan sistem znanja, a arapski drugi. Za nas je jako bitno da arhiviramo i omogućimo brze analize naših vlastitih tekstualnih arhiva i rekonstrukciju našeg vlastitog sistema znanja, normi i vrijednosti. Inače će se o nama pisati na osnovu tekstova na drugim jezicima", kazao je Smailagić.
Zašto ih u BiH nije bilo do sada?
"Pa ni zemlje oko nas ne mogu se pohvaliti posebno boljom infrastrukturom za ovakva istraživanja. Jednostavno, poratna naučna indolentnost, inertnost i segmentiranost te fokus na nacionalna a ne naučna lingvistička pitanja vratila su ili zaustavila lingvistiku, ali i druge humanističke i društvene nauke u našoj regiji. Činjenica je da moderne lingvističke discipline poput kompjuterske lingvistike, korpusne lingvistike i diskursne lingvistike praktično ne postoje kod nas i oko nas a one se upravo nauke koje se ili bave razvojem ovih tehnologija ili njenim korištenjem daju smjernice za njihov razvoj. Ta se činjenica mogla do prije 15 godine pravdati ratnim posljedicama, ali danas su to već razlozi subjektivne prirode a među njima naravno i strah od novih tehnologija i vlastiti naučna izoliranost", kazao je Smailagić.
Istakao je da je podrška koju su dobili od nadležnog kantonalnog ministarstva podrazumijevala izgradnju početne baze od 10 miliona tekstnih riječi.
"Za taj cilj Ministarstvo je odobrilo Institutu za jezik sredstva koja su preko 90 posto utrošena na finansiranje rada studenata a ostatak na administrativne stvari poput troškova određenih licenci. Ali mi smo u toku rada uspjeli toliko usavršiti i ubrzati pripremu i obradu tekstova da smo do kraja godine 2024. godine imali već 80 miliona tekstnih riječi i bazu koju naučnici u BiH već koriste za svoja istraživanja. Danas imamo spremnih oko 150 miliona riječi i nekih 400 hiljada tekstova. Bitno je još naglasiti da jako vodimo računa o Zakonu o autorskim pravima, da je korištenje BHNC potpuno besplatno, da ga je moguće koristiti samo u naučne i nastavne svrhe, da je zabranjena svaka vrsta komercijalizacije i da će prema našem konceptu BHNC na platformi CQPWeb koju koristimo biti kvalitetni iskorak u lingvističkoj infrastrukturi u regionu", ističe Smailagić.
Kaže i da smatra da bismo mi obim naših arhiva mogli i mnogo brže povećavati, ali da imamo problem loše serverske infrastrukture u BiH i da su zahvalni zasada kolegama u Darmstadtu koji u razvojnoj fazi potpuno besplatno omogućavaju korištenje njihovih servera.
"Cilj nam je da do kraja 2025. godine imamo nekoliko stotina miliona tekstnih riječi i nadam se na domaćem serveru", kaže Smailagić.
Korištenje vještačke inteligencije
"Velike baze tekstova i njihova lingvistička obrada osnova su za razvoj jezičkih modela (LLM) i modela vještačke inteligencije. Trenutno postoje neki, rekao bih, poluproizvodi u tom pravcu za naš jezik što je razvijeno, mislim, uglavnom u Sloveniji, ali mi radimo pripreme na daljem razvoju tih alata. Upravo okupljamo ekipu mladih, stručnih i jako ambicioznih ljudi za definiranje pravaca razvoja jezičkih modela, a ja lično zadnjih mjeseci uz podršku dvoje studenata radim na razvoju jednog specijalnog AI algoritma sa primjenom u digitalnoj komunikaciji. Vjerovatno postoje u BiH i drugi timovi koja rade slične stvari. U biti, trebaju nam lingvisti skloni informatici i informatičari skloni lingvistici", kazao je Smailagić.
Otkrio je da je ove godine poslan jedan student informatike u Heidelberg i Mannheim među kompjuterske lingviste na kraću obuku kako bismo uz svoju infrastrukturu imali i svoje ljude, a neophodno je da krenemo sa informatičkim obukama lingvista.
"Ja npr. planiram ubrzo u nastavu uključiti korištenje ChatGPT-a i Pythona. Osim toga, planiramo i dalje slati naše mlade ljude na partnerske institute i univerzitete da što prije dođemo do modernih tehnologija i kompetencija i da ojačamo naše veze sa kolegama koji su naučno i tehnološki ispred nas. Želimo, koliko možemo, izgraditi tim mladih ljudi čije ambicije nisu samo da negdje zauzmu neko radno mjesto nego da naprave nešto novo i inovativno. Mislim da su srednje škole mjesto gdje se izgrađuju mentaliteti jednog društva, pa bi bilo jako dobro da nekom reformom školstva u srednjim školama radimo i na mentalitetima budućih generacija – ili drugačije rečeno: treba vratiti humanistiku u gimnazije", naveo je Smailagić.
Koliko Bosna i Hercegovina može parirati na ovom polju
Smailagić ističe da mi ne možemo parirati, ali možemo i moramo surađivati.
"Moramo se nametnuti kao mogući partneri. Prije svega moramo iskreno shvatiti gdje se uopće nalazimo i na koji način i sa kojim ljudima se možemo pokrenuti naprijed. Ne možemo istovremeno sebe hvaliti da smo pametni, pošteni i vrijedni, a za svoje stanje kriviti sve samo ne same nas. U tome smislu uputno je pogledati odlični film Jasmile Žbanić o Emeriku Blumu koji je igrao samo na veliko i oko sebe pravio timove za veliku igru ili kako on na odličnom njemačkom jeziku kaže, da ako želimo biti sa velikima moramo i sami biti veliki, a ti veliki jako dobro znaju razlikovati ko pravi velike stvari, a ko u stvari pravi samo velike vijesti", kazao je Smailagić.
Poručuje da je jako bitna stvar za nas animiranje naše naučne i stručne dijaspore i jačanje svih drugih međunarodnih kontakata kako bismo u što kraćem roku razumjeli gdje uopće imamo šansu da se pomjerimo s mjesta, kako da to uradimo i kako da pokrenemo razvoj nauke i tehnologije.
"Kao što svaki odlazak iz BiH neminovno znači gubitak znanja, tako i svaki povratak u BiH jednog školovanog stručnjaka iz tehnološki najnaprednijih zemalja uvelike ubrzava transfer znanja sa Zapada ka BiH i jačanje međunarodnih kontakata. Možda će nam u skoroj budućnosti u prilog ići i aktualna svjetska dešavanja i praktično prekid decenijske suradnje Evropa i SAD-a. Možda je to prilika da nađemo neko svoj novi prostor u evropskoj naučnoj zajednici", zaključio je Smailagić.