Objavljeno:

Umetna inteligenca in slovenski jezik

Medijske predstavitve orodij umetne inteligence so pogosto senzacionalistične in negativistične, saj novinarji in splošna javnost v splošnem slabše razumejo delovanje novih tehnologij. Umetna inteligenca seveda prinaša tudi mnoge nevarnosti, vendar so te pogosto predstavljene skozi prizmo popularne kulture, zlasti filmov, kjer umetna inteligenca skoraj praviloma predstavlja grožnjo človeštvu. Kot je nekoč zapisal Arthur C. Clarke, “vsaka dovolj napredna tehnologija je neločljiva od magije”. Magija pa praviloma pomeni nekaj slabega, kajne?

V resnici pa na tehnologije umetne inteligence lahko gledamo kot na orodje. Orodje, ki je lahko uporabljeno za nekaj dobrega, ali orodje, ki je lahko uporabljeno za nekaj slabega. V tokratnem prispevku si bomo pogledali, kako je tehnologije umetne inteligence mogoče uporabiti za ohranjanje in digitalizacijo slovenskega jezika.

Jezikovni viri in tehnologije za slovenski jezik

Za razvoj in preživetje jezika je v današnjem času zelo pomemben razvoj jezikovnih tehnologij.

Skupina slovenskih raziskovalcev je zato leta 2019 pričela delati na projektu Razvoj slovenščine v digitalnem okolju, v okviru katerega razvijajo metode za analizo jezika, metode večjezičnosti ter metode za izboljšanje bralne pismenosti v digitalnem okolju.

Vse razvite tehnologije so na voljo pod odprtimi licencami, raziskovalci pod vodstvom Simona Kreka, med katerimi so tudi moji sodelavci, pa so jih postavili na demonstracijskem portalu slovenščina.eu. Na hitro si poglejmo, kaj so pripravili.

Prepoznavanje govora

Na demonstracijskem portalu je sicer na voljo več modulov, osebno sem se odločil preskusiti Razpoznavalnik, ki omogoča avtomatsko transkripcijo govora.

Demonstracijska spletna stran ima omejitev, in sicer omogoča samo transkripcijo 300 sekund (5 minut) govora, a za testiranje je to povsem dovolj. Kdor želi več, si lahko vso potrebno kodo brezplačno prenese in namesti iz Githuba.

Za test sem pognal avtomatsko transkripcijo mojega predavanja iz leta 2017 z naslovom Phonebusters - kako varni so v resnici mobilni telefoni (objavljeno je na portalu Videolectures.net.

Iz videoposnetka je bilo najprej treba izločiti zvok ter nato odrezati prvih 5 minut govora, kar lahko preprosto storimo z orodjem ffmpeg:

ffmpeg -i predavanje.mp4 -ac 2 -f wav predavanje.wav

ffmpeg -ss 1 -t 300 -i predavanje.wav predavanje300.wav

Datoteko predavanje300.wav nato naložimo na Razpoznavalnik, in čarovnija se lahko začne.

Razpoznavalnik na slovenscina.eu

Razpoznavalnik na slovenscina.eu.

Rezultat sploh ni slab, a poglejmo, če se ga da še izboljšati.

Za hitro rešitev za izboljšanje bomo zaprosili kar umetno inteligenco, tokrat ChatGPT.

ChatGPT smo zaprosili za pomoč pri povečanju razumljivosti besedila

ChatGPT smo zaprosili za pomoč pri povečanju razumljivosti besedila.

Pri tem je potrebno povedati, da kot nadomestek ChatGPT že obstajajo kvalitetne odprtokodne alternative, ki jih lahko poganjamo na lastni infrastrukturi. Vendar pa jih je potrebno namestiti, zato bo za hiter test ChatGPT povsem zadostoval.

Poravnan in izboljšan tekst

Poravnan in izboljšan tekst.

Kot vidimo, je besedilo tokrat še bistveno bolj berljivo in pravzaprav potrebno res minimalnih popravkov.

Za konec pa lahko storimo še nekaj drugega. Besedilo, ki ga je izboljšal ChatGPT prekopiramo v Wikifier, ki je še eno izmed orodij umetne inteligence, ki ga razvijajo moji sodelavci iz Laboratorija za umetno inteligenco.

Wikifier besedilo analizira in iz njega izlušči ključne besede (in to v več jezikih), na podlagi česar lahko potem besedilo samodejno klasificiramo oz. ugotovimo tematiko predavanja.

Klasifikacija besedila z Wikifierjem

Klasifikacija besedila z Wikifierjem.

Na koncu besedilo prekopiramo še v prevajalnik na slovenscina.eu in ga prevedemo v angleščino.

Samodejni prevod besedila v angleščino

Samodejni prevod besedila v angleščino.

Za prevod v šoli morda res ne bi dobili čiste petice, vendar pa je za tiste, ki slovenskega jezika ne razumejo povsem zadovoljiv, da se seznanijo z vsebino predavanja.

Vse to z zgolj nekaj kliki in z brezplačnimi orodji!

In prihodnost?

V bližnji prihodnosti si ni težko zamisliti sistema, ki bi imel ta orodja že povsem integrirana in bi vsak videoposnetek samodejno podnaslovil, hkrati pa ponudil še možnost prikaza podnapisov v angleškem jeziku. In to na vašem telefonu.

Namesto ChatGPT bi lahko že danes uporabili Vicuna, ki dosega 90% kvalitete GPT-4 in je odprtokoden, za ostale jezike pa si lahko ogledamo Massively Multilingual Speech (MMS) projekt, ki že sedaj podpira transkribiranje več kot 1100 jezikov. In da, Wikifier trenutno podpira že 138 jezikov.

S takšnimi projekti je prihodnost slovenskega jezika svetla. Hkrati pa vsi ti projekti kažejo, da so orodja umetne inteligence lahko v praksi zelo uporabna tudi za običajne smrtnike.

Je sistem mogoče zlorabiti oziroma ali prinaša kakšne nevarnosti? Gotovo da. Enako kot tudi avtomobili in avtobusi prinašajo številne nevarnosti. A prednosti odtehtajo in zato se danes ne pogovarjamo o prepovedi avtomobilov in avtobusov, čeprav se zavedamo nevarnosti prometnih nesreč.

Podobno velja tudi za umetno inteligenco. Gotovo je potrebna regulacija (za kar bo med drugim poskrbel tudi Artificial Intelligence Act, ki ga pripravlja EU). A tehnologije umetne inteligence prinašajo številne koristi, in prav je, da spodbujamo uporabo tehnologije za dobre namene, omejujemo pa njene zlorabe.

Kategorije: Odprta koda, Informacijska tehnologija
Ključne besede: jezikoslovje, umetna inteligenca