Seminar Društva za jezičke resurse i tehnologije, 22. decembar 2016.

Naredni sastanak Seminara biće održan u četvrtak, 22. decembra 2016. u sali 718 Matematičkog fakulteta sa početkom u 18 časova. U okviru sastanka planirana su dva predavanja.

Predavač: Miljana Mladenović

Naslov predavanja: EVALUACIJA SEMANTIČKIH OZNAKA U RUČNO ANOTIRANUM KORPUSIMA

Apstrakt: Anotacija korpusa je postupak kojim se delovima korpusa pridružuju dodatne informacije. Razvoj i ručna anotacija malih delova elektronskih korpusa značajni su zbog primene u metodama nadgledanog mašinskog učenja kojima se generišu modeli automatske anotacije velikih elektronskih korpusa kao i zbog primene u zadacima obrade prirodnog jezika koji koriste postupke anotiranja kao što su: korenovanje (eng. stemming), lematizacija (eng. lemmatisation), označavanje vrstama reči (eng. PoS tagging), semantička anotacija i dr. Kako kvalitet ručne anotacije utiče na uspešnost ovih modela i metoda, to je vrlo važno razviti i primeniti postupke za ocenu kvaliteta ručne anotacije. Metode koje se koriste za ocenu kvaliteta ručne anotacije dva ili više anotatora su statističke ocene saglasnosti anotatora i to su najčešće Fleiss’ kappa, Cohen’s kappa i Krippendorff’s alpha ocene, čiju primenu ćemo prikazati na korpusu ironičnih tvitova – ručno anotiranih i ocenjenih pomoću veb aplikacije razvijene da obezbedi definisanje željenog korpusa, njegovu ručnu anotaciju od strane većeg broja anotatora i statističku ocenu kvaliteta anotacije.

Predavač: Danilo Aleksić

Naslov predavanja: AUTOMATSKO PRIKUPLjANjE I OBRADA GRAĐE ZA JEDNO MORFOLOŠKO ISTRAŽIVANjE

Apstrakt: Izlagaće se informatička strana lingvističkog istraživanja čiji su rezultati predstavljeni u referatu Animatnost i žive mašine na ovogodišnjem Naučnom sastanku slavista u Vukove dane. Ispitivana je distribucija padežnih nastavaka za akuzativ jednine kod imenica m. roda I vrste koje označavaju (relativno) samostalne mašine, npr. robot i android, a to je zahtevalo da se utvrdi frekvencija neočekivanih formi akuzativa. Elektronski korpus srpskog jezika nije donosio dovoljno rezultata za uverljiv statistički pregled, pa je bilo potrebno napraviti poseban korpus. Naročite praktične probleme stvarao je „novinski” deo korpusa, koji je trebalo sastaviti od velikog broja kraćih tekstova sa raznih informativnih portala. Kako bi se taj posao obavio brže i urednije, napisan je program u Python-u. Ovom prilikom će se govoriti o funkcijama i strukturi tog programa, kao i o obradi građe van Python-a – pomoću regularnih izraza i u gotovim alatima koji su dostupni na internetu – sa osvrtima na mogućnosti ovih metoda i izazove u njihovoj primeni.



Nažalost nije moguće ostaviti komentar.