30 Jun Automatski označivač vrsta riječi (POS) i morfosintaktičkih oznaka (MSD) za hrvatski i srpski [stari]
Ovde je opisana stara verzija alata čija je novija i unapređena varijanta trenutno dostupna u okviru NLP paketa, ali ne i u obliku veb servisa.
Alat za automatsko označavanje na razini morfosintakse. Ima mogućnost označavanja hrvatskog i srpskog jezika, budući da sadrži modele za oba jezika.
Označivač se temelji na algoritmu CRF (eng. conditional random forest) koji je treniran na ručno označenom korpusu hrvatskog jezika veličine 500.000 pojavnica u kombinaciji sa hrLex/srLex leksikonima za svaki od jezika.
Skup morfosintaktičkih oznaka korištenih u korpusu u skladu je sa smjernicama revidiranog MULTEXT-East V5 skupa oznaka za hrvatski i srpski, a dostupan je ovdje.
- Hrvatski: 92.53%
- Srpski: 92.33%
- Za lokalnu uporabu, programski kod i modeli alata mogu se preuzeti sa sljedećeg GitHub repozitorija.
- Lematizator se može koristiti i online, preko našeg mrežnog sučelja koje se nalazi ovdje.
- Alatu i internetskom servisu može se pristupiti i preko naše programske knjižice za Python, koja se može preuzeti sa CLARIN.SI GitHub repozitorija. Upustva za instalaciju ReLDI programske knjižice sa GitHuba nalaze se ovdje (na srpskom). Alternativni i najlakši način za instalaciju jest koristeći PyPI iz komandne linije. (Detaljnije upute također na GitHubu.)
Za obradu veće količine podataka preporučuje se treća opcija, odnosno korištenje ReLDI programske knjižice za Python.
Nikola Ljubešić, Filip Klubička, Željko Agić, Ivo-Pavao Jazbec (2016). New Inflectional Lexicons and Training Corpora for Improved Morphosyntactic Annotation of Croatian and Serbian. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16). Portorož, Slovenia. [Link] [.bib]