02 May Hrvatski leksikon: hrLex
hrLex je flektivni leksikon hrvatskog jezika.
Veličina leksikona jest 164,206 lema, odnosno 6,427,709 površinskih oblika.
Svaka natuknica u leksikonu sastoji se od osmorki u obliku (površinski oblik, lema, MSD, MSD odlike, UPOS, morfološke odlike, apsolutna frekvencija, frekvencija na milijun pojavnica).
Frekvencije su procijenjene na temelju hrWaCa, hrvatskog mrežnog korpusa.
Skup morfosintaktičkih oznaka korištenih u korpusu u skladu je sa smjernicama MULTEXT-East V6 skupa oznaka za srpsko-hrvatski makrojezik, a dostupan je ovdje.
hrLexu se također može pristupiti, te ga se može pretraživati online, koristeći naše web servise. Oni se također mogu koristiti kao API (sučelje za programiranje aplikacija, eng. application programming interface).
Nikola Ljubešić, Filip Klubička, Željko Agić, Ivo-Pavao Jazbec (2016). New Inflectional Lexicons and Training Corpora for Improved Morphosyntactic Annotation of Croatian and Serbian. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16). Portorož, Slovenia. [Link] [.bib]