02 May Označeni korpus hrvatskog jezika: hr500k
hr500k je referentni trening korpus hrvatskih tekstova koji sadrži 900 dokumenata podijeljenih u 24 794 rečenice, ili 506 457 pojavnice.
On predstavlja proširenje prethodnih označenih korpusa hrvatskog jezika, poput SETimes.HR i SETimes.HR+.
Korpus je ručno označen na razinama:
- Segmentacije na pojavnice, rečenice, i dokumente
- Morfosintaktičke oznake
- Leme
- Ovisnosne sintakse
- Semantičkih uloga
- Imenovanih entiteta
Cijeli korpus je označen na razininama leme i morfosintaktičke oznake. Skup morfosintaktičkih oznaka korištenih u korpusu u skladu je sa smjernicama revidiranog MULTEXT-East V5 skupa oznaka za hrvatski i srpski, a dostupan je ovdje.
Ovisnosna sintaksa je označena prema specifikaciji Universal Dependency v2 (UDv2) i obuhvata prve dvije petine hr500k, tj. prvih 197 028 pojavnica u korpusu.
Semantičke uloge su označene u najstarijem dijelu korpusa, odnosno u prva 163 dokumenta / 83 630 pojavnice, koji potječu iz prvobitnog SETimes.HR korpusa.
Oznake imenovanih entiteta pokrivaju cijeli hr500k i data su u IOB2 formatu, uz razlikovanje pet tipova entiteta — osobe (PER), posvojni pridjevi izvedeni od imena (DERIV-PER), lokacije (LOC), organizacije (ORG), i razno (MISC).
Nikola Ljubešić, Željko Agić, Filip Klubička, Vuk Batanović, and Tomaž Erjavec (2018). hr500k – A Reference Training Corpus of Croatian. In Proceedings of the Conference on Language Technologies & Digital Humanities 2018 (JT-DH 2018), pp. 154–161, Ljubljana, Slovenia. [Link]