Označeni korpus hrvatskog jezika: hr500k

hr500k je refe­rent­ni tre­ning kor­pus hrvat­skih tek­sto­va koji sadr­ži 900 doku­me­na­ta podi­je­lje­nih u 24 794 reče­ni­ce, ili 506 457 pojav­ni­ce.
On pred­sta­vlja pro­ši­re­nje pret­hod­nih ozna­če­nih kor­pu­sa hrvat­skog jezi­ka, poput SETimes.HR i SETimes.HR+.
Kor­pus je ruč­no ozna­čen na razi­na­ma:

  • Seg­men­ta­ci­je na pojav­ni­ce, reče­ni­ce, i doku­men­te
  • Mor­fo­sin­tak­tič­ke ozna­ke
  • Leme
  • Ovi­sno­sne sin­tak­se
  • Seman­tič­kih ulo­ga
  • Ime­no­va­nih enti­te­ta

Cije­li kor­pus je ozna­čen na razi­ni­na­ma leme i mor­fo­sin­tak­tič­ke ozna­ke. Skup mor­fo­sin­tak­tič­kih ozna­ka kori­šte­nih u kor­pu­su u skla­du je sa smjer­ni­ca­ma revi­di­ra­nog MUL­TE­XT-East V5 sku­pa ozna­ka za hrvat­ski i srp­ski, a dostu­pan je ovdje.
Ovi­sno­sna sin­tak­sa je ozna­če­na pre­ma spe­ci­fi­ka­ci­ji Uni­ver­sal Depen­den­cy v2 (UDv2) i obu­hva­ta prve dvi­je peti­ne hr500k, tj. prvih 197 028 pojav­ni­ca u kor­pu­su.
Seman­tič­ke ulo­ge su ozna­če­ne u naj­sta­ri­jem dije­lu kor­pu­sa, odno­sno u prva 163 doku­men­ta / 83 630 pojav­ni­ce, koji potje­ču iz prvo­bit­nog SETimes.HR kor­pu­sa.
Ozna­ke ime­no­va­nih enti­te­ta pokri­va­ju cije­li hr500k i data su u IOB2 for­ma­tu, uz razli­ko­va­nje pet tipo­va enti­te­ta — oso­be (PER), posvoj­ni pri­dje­vi izve­de­ni od ime­na (DERIV-PER), loka­ci­je (LOC), orga­ni­za­ci­je (ORG), i razno (MISC).

Auto­ri
Niko­la Lju­be­šić, Želj­ko Agić, Filip Klu­bič­ka, Vuk Bata­no­vić, Tomaž Erja­vec
Dostup­nost
Za lokal­nu upo­ra­bu, tek­stu­al­na ina­či­ca kor­pu­sa hr500k može se pre­u­ze­ti sa CLARIN.SI repo­zi­to­ri­ja. Kor­pu­su se tako­đer može pri­stu­pi­ti pre­ko NoSketch Engi­nea i Kon­Te­xta.
Publi­ka­ci­je
Postu­pak izgrad­nje kor­pu­sa opi­san je u slje­de­ćem član­ku:
Niko­la Lju­be­šić, Želj­ko Agić, Filip Klu­bič­ka, Vuk Bata­no­vić, and Tomaž Erja­vec (2018). hr500k – A Refe­ren­ce Tra­i­ning Cor­pus of Cro­a­ti­an. In Pro­ce­e­dings of the Con­fe­ren­ce on Lan­gu­a­ge Tech­no­lo­gi­es & Digi­tal Huma­ni­ti­es 2018 (JT-DH 2018), pp. 154–161, Lju­blja­na, Slo­ve­nia. [Link]


Licenca i citiranje

Resurs na ovoj stra­ni­ci dostu­pan je pod licen­com Cre­a­ti­ve Com­mons Attri­bu­ti­on-Sha­re­A­li­ke 4.0 Inter­na­ti­o­nal Licen­se. Pre­u­zi­ma­njem se oba­ve­zu­je­te na pri­dr­ža­va­nje uslo­va licen­ce.

Creative Commons License

Pri­li­kom upo­tre­be resur­sa oba­ve­zno je citi­ra­nje rado­va nave­de­nih uz nje­ga i stra­ni­ce ReLDI repo­zi­to­ri­ju­ma.