Označeni korpus srpskog jezika: SETimes.SR

SETimes.SR je refe­rent­ni tre­ning kor­pus srp­skih tek­sto­va pri­ku­plje­nih iz SETi­mes para­lel­nog kor­pu­sa novin­skih čla­na­ka.
On sadr­ži 163 doku­men­ta, pode­lje­na na 3891 reče­ni­cu, odno­sno 86 726 toke­na.
Kor­pus je ruč­no ozna­čen na nivou:

  • Seg­men­ta­ci­je na toke­ne, reče­ni­ce, i doku­men­te
  • Mor­fo­sin­tak­tič­kih ozna­ka
  • Lema
  • Sin­tak­snih depen­den­ci­ja
  • Ime­no­va­nih enti­te­ta

Skup mor­fo­sin­tak­tič­kih ozna­ka kori­šće­nih u kor­pu­su u skla­du je sa smer­ni­ca­ma revi­di­ra­nog MUL­TE­XT-East V5 sku­pa ozna­ka za bosan­ski, hrvat­ski i srp­ski, a dostu­pan je ovde.
Sin­tak­sne depen­den­ci­je su ozna­če­ne pre­ma spe­ci­fi­ka­ci­ji Uni­ver­sal Depen­den­cy v2 (UDv2).
Ozna­ke ime­no­va­nih enti­te­ta su date u IOB2 for­ma­tu, uz razli­ko­va­nje pet tipo­va enti­te­ta — oso­be (PER), pri­svoj­ni pri­de­vi izve­de­ni od ime­na (DERIV-PER), loka­ci­je (LOC), orga­ni­za­ci­je (ORG), i razno (MISC).
Više infor­ma­ci­ja o kor­pu­su može se pro­na­ći na nje­go­vom Git­Hub repo­zi­to­ri­ju­mu.

Auto­ri
Vuk Bata­no­vić, Niko­la Lju­be­šić, Tanja Samar­džić
Dostup­nost
Za lokal­nu upo­tre­bu, tek­stu­al­na ver­zi­ja kor­pu­sa SETimes.SR može se pre­u­ze­ti s CLARIN.SI repo­zi­to­ri­ju­ma. SETimes.SR je dostu­pan i na repo­zi­to­ri­ju­mu srp­ske ban­ke uni­ver­zal­nih depen­den­ci­ja. Kor­pu­su se tako­đe može pri­stu­pi­ti pre­ko NoSketch Engi­ne-a i Kon­Te­xt-a.
Publi­ka­ci­je
Postu­pak izgrad­nje kor­pu­sa opi­san je u sle­de­ćem član­ku:
Vuk Bata­no­vić, Niko­la Lju­be­šić, and Tanja Samar­džić (2018). SETimes.SR – A Refe­ren­ce Tra­i­ning Cor­pus of Ser­bi­an. In Pro­ce­e­dings of the Con­fe­ren­ce on Lan­gu­a­ge Tech­no­lo­gi­es & Digi­tal Huma­ni­ti­es 2018 (JT-DH 2018), pp. 11–17, Lju­blja­na, Slo­ve­nia. [Link]

Dodat­ne infor­ma­ci­je o UD ano­ta­ci­ji ovog kor­pu­sa su dostup­ne u sle­de­ćem član­ku:
Tanja Samar­džić, Mir­ja­na Sta­ro­vić, Želj­ko Agić, Niko­la Lju­be­šić (2017). Uni­ver­sal Depen­den­ci­es for Ser­bi­an in Com­pa­ri­son with Cro­a­ti­an and Other Sla­vic Lan­gu­a­ges. In Pro­ce­e­dings of the 6th Works­hop on Bal­to-Sla­vic Natu­ral Lan­gu­a­ge Pro­ces­sing. Valen­cia, Spa­in. [Link] [.bib]



Licenca i citiranje

Resurs na ovoj stra­ni­ci dostu­pan je pod licen­com Cre­a­ti­ve Com­mons Attri­bu­ti­on-Sha­re­A­li­ke 4.0 Inter­na­ti­o­nal Licen­se. Pre­u­zi­ma­njem se oba­ve­zu­je­te na pri­dr­ža­va­nje uslo­va licen­ce.

Creative Commons License

Pri­li­kom upo­tre­be resur­sa oba­ve­zno je citi­ra­nje rado­va nave­de­nih uz nje­ga i stra­ni­ce ReLDI repo­zi­to­ri­ju­ma.