Srpski korpus kratkih novinskih tekstova za određivanje semantičke sličnosti: STS.news.sr

Srp­ski kor­pus krat­kih novin­skih tek­sto­va za odre­đi­va­nje seman­tič­ke slič­no­sti (STS.news.sr) sasto­ji se od 1192 para reče­ni­ca na srp­skom, ili oko 64 hilja­de toke­na, pri­ku­plje­nih iz novin­skih izvo­ra na inter­ne­tu i napi­sa­nih na lati­ni­ci. Sva­kom paru reče­ni­ca su ruč­no dode­lji­va­ne gra­nu­li­ra­ne oce­ne seman­tič­ke slič­no­sti na ska­li od 0 do 5. Final­ne oce­ne su dobi­je­ne kao pro­sek indi­vi­du­al­nih oce­na pet ano­ta­to­ra.

Paro­vi reče­ni­ca u ovom sku­pu poda­ta­ka su pre­u­ze­ti iz Srp­skog kor­pu­sa para­fra­za (paraphrase.sr). Meto­do­lo­gi­ja nji­ho­ve ano­ta­ci­je je uglav­nom pra­ti­la onu koja je usta­no­vlje­na kroz SemE­val STS zadat­ke (2012–2017). Uput­stva za ano­ta­ci­ju koja su kori­šće­na pri kre­i­ra­nju STS.news.sr kor­pu­sa su dostup­na ovde. Alat STSAn­no je upo­tre­bljen u pro­ce­su ano­ta­ci­je.

Pro­seč­na sagla­snost ano­ta­to­ra sa samim sobom, izra­že­na u obli­ku Pir­so­no­vog koe­fi­ci­jen­ta kore­la­ci­je r, izno­si 0.93. Pro­seč­na sagla­snost ano­ta­to­ra sa pro­se­kom oce­na osta­lih ano­ta­to­ra izno­si 0.92, što je efek­tiv­no gor­nja gra­ni­ca za per­for­man­se mode­la za odre­đi­va­nje seman­tič­ke slič­no­sti na ovom sku­pu poda­ta­ka.

Autor
Vuk Bata­no­vić
Dostup­nost
Kor­pus i nje­go­va doku­men­ta­ci­ja se mogu pro­na­ći na STS.news.sr Git­Hub repo­zi­to­ri­ju­mu.
Publi­ka­ci­je
Vuk Bata­no­vić, Miloš Cve­ta­no­vić, Boško Niko­lić (2018). Fine-gra­i­ned Seman­tic Textu­al Simi­la­ri­ty for Ser­bi­an. Pro­ce­e­dings of the 11th Inter­na­ti­o­nal Con­fe­ren­ce on Lan­gu­a­ge Reso­ur­ces and Eva­lu­a­ti­on (LREC 2018), pp. 1370–1378, Miya­za­ki, Japan. [Link][.bib]


Licenca i citiranje

Instru­ment na ovoj stra­ni­ci dostu­pan je pod licen­com Cre­a­ti­ve Com­mons Attri­bu­ti­on-Non­Com­mer­ci­al-Sha­re­A­li­ke 4.0 Inter­na­ti­o­nal Licen­se (Autor­stvo — Neko­mer­ci­jal­no — Deli­ti pod istim uslo­vi­ma). Pre­u­zi­ma­njem se oba­ve­zu­je­te na pri­dr­ža­va­nje uslo­va licen­ce.

Creative Commons License

Pri­li­kom upo­tre­be instru­men­ta oba­ve­zno je citi­ra­nje rado­va nave­de­nih uz nje­ga i stra­ni­ce ReLDI repo­zi­to­ri­ju­ma.