Srpski korpus parafraza: paraphrase.sr

Srp­ski kor­pus para­fra­za (paraphrase.sr) sasto­ji se od 1194 paro­va reče­ni­ca pri­ku­plje­nih iz novin­skih izvo­ra na inter­ne­tu. Sva­kom paru reče­ni­ca je ruč­no dode­lje­na binar­na oce­na slič­no­sti koja govo­ri da li su reče­ni­ce u paru dovolj­no seman­tič­ki slič­ne da bi se mogle sma­tra­ti bli­skim para­fra­za­ma. Kor­pus sadr­ži 553 para reče­ni­ca za koje je pro­ce­nje­no da su seman­tič­ki ekvi­va­lent­ne (46,31% od ukup­nog bro­ja), i 641 par seman­tič­ki razli­či­tih reče­ni­ca (53,69% od ukup­nog bro­ja).

Autor
Vuk Bata­no­vić
Dostup­nost
Kor­pus i nje­go­va doku­men­ta­ci­ja se mogu pro­na­ći na paraphrase.sr Git­Hub repo­zi­to­ri­ju­mu.
Publi­ka­ci­je
  • Vuk Bata­no­vić, Bojan Fur­lan, Boško Niko­lić (2011). Sof­tver­ski sistem za odre­đi­va­nje seman­tič­ke slič­no­sti krat­kih tek­sto­va na srp­skom jezi­ku. Zbor­nik rado­va sa 19. tele­ko­mu­ni­ka­ci­o­nog foru­ma (TELFOR 2011), pp. 1249–1252, Beo­grad, Srbi­ja. [Link]
  • Bojan Fur­lan, Vuk Bata­no­vić, Boško Niko­lić (2013). Seman­tic simi­la­ri­ty of short texts in lan­gu­a­ges with a defi­ci­ent natu­ral lan­gu­a­ge pro­ces­sing sup­port. Deci­si­on Sup­port Systems, Vol. 55, No. 3, pp. 710–719. [Link]


Licenca i citiranje

Resurs na ovoj stra­ni­ci dostu­pan je pod licen­com Cre­a­ti­ve Com­mons Attri­bu­ti­on-Non­Com­mer­ci­al-Sha­re­A­li­ke 4.0 Inter­na­ti­o­nal Licen­se (Autor­stvo — Neko­mer­ci­jal­no — Deli­ti pod istim uslo­vi­ma). Pre­u­zi­ma­njem se oba­ve­zu­je­te na pri­dr­ža­va­nje uslo­va licen­ce.

Creative Commons License

Pri­li­kom upo­tre­be resur­sa oba­ve­zno je citi­ra­nje rado­va nave­de­nih uz nje­ga i stra­ni­ce ReLDI repo­zi­to­ri­ju­ma.