10 Dec Srpski korpus parafraza: paraphrase.sr
Srpski korpus parafraza (paraphrase.sr) sastoji se od 1194 parova rečenica prikupljenih iz novinskih izvora na internetu. Svakom paru rečenica je ručno dodeljena binarna ocena sličnosti koja govori da li su rečenice u paru dovoljno semantički slične da bi se mogle smatrati bliskim parafrazama. Korpus sadrži 553 para rečenica za koje je procenjeno da su semantički ekvivalentne (46,31% od ukupnog broja), i 641 par semantički različitih rečenica (53,69% od ukupnog broja).
- Vuk Batanović, Bojan Furlan, Boško Nikolić (2011). Softverski sistem za određivanje semantičke sličnosti kratkih tekstova na srpskom jeziku. Zbornik radova sa 19. telekomunikacionog foruma (TELFOR 2011), pp. 1249–1252, Beograd, Srbija. [Link]
- Bojan Furlan, Vuk Batanović, Boško Nikolić (2013). Semantic similarity of short texts in languages with a deficient natural language processing support. Decision Support Systems, Vol. 55, No. 3, pp. 710–719. [Link]