Skup kratkih tekstova za analizu sentimenta na srpskom jeziku: SentiComments.SR

Skup poda­ta­ka SentiComments.SR sadr­ži sle­de­ća tri kor­pu­sa:

  • Glav­ni SentiComments.SR kor­pus, koji se sasto­ji iz 3490 komen­ta­ra iz film­skog dome­na
  • Film­ski veri­fi­ka­ci­o­ni kor­pus, koji se sasto­ji iz 464 komen­ta­ra iz film­skog dome­na
  • Knji­žev­ni veri­fi­ka­ci­o­ni kor­pus, koji se sasto­ji iz 173 komen­ta­ra iz knji­žev­nog dome­na

Glav­ni SentiComments.SR kor­pus je izgra­đen kori­šće­njem komen­ta­ra pose­ti­la­ca sa saj­ta kakavfilm.com, koji sadr­ži film­ske recen­zi­je na srp­skom jezi­ku. Gra­đa za film­ski veri­fi­ka­ci­o­ni koprus je dobi­je­na sa dva dru­ga saj­ta na srp­skom sa recen­zi­ja­ma fil­mo­va — gledajme.rs i happynovisad.com. Komen­ta­ri za knji­žev­ni veri­fi­ka­ci­o­ni kor­pus su tako­đe dobi­je­ni sa saj­ta happynovisad.com. Komen­ta­ri koji su sadr­ža­li više od pre­de­fi­ni­sa­nog gor­njeg pra­ga u pogle­du bro­ja toke­na (dobi­je­nih osnov­nom toke­ni­za­ci­jom blan­ko zna­ko­vi­ma) su odstra­nje­ni, kao i komen­ta­ri koji nisu bili napi­sa­ni na srp­skom jezi­ku.

Šest ozna­ka je kori­šće­no u obe­le­ža­va­nju sen­ti­men­ta tek­sto­va: +1, -1, +M, -M, +NS, i -NS, dok je doda­va­nje nastav­ka ‘s’ na kraj ozna­ke upo­tre­blja­va­no da se obe­le­ži pri­su­stvo sar­ka­zma u komen­ta­ru. Smer­ni­ce pri­me­nje­ne tokom dode­lji­va­nja ozna­ka sen­ti­men­ta poda­ci­ma iz SentiComments.SR sku­pa su opi­sa­ne u rado­vi­ma nave­de­nim u odelj­ku Publi­ka­ci­je. Glav­ni SentiComments.SR kor­pus je zajed­nič­ki ano­ti­ra­lo dvo­je ano­ta­to­ra, te sto­ga sva­ki komen­tar iz ovog kor­pu­sa ima jed­nu jedin­stve­nu ozna­ku sen­ti­men­ta. Veri­fi­ka­ci­o­ni kor­pu­si su kori­šće­ni za pro­ce­nu kva­li­te­ta, efi­ka­sno­sti i eko­no­mič­no­sti pri­me­nje­nog siste­ma ozna­ča­va­nja sen­ti­men­ta, zbog čega tek­sto­ve iz ovih kor­pu­sa pra­te odvo­je­ne ozna­ke sen­ti­men­ta koje je dode­li­lo šest ano­ta­to­ra.

Autor
Vuk Bata­no­vić
Dostup­nost
Skup poda­ta­ka i nje­go­va doku­men­ta­ci­ja se mogu pro­na­ći na SentiComments.SR Git­Hub repo­zi­to­ri­ju­mu.
Publi­ka­ci­je
Vuk Bata­no­vić, Miloš Cve­ta­no­vić, Boško Niko­lić (2020). A ver­sa­ti­le fra­me­work for reso­ur­ce-limi­ted sen­ti­ment arti­cu­la­ti­on, anno­ta­ti­on and ana­lysis of short texts. PLoS ONE 15(11): e0242050. [Link]
Vuk Bata­no­vić (2020). Meto­do­lo­gi­ja reša­va­nja seman­tič­kih pro­ble­ma u obra­di krat­kih tek­sto­va napi­sa­nih na pri­rod­nim jezi­ci­ma sa ogra­ni­če­nim resur­si­ma. Dok­tor­ska diser­ta­ci­ja, Uni­ver­zi­tet u Beo­gra­du — Elek­tro­teh­nič­ki fakul­tet. [Link]  (sadr­ži celo­kup­na uput­stva za ano­ta­ci­ju na srp­skom jezi­ku)


Licenca i citiranje

Resurs na ovoj stra­ni­ci dostu­pan je pod licen­com Cre­a­ti­ve Com­mons Attri­bu­ti­on-Non­Com­mer­ci­al-Sha­re­A­li­ke 4.0 Inter­na­ti­o­nal Licen­se (Autor­stvo — Neko­mer­ci­jal­no — Deli­ti pod istim uslo­vi­ma). Pre­u­zi­ma­njem se oba­ve­zu­je­te na pri­dr­ža­va­nje uslo­va licen­ce.

Creative Commons License

Pri­li­kom upo­tre­be resur­sa oba­ve­zno je citi­ra­nje rado­va nave­de­nih uz nje­ga i stra­ni­ce ReLDI repo­zi­to­ri­ju­ma.