Stemeri za srpski i hrvatski: SCStemmers

Ovaj paket uklju­ču­je četi­ri rani­je obja­vlje­na algo­rit­ma za svo­đe­nje reči na srp­skom i hrvat­skom na nji­hov osnov­ni oblik, reim­ple­men­ti­ra­na u pro­gram­skom jezi­ku Java:

  • Pohlep­ni i opti­mal­ni ste­mer za srp­ski zasno­van na obu­hva­ta­nju sufik­sa, auto­ri Vla­do Keše­lj i Dan­ko Šip­ka
  • Dora­da pome­nu­tog pohlep­nog ste­me­ra, autor Niko­la Milo­še­vić
  • Jed­no­sta­van ste­mer za hrvat­ski v0.1”, auto­ri Niko­la Lju­be­šić i Ivan Pan­džić

Svi ste­me­ri oče­ku­ju da je ula­zni tekst kodi­ran u UTF-8 for­ma­tu. Izla­zni tek­sto­vi su tako­đe kodi­ra­ni kao UTF-8.

Autor
Vuk Bata­no­vić
Dostup­nost
Paket i detalj­na doku­men­ta­ci­ja mogu se pre­u­ze­ti sa SCStem­mers Git­Hub repo­zi­to­ri­ju­ma.
Publi­ka­ci­je

Paket SCStem­mers je pred­sta­vljen u sle­de­ćem radu:

Vuk Bata­no­vić, Boško Niko­lić, Milan Milo­sa­vlje­vić (2016). Reli­a­ble Base­li­nes for Sen­ti­ment Ana­lysis in Reso­ur­ce-Limi­ted Lan­gu­a­ges: The Ser­bi­an Movie Revi­ew Data­set. Pro­ce­e­dings of the 10th Inter­na­ti­o­nal Con­fe­ren­ce on Lan­gu­a­ge Reso­ur­ces and Eva­lu­a­ti­on (LREC 2016), pp. 2688–2696, Por­to­rož, Slo­ve­nia. [Link] [.bib]

Ori­gi­nal­ni član­ci koji opi­su­ju sva­ki imple­men­ti­ra­ni algo­ri­tam za ste­mo­va­nje su:

  • Za pohlep­ni i opti­mal­ni ste­mer za srp­ski zasno­van na obu­hva­ta­nju sufik­sa: Vla­do Keše­lj, Dan­ko Šip­ka (2008). Pri­stup izgrad­nji ste­me­ra i lema­ti­zo­ra za jezi­ke s boga­tom flek­si­jom i oskud­nim resur­si­ma zasno­van na obu­hva­ta­nju sufik­sa , Info­te­ka 9(1–2), pp. 21–31. [Link]
  • Za dora­du pome­nu­tog pohlep­nog ste­me­ra: Niko­la Milo­še­vić (2012). Stem­mer for Ser­bi­an lan­gu­a­ge. arXiv pre­print arXiv:1209.4471. [Link]
  • Za “Jed­no­sta­van ste­mer za hrvat­ski v0.1”: Niko­la Lju­be­šić, Damir Boras, Ozren Kubel­ka (2007). Retri­e­ving Infor­ma­ti­on in Cro­a­ti­an: Buil­ding a Sim­ple and Effi­ci­ent Rule-Based Stem­mer. Digi­tal Infor­ma­ti­on and Heri­ta­ge, pp. 313–320. [Link]


Licenca i citiranje

Sof­tver na ovoj stra­ni­ci dostu­pan je pod licen­com GNU Gene­ral Public Licen­se 3.0. Pre­u­zi­ma­njem se oba­ve­zu­je­te na pri­dr­ža­va­nje uslo­va licen­ce.

Pri­li­kom upo­tre­be sof­tve­ra oba­ve­zno je citi­ra­nje rado­va nave­de­nih uz nje­ga i stra­ni­ce ReLDI repo­zi­to­ri­ju­ma.